专访杨天若院士:大数据是“人机物融合”的血液,存在三大“卡脖子”问题

2021-10-28 16:22:30     来源:中国科技新闻网

中国科技新闻网10月28日讯(高运韬)近年来,随着信息技术的飞速发展,其应用特征已经逐步从人机或物机二元世界融合向以社会资源人、信息资源机和物理资源物三元世界融合演进。

加拿大工程院院士、欧洲科学院院士杨天若在“2021年大数据科技传播与应用高峰论坛暨‘科创中国’试点城市推进式”会后接受了中国科技新闻网的采访。他表示:“物联网的时代来临,大数据是当下串联人、机、物最为有效的途径。目前,大数据在蓬勃发展的同时也面临着一些亟待重视的问题。”

加拿大工程院院士、欧洲科学院院士杨天若(中国科技新闻网/摄)

大数据是人机物融合最为有效的手段

随着互联网和物联网的高速发展及人类信息网络的高速扩展,信息网络逐渐涵盖传统人类社会网络和物理世界的绝大部分信息,形成集人、机 、物于一体的三元融合型信息世界。

“我们日常生活中的每一个场景,比如交通、医疗、零售业以及我们身边的智慧家庭等,都只是人、机、物融合的具体案例。数据就像人、机、物这一体系中流淌的血液,将三者有机地结合起来。”杨天若向中国科技新闻网表示。

2018年,知名零售商亚马逊公司推出其首个无人便利店——Amazon Go。这是一家没有收银员的商店,顾客不必排队等待购物。要进入商店只用扫描他们的智能手机即可。

商店里遍布传感器和摄像头,顾客在商店中购物,摄像头能够区分其中的每一个人,并且跟踪他们放入购物车或返回货架的所有产品。

重量传感器提供了一个额外的控制点:他们可以识别特定的产品已经不在货架。当顾客完成购物时,他们选择的所有产品都显示在真实和虚拟的篮子中,顾客可以离开商店,系统将进行收费。

事实上,Amazon Go就是人、机、物融合的基础体系和大数据分析技术的具体应用。

杨天若院士提到:“针对人类、物理以及计算机的研究都存在丰富的学科体系以及方法论,但想要将人、机、物三者进行融合串联,目前只能依靠数据。另外,大家对‘人机物融合’的研究还处于一种‘零散’的状态,包括对大数据在‘人机物融合’中应用的研究并没有形成一套完善的理论。”

杨天若院士

大数据发展面临三大“卡脖子”问题

“大家现在对这一领域的应用和研究,有点像‘老瓶装新酒’。把原有的理论方法一用再用,因而也没有一些完备的、突破性的理论方法。所以大数据的发展目前主要面临三个问题。”杨天若表示,“第一个问题是数据快速处理,数据这么多,体积这么大,应该如何进行迅速的反应,及时的处理。”

由于需要处理的数据量太大,并且数据增长过快,而业务需求和竞争压力对数据处理的实时性、有效性又提出了更高要求。传统的系统软件根本无法应付。在这种情况下,从业者无法有效地对海量数据进行  有效地收集、处理和分析。

由于不能从海量的数据中迅速获取信息,便出现了各种各样的风险,并对各种硬、软件的数据存储以及数据处理性能提出了非常高的要求。

“第二个问题是数据高效分析,不仅仅是数据体量的问题,还存在着视频、图片等各种各样的形式以及数据质量的高低不齐等问题。方法理论也没有突破。”

美国作者纳特·西尔弗在其出版物《信号与噪声:为什么大多数的预测都是错误的》【The Signal and the Noise: Why most predictions fail and some don’t (中国科技新闻网/译)】中提出了质疑:真的是信息越多,离真相越近吗?

在海量的、尤其是形态各异的数据当中,哪些数据能够作为信号,用于判断事件现状以及未来发展走向;又有哪些数据是对判断只起干扰作用的噪声,很难进行分辨。如果一味的使用某些固定的方法模型去分析数据,数据可靠性就无法受到保障,就无法对真实情况及未来趋势做出合理判断。

举一个例子——“过度拟合”。在统计中,过度拟合是“过于紧密或精确地对应于特定数据集的分析结果,因此可能无法拟合其他数据或可靠地预测未来的观察结果”。一种过度拟合模型是一个统计模型包含多个参数比可以由数据是合理的。过度拟合的本质是在不知不觉中提取了一些残余变化(即噪声),好像该变化代表了基础模型结构一样。

北京的交通信息管理中心的监控视频资料平均每过21天就会被覆盖,在如此庞大的视频数据量的基础上,视频清晰度参差不齐,数据分析过程就会受到所谓的“噪声”干扰,从而出现错误。

宾夕法尼亚大学的理查德·伯克教授建立了一个大数据模型,他声称这个模型可以预测一个判缓刑的人一旦释放是否会再次犯罪。

伯克说这一模型对未来预测的准确性可以达到75%,但也仅仅是75%。如果严格按照这一模型来执行,就意味着,每四个人里就有一个人是被误判。

以上提到的两个大数据分析中的实例,其他领域也是同理。

“针对数据处理和分析的瓶颈,现在大家都是在自己的领域去研究方法以及理论,没有整体突破性的进展。”杨天若院士表示。

大数据隐私将愈加受到关注

杨天若告诉中国科技新闻网:“除了数据处理以及分析上的瓶颈,还有一个十分重要的卡脖子问题。目前,大家还没有感到紧迫感,那就是大数据带来的隐私问题。”

“在西方国家学习生活期间,我能感觉到他们对这个情况是非常看重的。我们的优势是能够获取大量的数据,但是大家对隐私问题还没有那么敏感。”

有一个常见的现象,用户在网页上搜索的信息,可能会在任何一个APP中发现与其相关的广告。甚至连社交软件上语音对话的内容,都可能出现在某一条手机推送上面。

这似乎意味着,大数据时代下,我们正在被各式各样的硬件软件所监视:淘宝在监视着我们近期的购物需求;百度在观察着我们想要解决的问题;抖音也在编织一个看似完美的信息茧房。然而,大数据时代下的隐私问题远远不止于此。

据了解,2018年3月,《纽约时报》等媒体揭露称一家服务特朗普竞选团队的数据分析公司Cambridge Analytica获得了Facebook数千万用户的数据,并进行违规滥用。

纽约时报相关报道原标题

Cambridge Analytica自称主要为政界人士和企业客户提供消费者研究、定向广告和其他与数据有关的服务。

Cambridge Analytica 官网截图

该公司宣称,它可以开发消费者和选民的心理特征,然后用这个“秘密武器”来影响消费者和选民的意愿,这比传统广告更加有效。其最著名的工作是曾协助原美国总统特朗普的2016年总统竞选活动。另外,这家机构还参与到了英国退欧公投活动中。

除此之外,各种各样的机构组织对于这类数据的滥用很可能形成恶性循环。这些机构组织可以轻而易举地看到大数据的价值潜力,这极大刺激着他们进一步采集、存储并循环利用个人数据的野心。

值得一提的是,基于大数据的规模以及多维度的特性,简单匿名化的脱敏处理似乎已经失去了意义。

据中国科技新闻网了解到,普林斯顿大学的一个研究员曾表示,如果能够获得美国的信用卡数据,通过了解信用卡在某时某地进行消费,就能通过算法定位到个人。虽然这些数据都是脱敏的,没有名字,没有联系方式,但可以通过算法找到一个人的消费习惯,从而侵犯到个人隐私。

这样看来,从算法角度来分析并解决隐私问题成为了一件十分困难的事情。

“随着生活水平的提高,大家将会对大数据的隐私问题愈加关注。但当下,这也是一个‘卡脖子’的问题。”杨天若院士称。

杨天若出席“2021年大数据科技传播与应用高峰论坛暨,‘科创中国’试点城市推进式”(中国科技新闻网/摄)

杨天若简介:

加拿大工程院院士、加拿大工程研究院院士、欧洲科学院院士、IEEE/IET会士、国家特聘专家、全球高被引学者、ACM杰出科学家、海南大学讲席教授。

科技新闻传播、科技知识普及 - 中国科技新闻网
关注微信公众号(kjxw001)及微博(中国科技新闻网)
微信公众号
微博

免责声明

中国科技新闻网登载此文出于传递更多信息之目的,并不意味着赞同其观点或证实其描述。文章内容仅供参考,不构成投资建议。投资者据此操作,风险自担。


推荐阅读
已加载全部内容
点击加载更多