主页 > 专题汇 >

清华教授沈阳:大数据的本质是提升我们的洞察力

文章来源:163
发布时间:2019-11-23 19:23

  

  

本文原标题为:清华教授沈阳:大数据的本质是提升我们的洞察力

更多精彩内容,请关注《超硬核!2019网易未来大会》专题报道

杭州网讯 11月23日,由杭州市人民政府和网易集团联合主办,杭州市经济和信息化局、杭州滨江区人民政府、杭州萧山区人民政府、北京网易传媒有限公司及网易(杭州)网络有限公司承办的“2019网易未来大会”正式开幕。

“大数据本质上是提升我们洞察力之后获得数据红利。”在11月23日下午举行的“2019网易未来大会”之“5G+专场”论坛上,清华大学新闻学院教授、博导沈阳发表“5G+大数据赋能时代”主题演讲。


沈阳举了个有趣的例子:假设做养鸡大数据,记录这只鸡一辈子跑了多路?假如记录这只鸡跑了6公路,那只鸡跑了5公路,你在标价的时候,说跑得多的那只鸡健康,收费就多一点。跑600公里收20块钱,多出来的10块钱是什么?“数据红利。”

他说,数据应用里面有几个关键问题包括大数据杀熟,人工智能增长超不过天然平台的增长,这就需要我们在社会治理当中强调平台的合规性,以及重视大数据隐私权。

沈阳表示,如今新媒体的发展是青春,我们永远要跟年轻人一起,要体验年轻人喜欢的东西。大数据的本质是洞察,只有逐步提升我们的洞察力,我们才会离真相,离我们真正探索的方向越来越近。

附:以下为清华大学新闻学院教授、博导沈阳演讲内容,根据速记整理:

在未来20、30年会发生什么事?第一个是国际的增加和GDP的增长;第二个趋势在未来30年,人类将进入地球、月球和火星三个星球的时代;第三个巨大变化是机器人的广泛普及。

我相信未来再过10年、20年,我们出门每个人都会带个机器人,我要看你不顺眼,我也看不顺眼,我们俩不用打架,我们让机器人打一架。再过30年左右,我们也会看到AR增强现实的广泛普及,当然我们也会看到生物和技术的增长,我前两天提了主从世界的立状,你每天上网八个小时是世界的立状,这是我们非常巨大的变化。

在这个里面我们用大数据分析一下5G,这些企业它的声量的变化,华为的声量是最高的,在2019年中国人的心气被两件事提升了。一个是华为,二是国庆阅兵,所以我们去分析5G我们是绕不开华为的。在这里面我们也用大数据分析了一下,跟任正非有关的观点,在任正非观点当中有对5G的自信,还有反对5G威胁论,还有对未来的展望。如果从大数据角度来看很多人提的5V的模型,我们团队提了5P的模型。我们团队抓取数据大概在1.2亿条,大概在5—10年我们数据翻一百倍是没有问题的,包括物联网设备,实际上他们产生的数据量越来越大。

在数据颗粒度方面在600个左右,在互联网公司一个人的数据大概会记两百万条,所以有了大数据之后手机比你本人更了解你自己,我们可以看得到数据的颗粒度,它的分辨率特别关键。比如说现在手机里面已经有放大50倍的功能,如果未来的手机可以放大一万倍,或者你戴个智能眼镜放大一万倍,只要进这个大厅扫描大家一下就知道有多少根头发,我讲完下台再扫一下知道大家掉了多少根头发,这就是我们说的数据分辨率和它的颗粒度。

我们团队在数据模型方面前段时间在世界人工智能大会黑客马拉松里面拿了第三名,我们在中文幽默度计算大赛拿了第一名,我们要用数据算幽默呢?有一天我女儿睡不着就问机器,问sir,sir你喜不喜欢学习,sir回答我喜不喜欢不重要,重要是你喜不喜欢。当我们有了人工智能之后我们更趋近于模拟人,我们需要对幽默化、情感化进行分析,所以在数据模型当中很重要的数据模型是什么?对人本身的模拟,这是我们团队最近做的小的工作。

我们团队在虚拟新闻检测挑战拿了第一名,这个队伍参加的人比较多,500多个队伍参加。当然分析虚拟新闻是非常非常重要的,如果有虚假新闻信息发出来会直接影响股市,在朋友圈经常发假新闻你的信誉度也非常低。中老年人比较喜欢转发谣言,我不知道大家有没有注意过,因为很多转发这一类谣言没有经历过微博时代的短兵相接的辩论和公开的传播。所以我们可以看得到在数据模型比赛当中,我们用的数据模型有12个,我们把它整合起来得到一个比较好的结果,当然我们可以用数据去分析造假,比如说在微博里面转发是不是有假的,我们可以看得到在微博当中,中间这一圈全是假的,只有边上两个节点是真实的,只有真的人不会转发假的账号内容。

我们可以通过数据模型来分析造假,当然也可以分析微信阅读量当中的造假,我们曾经分析过,我们发布过专门分析造假,在下面两个事例图当中就是刷出来的量,比较规则,只要一不刷就变成直线的状态。当然最近一些软件也开始人工智能化,刷的时候也可以刷出自然曲线。

数据应用里面有几个关键问题包括大数据杀熟,人工智能增长超不过天然平台的增长,这就需要我们在社会治理当中强调平台的合规性,所以就这一点来说非常关键。

数据应用当中这是我们团队独家的研究,意识形态大数据,扫描你的微博30条就知道你表达出来的政治倾向是什么样的,我们又做了半年的优化目前准确率在82%,这个实际上使用数据来对人意识的模拟。对川普的分析,我后来把这几条都念给他了不太同意川普是一个耿直的boy。在这里面可以把一切数据可以指数化,这个大厅当中大家心情放松的指数、一刀切所造成社会后果的指数、高级黑指数都可以去做,本身用大数据我们有很重要的一块内容是什么?把各方面的东西做成指数,我上周碰到一家做洗碗大数据,已经销售了一万多台洗碗机,北京每一个餐厅买了他设备,都知道餐厅洗了多少碗。

在这里面我们也可以看得到在5P模型是什么?就是数据红利,假设做养鸡大数据,记录这只鸡一辈子跑了多路?就记录这只鸡跑了6公路那,那只鸡跑了5公路,你在标价的时候,说跑得多的那只鸡健康,收费多一点。跑600公里收20块钱,多出来的10块钱是什么?数据红利。

做大数据本质上是提升我们洞察力之后获得数据红利。比如说我们假设以喜来登酒店为例,现在还不能叫大数据,能够把每一家房间的景色包括它的温度,包括空气情况全部给你算出来,告诉你这家酒店当中哪一个房间感觉是最好的,给它加价,比如说20%,多出来的20%就是数据红利。

我前段时间提了一个模型叫五层模型,五层数据模型以隐私权来做数据分层,以人本角度,第一层是表一层数据,在网络当中的数据,表二层数据在各类垂直APP里面的数据,这个有一点点你的隐私,里一层跟机构有关的数据,已经有你的隐私的,还有里二层个人的隐私数据,里三层是你的生物基因数据,生物基因数据是非常重要的,别人拿到你的基因之后分析你得抑郁症的分析。我们有一些先验性的数据,这个时候我们是不是一定判断这个人是不是发生什么事。有了表里数据,可以在表型之后可以在表层数据当中对里层数据做一个仿真模拟,我们可以利用网络公开数据以及虚拟账号设计一套孪生系统,这套孪生系统模拟在网络公开环境当中到底会发生什么事。

整体上来说我们要从网络公开数据走向各个行业的里程数据,所以我有一个观念叫做由表及里,我们做的时候一般不要由里及表,我们的时候是隐私权,我记得在2017年两件大事,一件大事清华大学教授被骗了1800万,卖了房子以后有人骗他这个人是北大毕业的,这个当时引起了大家广泛关注。还有山东发生一个悲剧,一个女生刚考上大学,她刚考上大学以后就被人把钱骗走了,在做大数据隐私权是非常非常重要的,所以我们提出这样一条原则。

我们做由表及里的时候我们团队做了20几个行业,文化大数据,在文化当中把方方面面的网络数据以及里层数据进行对接,而不需要把数据拿出来,比如煤矿大数据可以实时看到矿井下面现在到底是不是安全的,这样数据既有外部的数据接入也有离层数据,融合的是很不错的。

总结一下,在今天发展里程新媒体发展是青春,我们永远要跟年轻人一起,要体验年轻人喜欢的东西,大数据的本质是洞察,只逐步的提升我们洞察力我们才会离我们真相,才会离我们真正探索的方向越来越近,谢谢大家!

热门评论