【瀚海数据说】大数据与智慧人生(上)
第17期
§ 编者按 §
大数据如何接地气?美国罗彻斯特大学罗杰波教授深入浅出,以他近年丰富的科研成果多角度阐述生活、大数据、和信息与智慧萃取之间可望产生的良性循环。
罗杰波教授目前就职于美国罗切斯特大学(University of Rochester, USA)计算机科学系,是IEEE,SPIE和IAPR等国际著名学会的会士(Fellow),中科大教育部长江学者、上海交通大学名誉教授,浙江大学名誉教授、大连理工大学海天学者,兼腾讯顾问。罗杰波教授曾于“柯达实验室”从事研究长达十五年,并担任该实验室首席科学家。
§ 上篇 §
大家好,今天给大家分享一些有关大数据的工作。大数据可能大家听得比较多,但是具体什么是大数据?它实际上可以用五个V来代表:第一个,就是Volume,这个量大家都知道。第二个是速度Velocity,大家也知道。另外三个V可能一般的人不大关注的,实际上这三个V更有重要性。第三个V是Variety,是什么意思呢?就是指大数据之中数据的多样性。第四个是Veracity,这个跟数据的质量有关。大数据实际上虽然大,但是大数据的很多成分实际上都是噪声。要去糟取精,就有一个数据质量的问题,这个就是Veracity。最后,大数据说到底是要落地的,在国内的话就是叫落地,也就是说要产生价值, 就是Value。
我下面主要是根据后面这三个V跟大家分享一下。
还要说一点,大数据可能不少人接触过。我们这个研究组主要研究的大数据是跟图像有关的大数据。从图像的角度说,它占的带宽和需要的存储量很大,实际上可以说最大的大数据也就是图像大数据。图像大数据听起来不错,但是实际上很难处理,这个实际上涉及一个计算机视觉的问题。计算机视觉在很长时间内是AI这个领域里发展最慢的。近来计算机视觉领域有了很大的进步,这个进步主要来源是由于深度学习。深度学习是什么概念,就是视觉问题很难解,为了解这个问题就要用更多的数据。图像数据跟文本数据相比,实际上有很大的问题。文本数据是很干净的,是分割好的,是紧凑的,其实也是一维的,那么很方便分析。相比来说图像的这个问题就比较大,有很多噪声,图像分割没有解决,然后信息量大,然后是多维度的。我希望就是在下面几十分钟给大家一个印象,大数据,特别是有关图像和多媒体的大数据,实际上是非常有用的。
我先从一个例子来把这个事情引伸出来。用医学做一个例子,几千年前人们是怎么做呢?那时候没有现代化的这些检测手段,那时候是靠“望闻问切”,实际上就是观察,这个东西是中医里的精华。实际上,在别的国家文化里也有的,像我这个slide中这幅画是一个希腊的一幅油画,它说明希腊人实际上也懂得号脉。
下面再讲一个例子,大家都应该看过“终结者3”吧?终结者第三部其实应该说是终结者中的烂片,但是它其中有一个很精彩的片段是我现在想展现给大家的。John Connor说他不想活了,有一个女性终结者在不停地追杀他,他想自行了断。John Connor的保护者Terminator (施瓦辛格)就说:“你不可以自行了断”。Terminator在对话的时候出现一个红色的屏,等到屏幕数字翻滚停止的时候,说道:“就我现在对你的判断,你瞳孔的放大情况,你皮肤的温度和你的举动,我判断有83%的可能性你是不会开枪的。”这个故事情节听起来很神奇,但是这个事情在今天我们已经能做到了。
我们为什么关心这个问题?其实是有一个严重的社会问题。现代人因为压力大,因为信息爆炸,有很严重mental health issue。美国国家CDC做过调查,有46%的人一生或多或少都有一些精神问题,换句话说,就是人口的一半都有精神问题。这个精神问题怎么解决呢?精神问题的诊断很复杂,不是验血验尿或者是做个医疗图像就可以解决的,需要一个有经验的心理医生来跟病人交谈,才能得出结论。有经验的心理医生实际上是很少的。
我们就想到,如果有经验的医生很少,我们是不是可以用计算机视觉和机器学习来解决这个问题?这个方案在今天是可能的,为什么可能?这是因为现代人跟Internet是不能分家的,而且很多人用social media。我们就设计了这样一个系统。 其一,每天每个人实际上花很多时间看一个屏幕 -- 看手机看计算机屏幕,手机计算机都有个Camera,这个camera可以反过来看用户的状况。我举个简单例子:我们现在用计算机视觉的手段跟踪你的脑门,就可能知道你的心跳有多快。这是怎么回事呢?因为心跳会产生血液流动,血液流动就会引起皮肤的颜色微小的变化,当然人的肉眼是看不到的。我们目前可以精确到正负五次;(比如你的心跳是60p/m,我们可能测量到是55p/m)。当然我们也会结合你的瞳孔,或者眨眼、表情等等细节。其二,我们可以通过社交媒体来观察。现在我们社交媒体普遍都是用微信。在微信中,在社交过程中,见到的内容会影响你的情绪状况,你说的东西也会反映你的内心状况。那么我们就利用以上两个线索来跟踪每个人的情绪波动,细节我就不再展开,我们一篇paper讲过。我们有一个user study,现在的精度可以做到70%多。这个应用既可以对我们正常人,也能对有抑郁症疾病的病人使用。我们测试过少量的病人,准确率也能达到70%~80%。我们根据曲线来分析你的情绪的波动,希望来做一个手机上的APP,APP收集个人的情绪状态,当然它是有保密机制的。不同的区域颜色代表不同的情绪状态,绿色是还不错;黄色应增加锻炼或者社交;红色可能需要寻求外部帮助,找心理医生。这个APP上的信息是本地化的(在手机内),全部都是保密的,只要不分享,只有用户自己知道。
刚才讲的是个精神状况的问题,实际上我们做了很多工作,是user profiling,也就是用户画像,用户画像什么意思呢?就是说我们可以根据一个人在这个社交媒体里的数据,对他的兴趣爱好做出综合推断。早的时候,我们做的工作是根据美国的一个platform叫Pinterest。用户可以收集很多图片,每个图片可以放到一个collection,生成一个pin board。这个Slides里面会提及。经过对pin board的内容进行分析就能知道很多信息。比如说是男是女?我给这两个例子,上面这个例子很容易知道肯定是个男生,下面这个例子肯定是个女生。
实际上用户画像我们可以做得更完善。Pinterest规定34个大类,就是每个用户的兴趣可以归结于34个类,用户在建立他的pin board的时候是要选择这个类的。我们从这个平台上拿下了数据之后,把用户自己选择的类作为真相,也叫ground truth,把它放在一边。我们想做一件什么事情呢?就是光看图是不是我们就能推断出它的兴趣爱好。后来证明是可以的!具体怎么做呢?可以一张张图用计算机视觉的方式把这个图像分类,然后你可以把一组组的图,就是一个board的,取个平均值,这样你就可以得到一种兴趣,然后你再把所有的board看过去,你就可以知道他的兴趣。也就是说,最好你可以把一个用户的兴趣用一个34维的向量来表征。当然我们可以做得更好,因为如果用户把很多图放在一个board里面,说明这些图之间是有内在联系的,也就是说他们应该指向同一个兴趣,把这个约束加进去的话,预测的性能就会提高。深蓝色的线是每张图单独做,然后做平均的准确度,这种 curve叫ROC curve。红线就是我们考虑到同一个collection应该是共享一个共同的兴趣点,那么这个可以提高。最上面浅蓝色的线是什么意思呢?每个人的兴趣不是随机的,可能喜欢这个就可能不喜欢有冲突另一个。我们把这个兴趣之间的关联考虑进去,就可能得到更大幅度的提高。这个工作的结论是什么呢?就是说我可以看一个人搜集的图像图片,就可以推断出他的比较完整的兴趣爱好的这样的信息。最近我们做了个更有趣的是wechat,就是微信。微信朋友圈大家会分享一些东西,那么其实从每个人在朋友圈里分享的内容我们也可以得到用户画像的信息。这是我们今年在www会议的工作,我们得到了一个化妆品VIP俱乐部的所有人的朋友圈的信息。我们做了一件和以前差不多的事情,就是把所有的图片放在一起进行一个聚类。我们得到一个46维度的一个空间,就是说所有的图片可以分为46个维度。这个是通过图像聚类聚出来的,跟Pinterest的34类有点像,又有点不像。大概也是这么几十个维度,不像的是说这个中美国情毕竟还是有点不一样,可能中国人的兴趣还是多一点,所以是46维的。把每个人的兴趣爱好用个46维的向量表征之后,我们还可以把它的兴趣和它的晒自拍的行为又挂起钩来。现在这个slide,像雷达图这样一个东西,就是说我们最后把所有的用户可以分成五大类。 为了可视化,46种兴趣,我们降维到六大兴趣。这样你就会看见这五大类的用户,在这个六个主要的维度上,它会呈现出不同的分布来。
(编辑 郭艳0106研 周连祥9701 /群主 牟志坚7906 /主持 陶涛9500 /素材 栾松0811)
§ 主讲人简介 §
罗杰波教授目前就职于美国罗切斯特大学(University of Rochester, USA)计算机科学系,是IEEE,SPIE和IAPR等国际著名学会的会士(Fellow),中科大教育部长江学者、上海交通大学名誉教授,浙江大学名誉教授、大连理工大学海天学者。研究涉及图像处理、计算机视觉、机器学习、数据挖掘、社交媒体、医学影像分析、普适性计算等多个前沿领域。罗杰波教授曾于“柯达实验室”从事研究长达十五年,并担任该实验室首席科学家。罗杰波教授是国际顶级会议ACM Multimedia 2010,CVPR 2012大会共同主席,并担任IEEE Transaction on Pattern Analysis and Machine Intelligence(PAM)、IEEE Transaction on Multimedia(TMM)、IEEE Transaction on Circuits and Systems for Video Technology(CSVT)、ACM Transactions on Intelligent Systems and Technology(TIST)、Patter Recognition(PR)等国际顶尖学术期刊编委会成员。发表三百余篇学术论文,持有九十余项美国专利。近年来,罗杰波教授在社交多媒体研究及其社会应用中做出了巨大贡献。
iOS用户赞赏通道