【瀚海数据说】大数据与智慧生活(下)
第18期
§ 编者按 §
大数据如何接地气?美国罗彻斯特大学罗杰波教授深入浅出,以他近年丰富的科研成果多角度阐述生活、大数据、和信息与智慧萃取之间可望产生的良性循环。
罗杰波教授目前就职于美国罗切斯特大学(University of Rochester, USA)计算机科学系,是IEEE,SPIE和IAPR等国际著名学会的会士(Fellow),中科大教育部长江学者、上海交通大学名誉教授,浙江大学名誉教授、大连理工大学海天学者,兼腾讯顾问。罗杰波教授曾于“柯达实验室”从事研究长达十五年,并担任该实验室首席科学家。
§ 下篇 §
下面我换一个话题,因为刚才讲的都是针对个人的应用。我们也可以针对一个人群来做同样的事情,那么这个时候我们就不是在号一个人的脉搏,我们是在号一个社会的脉搏。社会的脉搏就是我现在Slide里面写的这些东西,包括人与人之间的交往,公共卫生、舆情、营销、交通、环境、以及社会变动,这些都是属于社会的脉搏。那么社会脉搏,我们怎么来把握呢?
我们做得比较多的一件事情,就是把握美国选民的脉搏。美国的选民脉搏就是说他们会选谁,那么这个事情我们从2008年就开始做,我们2012年做了,然后我们去年2016也做。具体做法就是我们把社交媒体里,用户分享的图片可以拿来,你可以分析它是针对某个候选人的,比如说奥巴马或者说是Romney,我们第一次做的时候我们做的比较粗糙,我们一旦知道这个图像是关于某个竞选人的话,我们就把它算成对竞选人投一票。这个事情实际上有很大问题,美国人有一个很有趣的现象,就是negative campaign,相当于中国喜欢说的黑一个人。它分享一个照片,其实不一定要支持这个人,也可以去黑这个人,怎么黑呢?就像我举这个例子,挑一个奥巴马看着就像一个坏人的这种图片,然后把它到处传播,那么黑的目的是干什么?是想帮助奥巴马的对手竞选。那么这样的图片就应该不算在奥巴马头上,应该算在罗姆尼的头上,所以我们2012年就做了这个矫正。我们那年当然还做了些别的事情,社交媒体上的图片出来以后,用户也可以进行评论comment,评论就会带有情绪的,可能会赞成,可能会反对,那么这种情绪我们也把它作为信号收集起来;然后我们还收集每个州的数据。美国有50个州,实际上你用不着50个州都预测的,比如说纽约州肯定是支持民主党,比如说南方的州一般都是支持共和党,一般只有这么七八个州,就是我slide里头这七八个州会是摇摆州,其实才是决定谁入主白宫的,所以我们只用做摇摆州就可以了。
下面我举几个可能更有趣的例子,因为它不仅是关于美国的,也是关于中国的。我们想知道美国人对中国的态度是怎么样。我们可以做得很细,美国有五十个州,中国有30个省自治区直辖市,我们可以把美国人推特里头谈论中国的这些推文收集下来,最后来看美国的各个州的居民对中国是什么态度。我们发现两个现象:一个现象就是美国人最关心中国哪几个地区,大家可以猜一猜,我这里就先告诉大家,美国人最关心中国的地区是北京,北京是中国政治文化的中心;第二个最关注的是西藏,因为人权这些问题 -- 注意这个是从数据里发现的。可能大家不认为这个东西有什么稀奇的地方,下面一个东西就是我们想知道美国哪个州的人民对中国的态度最友好,有人可能会认为是纽约州,加州,其实都不是的,你看我这张图正中间对中国是最友善的,这个州是哪个洲,大家想一秒钟。这个州是Michigan,为什么Michigan州对中国人最友好,对中国怀有最友好的感情呢?大家也想一秒钟。Michigan州有什么呢?Michigan州是美国三大汽车公司的大本营。到现在,美国的汽车公司很大程度上是非常依赖中国市场,这也就决定了他们为什么对中国要比别的州更友好,所以这个事情是非常有趣的发现!
下面我再举个例子,公共卫生。健康会有很多影响因素,比如说一个人的教育,一个人的人种,一个人的收入,这些都会对健康状况产生影响。那我们怎么来study这个问题呢?这个问题从前是通过人口普查来做的,我们最近是通过推特做出来,怎么做呢?我们先从tweets里分析出有关健康的状况,这个可以用自然语言理解模型来解决,那么我们就可以知道哪些人经常抱怨健康,这是一。第二,我们要知道健康和其他一些因素的关联,那我们怎么知道?比如说我怎么知道一个人的收入,他的教育程度?这个在美国是很容易的,美国物以类聚特别严重,就是说住在一起的人的教育程度收入水平是很接近的。那么反过来就是说我们可以通过人口普查的数据,就可以知道每个区的教育状况收入情况人种情况,然后把这个信息和我们前面twitter收集到的关于各个地区的健康状况进行一个碰撞,就得结论。Slide上面的图画,横轴应该是非健康状况,跟非健康最负相关的就是高学历。高学历为什么会决定健康状况?这个其实也不难理解,高学历就决定了你会有很好的工作,有很好的工作,就可以住在很好的社区,就可以有很好的医疗条件,就可以有参加体育活动和文娱活动的条件,也可以有钱有时间去休假,这种种情况下来的话,就是说受教育程度越高的人的健康状况是人群之中最好的。第二个其实不难理解,美国的话,白人的健康状况要比其他人种好,这个也不难理解,其他我就不仔细说了。
好,下面我再换个题目,就说我们用这个社交多媒体来观测美国的一些社会问题。
美国一个比较大的社会问题就是青少年酗酒问题。青少年酗酒问题从前是怎么来这个观测的?是由学校来发问卷。这个问卷其实学生都不大愿意填的,填也是瞎填。青少年酗酒造成很多问题。我们要研究青少年酗酒问题。如果想在一个大范围的研究,同时想得到真实的答案,那我们最好是用一个消极的passive的方法,就说我是去观察他,我不去问他,因为问他得到的答案不一定是准确的。我怎么去观察?我需要一个平台,这个平台是什么呢?就是社交多媒体,这个平台就是Instagram。为什么要取Instagram,它是美国青少年最喜爱的一个社交平台。我们从Instagram上拿很多图片,可能也会有跟着图片来的一些标注标题的信息。有一个实际问题,用户的信息我们是拿不到的。我们不知道谁是青少年,谁不是青少年,但是这个问题可以用计算机视觉方法可以解的。青少年在Instagram上经常干的一件事情是什么呢?把自拍晒出来,自拍就是他自己的图片,我们找到自拍以后就可以估计他的年龄性别和种族。这里有一个例子,我们实际上是用了国内公司face++的技术,现在有关人脸分析的技术比较成熟,我们用不着自己做。那么我们用face++的技术做什么呢?估计每张自拍的年龄性别和种性。这个年龄估计是有误差的,但是这个误差是可以缩小的,就说他有这么多的自拍,我每个都做一个估计,然后我把它们平均一下。如果有几十张自拍的话,实际上这个方差可以降到一岁以下,降到一岁以下就比较准了,这样我们就可以知道谁有21岁,谁没有21岁。下面一个问题就是,我怎么知道谁喝酒了没喝酒呢?这个可能有两个途径,一是判断哪个图片是喝酒 -- 这个事情不是很准。实际上我们也不用从图像里得这个信息,因为每个照片是有一些附加文字,从附加文字中可以得到关于是否酗酒的可能性。其实小孩子不会说我在喝酒的。他会说什么?他会说一些俚语。这个俚语的话,我们可以建一个字典,实际上我们就单独建立一个字典,我可以根据俚语来判断他是不是喝酒了。有了这个信息以后我们就可以做很多事情。首先我知道谁是青少年,然后我知道哪些图片是跟酗酒有关系的,同时图片是带有时间,我就可以研究出很多青少年酗酒的一些模式,比如说他们一般都是周末,一般都是在节假日,新年附近。因为青少年自己是不可以买酒的,商店一般查他们的ID,他喝酒肯定是从别的地方来的,有时候是家里来的,家里什么时候酒的资源最丰富,那就是节假日。我们也可以知道他们最喜欢喝什么酒,有的他们会直说,那我们就可以通过brand来得到;还有一个情况,他们会去follow一些brand,就说明他对这个brand有兴趣。我们跟踪了大概50多个酒的品牌,我想用这张表来说明一下问题。比如说一个有趣的发现,就是年轻的女孩子在美国都爱喝什么?我们最后发现她们爱喝Vodka #1 or Vodka #2 (我不想替他们做广告)。这个发现就是,女孩子要么不喝,要么她就喝烈酒,这个是一个很有趣的发现。实际上,我们用同样的方法可以去跟踪青少年的很多不良行为,比如说吸烟、吸毒、早孕、抑郁症、贪食症等等。
那我举个例子,比如说我们怎么样分析吸毒的状况,我们有个工作是跟美国纽约州司法部合作的一个项目,这个项目就是帮他们抓毒贩子。美国的毒贩子就会很好的利用高科技,毒贩子最喜欢干的一件事情就是去Instagram上去兜售他的这些毒品,你们会觉得可能很多人会觉得这个怎么可能?可他就是发生了,那么美国Law enforcement最后也注意到这个现象了,所以他们现在每个周都会雇Intern,一页页的看Instagram上的图片,看谁是毒贩子,因为吸毒的人一般他是不抓的,要抓就去抓毒贩子,这个工作实际上就是有点像大海捞针,他一天也捞不着几个,那么他们就希望用这个大数据分析来做这件事情,我们就帮他们做。如何实现呢?我们通过Instagram的所有信息来做分析,比如说有Hashtag,有Key words,同时也有图片,图片有哪些:要么是大麻,要么是药片,要么是一些糖浆类的东西,这些东西我们可以用计算机视觉的手段进行这个检测,最后我们做的数据分析结果系统跟他们的数据对比,发现我们能达到89%~90%这个地步,这个90%的准确度是什么概念,也就是相当于他们Intern看的水平。Intern他们坐在那看,也就是90%的水平,因为人看也会挂一漏万。
下面我讲一个比较正能量的事情,大家可能都知道,或者大家都认为,养一个宠物对幸福感是有帮助的,但这件事从来没有人在大规模的人群中进行过验证,因为这个事情是就是花钱花力的。我们就做了这样一件事情,没有花什么钱,也没有花什么力,当然我们花了时间。怎么做呢?我们也是用Instagram。首先我要知道哪些人有宠物,这个事情怎么办呢?我们把图片拿来,分析他有没有宠物,宠物有很多,但是主要的就是狗和猫。我们用计算机视觉的手段就做了检测有没有狗,有没有猫。当然你有一张图有狗,并不表明你有一个狗。我们通过长时间,比如说半年到一年的观测,如果你总是有同一只狗或者同一只猫,那么我们就认为你是有一个宠物的。那么你不满足这个条件,那就是没有宠物的,这样我们就可以很轻而易举的在Instagram上可以得到十几万人,如果我们想几十万都可以的。这样两个人群:一个人群是有宠物的人群,一个人群是没有宠物的人群。我们就可以来对比他们的幸福感有没有差异。最后我们分析出来是有差异的。
另外,我要说一下我怎么知道他幸福不幸福。这个事情也很简单,从他照片中就能读出来的,这个也适用计算机视觉的手段来分析的,当然你也可以通过文本来分析他的情绪,这两个人群我就会知道它的幸福感。
最后我们发现这两个人群是有区别的,这两个群体的幸福感Distribution是不重合的,统计上可以证明。是什么情况呢?如果想当然去讲,会说有宠物的人群的整个distribution会向上平移。实际上不是这样的。我们发现有宠物的人群只是在低幸福感这个段分布很少,也就是说他们不大会有特别郁闷的时候;如果是没有宠物的那个人群呢,相对来说郁闷,特别郁闷的成分就比较多,这个就是这两个人群的区别。
幸福感跟很多事情都有关系,比如说婚姻状况有没有小孩。我们最近也做了分析,我们除了分析人有没有宠物以外,分析有没有配偶,也分析有没有孩子。这个一样是可以从图片里读出来的,通过几个月到一年的观察,你就可以得出结论的。我们得到一个比较有趣的东西,我把它形象化的说成幸福感的图腾柱。图腾柱是印第安文化,越高级的动物就越在图腾柱的上面,越低级的动物就在下面。你如果把这个现象转移到迪斯尼卡通上的话,米老鼠就应该是最上端的,比如说唐老鸭这些较低等一点。那么幸福感图腾柱上什么最重要呢?高居幸福感这个图腾柱之首的是孩子,就是说孩子是给人群提供了最大的幸福感,下面才是这个配偶,下面是狗,最后就是猫。这个可怜的猫,它的价值是最低的。我想评论一下,因为在我微信圈发这个事情的时候,有人表示不同意。我想说的是这种事情是因人而异的,我们是根据大量人群得出的结论,个体的状况是可能会有差异。还有一个呢,有人说图腾柱的最上面应该是钱,钱能不能换到幸福感?这是可以争论的,我认为这个钱最后不就是要花到孩子老婆和宠物上去的吗?
下面快快地讲一个例子,我们怎么把时装也从大数据这个角度来进行分析。我们是把时装周的照片用计算机视觉手段,把服装设计的特征提取出来,然后我们根据同一年春季和夏季的街景,我们去分析人们着装有没有受到这个时装周的影响,这个发现是有一定影响的,具体的在这个文章里有,我就不展开了。
我们最近做了一个更有意思的,就是更向前(钱)进了一步。我们从淘宝上拿了数据,从淘宝数据我们还拿到什么呢?我们拿到服装的销售量。根据销售量我们就可以把这服装分成畅销的和不畅销的两组,通过这两组之间对比的Differences,就是差异性的数据挖掘,我们就可以发现一个服装之所以畅销是因为它的哪一些特点设计让人们喜爱了。这个发现有什么意思呢?设计师在每一个season的早期,通过这个分析就可以及时进行调整,增加畅销服装的生产量,降低不畅销服装的生产量。诸如此类,具体我就不再赘述,后面这张slide我也不细致讲了,我们实际上用旅游者拍的照片就可以观测每个城市的空气质量的状况。这个东西其实是蛮准的,比如说北京市,我们把旅游者的图片分析出来,雾霾的状况和美国大使馆公布的数据进行对比,结果发现彼此的Correlation是0.88,这是相当的高。
最后我想说一下跟饮食有关的,中国人肯定是比较讲究饮食的。有一句话就是You are what you eat,你吃什么就变什么,这其实是非常确切的。我们现在跟一家超市,这家超市正好是从罗切斯特发迹的,现在在美东七八个州都有分店,我们拿到数据可以进行个关于营养的分析,因为我们医学院有关于健康状况的data,所以我们可以把罗切斯特区域的人的饮食状况和他们的疾病的状况进行分析,然后得到一些非常有用的东西,这个事情我们正在做。
下面这几张中文slides,实际上是我从别的地方借来的,就是说大数据行业现在都有什么机会和看点。那么具体的我就不念了,那么大家可以看一下。哪些行业大数据的要求比较急迫?比如说公安、银行、交通、家居比较迫切,建筑、教育、制造、海关不怎么迫切,医疗现在实际上还是比较迫切的。在医疗这个行业中大数据主要又会有些什么应用?从药品开发、疾病治疗、公共卫生管理等等这些方面大数据都会起到一些作用的。实际大数据应用的成熟度比较而言,在银行和旅游业估计是最成熟的。但是其他行业可能更需要大数据。在我分享结束之前,我想make one more point,在大数据研究中,我们到底是更需要大数据,还是更需要更好的算法,实际上都不是!比如Google就会跟你说:数据比算法更有价值,这实际上是一种有倾向的误导(因为它最有数据)。 我想说的是什么?最有价值的是知识,是信息,数据和算法都是用来得到知识和信息的。
最后总结,我希望有这样一个状况,我们在生活中不停的产生各种各样的大数据,大数据可以用来提取有用的intelligence和information,反过来又可以用来改善生活, 也就是智慧生活。最好是成为一个良性的循环。我们做的一些工作就是想在这一种良性循环中能够起一些促进作用。
§ Q&A §
Q1:罗教授,image information非常多,infrastructure process要求高不高?特别是针对个人开发者,要从教育新手或者先行尝试学习在Instagram上找信息,自己做process的话,难易程度如何评估?
A1:坦白地说,这个还是有点门槛的,因为涉及到好几个方面,第一步你要搜集数据,搜进来的Social media一般都是异构数据,要对异构数据进行处理,对文字、图像、视频、NLP等等做汇聚和处理,这就是一个Information fusion的系统性工程,就相当于要把每个Component搞定,接着要Information fusion。Information fusion没有一个固定的套路,要就事论事的这样做,所以说具体的做这套事情还不是那么容易的。
Q2:罗教授目前的成果算是象牙塔里面的成果吗?
A2:我不能说我们是象牙塔的成果,只是说我们在这个领域做得比较超前,有些积累。是技术上的积累,更多的是经验上的积累,数据来了之后怎么处理它,然后怎么能够把噪声去掉,把数据清洗出来,最后通过机器学习手段或者数据挖掘手段能得到有用的这些信息,还是需要一定时间的,有个Learning curve。
Q3:有女儿幸福还是儿子幸福?
A3:这个我们没有做,但是我们应该马上就能回答这个问题,因为data在那里,我们只是没有统计这个事情。我的直觉是有女儿更幸福,但是这个可能跟文化背景有关系。
Q4:还有一个问题是说幸福的量度是什么?
A4:幸福的量度我们这里是这样的,假设你有一百张图,有你在里头的图,那么这一百张图中有多少时间你看起来是很happy的?这个是比较直观的measurement。传统的方式怎么做?是去找很多的个体,自己给自己打分,你自己觉得你有多幸福,不能说比我们做的这个系统更科学。因为我们自身很多时候对自己的评价不一定是客观的。我们是通过图片来看你这个看起来幸福的时候有多少?通过你的文字,你经常发表的文字,有多少时候是在一种正能量的状态下?我们是通过这样一个分析法去确定的。
Q5:如果说我们提取出来的信息叫做meta data的话,跟原始数据的比例是多少?
A5:这个问题不好定量地说。计算机视觉在很长时间内,一张图就吐出来一个标签,比如说这张图里是某某场景对吧。但是现在计算机视觉更倾向于从一张图能够产生不止一个标签,而是有丰富的描述。这实际上就是想达到一个效果 -- 大家都听过这个谚语叫一图胜千言。 A picture is worth a thousand words。现在计算机视觉就是说给一张图,我们尽量的能够描述性的从这个图提取信息。有个工作我们也参加了,就是Image captioning,相当于看图说话。小孩子看一张图,能从这张图里头描述出多少内容?能说多少话就决定有多少信息。早先那个问题说,如果图是一千,那么这个取出来的东西是多少,这个不好说,但是就现在的计算机视觉的水平来说,一张图是取不出一千个字来的,我估计能取十几个字,二十几个字差不多了,但这个行业还会逐渐发展,更快地发展。
Q6:图像处理中是否用到了Imagenet的resource?
A6:我们其实不用的,这个我想跟大家说一下,Imagenet听说比较多,因为这个东西媒体报道的比较多,是有一定重要性的,就是说它让这个行业能够集中精力去攻克一个难关,攻克图像识别这个难关。但是这种数据集都是有局限性的,现在最好的系统,在Imagenet上识别率能做到97%,但这个97%是虚的,就是说一个固定的目标,大家都去攻关,最后都基本能搞到差不多100%,但这个并不表明你同样这个系统拿到现实生活中就能好用,所以我说我们没用这个系统,也就是说我们没有采用他们训练好的系统。但是我们经常做的一件事情是什么呢?是把它的系统拿来和我们新的data在一起,作为一个fine tuning的过程,就是在一个通用的一个大数据训练系统上先训练,再有针对性的专门的数据上进行强化训练,最后使它的实用性达到我们需要的要求。当然我们用的一些技术,比如说深度学习,从原理上来说都是一样的。
Q7:关于幸福,你有没有把它给考虑为correlated with religion?
A7:Religion对幸福肯定是有关联的,但我们暂时是无法做到的。为什么一下子做不了呢?这个信息用户是没有提供的,我们也不能问他,问他也不一定准。另外一种做法就是估计,估计一个人的Religion是可以做的,这个事情Facebook就做过。Facebook可以通过你在Facebook上点赞的这个情况。就可以准确的估计,八九不离十估计出一个人的宗教信仰。你喜欢民主党还是它是偏共和党民主党?左派还是右派?用到这些信息都可以八九不离十地估出来的,我们还没有去估计这个信息,但是这个信息是可以估计的。
Q8:你培养了很多学生,像这些学生,他们现在去了什么地方?
A8:我的学生五年级的今年才毕业,一个去了snapchat, 刚上市那个公司,他是去作research, 他去那边做实习生别人就被留下了。另外一个去了Microsoft Research in Redmond (Seattle)。现在有九个PHD,有硕士、本科生、访问学者加起来有20多个人,他们的background都不一样,我尽量的人尽其用。我鼓励他们锻炼分析这种异构的、多模态的非结构化的数据,我觉得这个是以后的方向。大数据为什么炒了一段时间就没有动静了?这有一个关键问题,就是对非结构化素数据的处理比较乏力,因为如果能放进数据库里的东西,其实上很多是比较成熟的;但是现在大量的大数据是非结构化的,就需要这种对症下药,就是说不是那么简单。也就是说你开始问的那个问题是不是一个人可以很快的进入状态?这个回答是否定的,因为需要的技能很多。对年轻人而言,还是有很多机会的。
Q9:研究过程是不是花了很多时间清理数据?
A9:这个肯定的,我们做一个project,每次都从抓数据开始。我认为抓数据花1/3的力气,清理数据大概也花大约1/3,然后再做分析,又花了1/3。因为我们比较擅长,所以就做的快一些,但是每一个project一半以上的时间都是在抓数据和清理数据,现阶段是不可避免的。我觉得有个可能,学术界直接跟数据源的公司合作,比如说微信,如果我们能直接拿到他的数据,我们也不用辛辛苦苦去扒它。如果它的数据可能结构化的程度要好一些,比我们这种扒下来的可能规整一些,也可以省一些力气。但是有个力气是省不了的,就是说Social media中的很多数据,很多的信息都是没有用的,对你做的要解的问题都是无用的,就是可能90%的数据都是要被扔掉的,因为他们跟你想做的事情无关,所以这个数据清理的过程是不可避免的。
我们今天就到这里,如果大家有后续问题,我可以尽量回答,好,谢谢大家。再见。
(编辑 郭艳0106研 周连祥9701/群主 牟志坚7906 /主持 陶涛9500 /素材 栾松0811)
§ 主讲人简介 §
罗杰波教授目前就职于美国罗切斯特大学(University of Rochester, USA)计算机科学系,是IEEE,SPIE和IAPR等国际著名学会的会士(Fellow),中科大教育部长江学者、上海交通大学名誉教授,浙江大学名誉教授、大连理工大学海天学者。研究涉及图像处理、计算机视觉、机器学习、数据挖掘、社交媒体、医学影像分析、普适性计算等多个前沿领域。罗杰波教授曾于“柯达实验室”从事研究长达十五年,并担任该实验室首席科学家。罗杰波教授是国际顶级会议ACM Multimedia 2010,CVPR 2012大会共同主席,并担任IEEE Transaction on Pattern Analysis and Machine Intelligence(PAM)、IEEE Transaction on Multimedia(TMM)、IEEE Transaction on Circuits and Systems for Video Technology(CSVT)、ACM Transactions on Intelligent Systems and Technology(TIST)、Pattern Recognition(PR)等国际顶尖学术期刊编委会成员。发表三百余篇学术论文,持有九十余项美国专利。近年来,罗杰波教授在社交多媒体研究及其社会应用中做出了巨大贡献。
iOS用户赞赏通道