WWW2017参会者练建勋:引领风骚,对话未来| 实习派
我们今天实习派的主角是练建勋。
他是微软亚洲研究院与中国科学技术大学联合培养博士在读生,他在微软的导师是谢幸博士,而中科大的导师是孙广中副教授。练建勋的研究兴趣包括用户建模、推荐系统和深度学习。在微软亚洲研究院实习期间,曾与微软Skype, Office 365, Bing News等产品组紧密合作,他坦言自己很享受把理论研究与实践相结合的过程。他今年有机会到澳洲参加WWW2017大会,大家快来和小编一起看看练建勋这篇关于大会的干货分享吧!
练建勋在澳洲参会时的拍照留念
(๑•ᴗ•๑)小伙儿倍儿精神耶~
WWW大会,全称为“The International World Wide Web Conference”,是万维网一年一度的首要学术会议,旨在聚集世界各地各行业的精英,分享与讨论包括系统架构、内容分析、应用与隐私保护等与网络有关的前沿话题。WWW大会首届举办于1994年,2015年被CCF升为A类会议。如今的万维网已经渗透到几乎所有人的生活中,人们可以在弹指之间获取千里之外的资讯,生活、办公在变得便捷的同时也变得更加丰富多彩。
万维网的进步离不开无数人的努力贡献,因此WWW大会还设立了“Seoul Test of Time Award”这个特别奖项,用来表彰对社会产生了长久影响力的论文。今年,该奖项颁给了第九届WWW大会的最佳论文《Graph Structure in the Web》。论文中首次提出的网络宏观结构模型对网络结构理解有着历史性影响,并为后续信息检索、网络索引等方面提供了可靠的理论基础。
图:珀斯市区夜景
今年的大会选择在珀斯举办。珀斯是西澳大利亚州的首府,也是澳大利亚第四大城市。地处南半球,属地中海气候,一年大部分时间都能看到万里无云的蓝天。4月是那里的秋季,温度和天气都特别适合到此一游。
对于不常出国的我而言,珀斯有两点令我叹为观止:首先是珀斯人的友善。说个细节,在市区的几天,我几乎没有听到过鸣笛声,哪怕是傍晚下班高峰期,大家也安静整齐地等候着红灯,从不急躁地催促。后来去网上查证,珀斯人的友善态度确实是世界公认的,并且曾于2003年获得世界最友善城市称号。第二点是这里美不胜收的自然风光。珀斯有许多著名景点,例如玛格丽特河,尖峰石阵,洛特尼斯岛等,大自然的鬼斧神工在这里展现的淋漓尽致,而且当地人也特别重视生态环境的保护。这种贴近自然的世外桃源让参会者们深切感受到珀斯邂逅的浪漫与纯真。
图:Rottnest小岛
本届WWW大会共收到966篇投稿,被接收164篇,录取率为17%。会议采用单盲审制度,每篇论文至少被3个审稿人评审,其中89%的论文被4个以上审稿人评审。为了让审稿人明确给出意见,消除含糊不定的因素,评分机制里没有“中立”这一选项,审稿人必须从“-6,-4,-2,3,6”五个分数中选择一个。
从投稿数量上来看,社交网络分析和网络知识挖掘是最热的两个主题,所以这些track的竞争也相对激烈。
所有的会议文献都可以在这里找到:http://papers.www2017.com.au.s3-website-ap-southeast-2.amazonaws.com/forms/proceedings.htm(点击阅读原文或将网址复制至浏览器中打开即可查看)
图:不同track的投稿与录取情况
从被接受的论文数量上看,美国依旧遥遥领先,中国和德国旗鼓相当。这是根据研究机构的归属地分的,如果按第一作者的国籍来分的话,中国的比例应该会大一些。
图:不同国家的接收论文数量
大会主会集中在4月5-7日,近200个演讲分成40多个主题单元,在珀斯会展中心的10个会议厅分别进行。由于会议内容颇为丰富,为了方便参会者掌握全方位资讯,主办方定制了一款手机应用软件,参会者可以从软件中获取推送消息通知,看到每个房间的内容安排,演讲者的个人简介和论文原文,甚至像发微博一样在社区发新鲜事。
图:WWW2017 会议应用软件
作为万维网的重要年度盛会, WWW’17给大家带来了许多精彩的前沿技术分享,从网络系统架构到大数据挖掘与应用,再到用户信息的隐私保护, 都有许多耳目一新的讨论。由于每个会场的主题不同,为了体验不同主题风格,在主会的几天里我选择性地挑了几个不同的会场,包括Keynote Session,Web Science,User Modeling,Recommender System 和Industry Track。
所谓一千个读者就有一千个哈姆雷特,我也只是站在自己的专业角度去领悟WWW’17的会议精神。万维网发展到今天已经形成了相当庞大的格局,海量的数据既让人兴奋又带来迷惑。
个性化服务依旧是当今的一个研究热点。来自加利福尼亚大学和微软合作的文章[1] 系统性地分析了消费者的习惯和价格敏感性,进而提出了一种基于内嵌特征的矩阵分解推荐模型。他们认为,三步骤的推荐系统设计,即:类别需求预测——子类商品推荐——购买数量预测,可以在有效抓住用户偏好的同时大规模地部署到线上服务。根据他们的分析结果,价格因素对粗粒度的商品类别之间影响很有限,但是同类别内的商品选择影响很显著。
无独有偶,国立成功大学的学者们也留意到价格的重要因素[2]。他们认为,不同消费者的心理价位是不同的。通过设计一种“实时折扣促销”系统,他们可以针对不同的消费者,根据分析出的心理价位来调整促销方案,从而刺激消费,最大化商家收益。
图:分成三阶段的消费者决策模型。来自参考文献[1]
深度学习方法也在持续绽放它的光彩。除了在用户建模上应用深度学习之外,来自德克萨斯州大学与谷歌合作的文章[3]基于LSTM构建了用户潜在意图推测模型,又如来自浙江大学的文章[4]把多样本学习和神经张量网络相结合,构建用户满意度推测模型。
特别的,深度学习在推荐系统的应用上也更上了一层楼。韩国浦项工科大学的学者[5]发现,对于推荐系统,从商品的图像等内容中学出的特征有时候并没有显著帮助。原因是虽然对于部分种类的商品,例如衣服,图像是很有用的信息,但是对于例如办公用品等商品,颜色、款式等可视化特征并没有那么重要,用户考虑的更多是它们的功能特点。因此他们把用户曾经浏览过的商品也作为一种信息源。文中指出,最终购买的商品和之前浏览的商品在功能上会有相似,通过学习它们之间的潜在联系,可以弥补图片特征的不足之处。 新加坡国立大学的学者们[6]认为,现有的新型推荐系统主要还是把深度学习应用在提取内容特征上,但缺乏在协同过滤算法上的应用,因此他们用神经网络来描述传统的协同过滤算法。实验结果表明,通过引入复杂网络结构,增加非线性学习能力,推荐系统的准确度有了显著提升。
网络迅猛发展的同时自然离不开人工智能的身影,雅虎副总Yoelle Maarek在大会第一天做了题为“网络邮件没有被淘汰!”的特邀报告。她指出,表面上看,人们主动写邮件的数量减少了,使用邮箱的用户,尤其是青少年人群的比例越来越少。但实际上邮件服务并不会消亡,与以前不同的是,它不再是只有“人类”用户了。如今90%的网络流量都由机器自动产生,人类用户比较懒,不会精心花时间阅读或整理邮箱。所以现阶段迫切需要的是赋予邮箱客户端更智能的功能以顺应当前趋势,比如简化用户操作,解析邮件的主题,智能归类等。
一个发生在我身边的例子是Outlook的事件管理功能。当我在网上购买了去珀斯的往返机票后,代理商往我的邮箱发送了机票订单信息,Outlook便自动往我的日历中加入出行计划这一事件,方便我随时查阅、安排行程。
也有学者们关心人工智能技术发展的同时带来的不良因素。文章[7]中指出,随着社交媒体的发展,出现了一种新型的 “social spambot”机器人账号。它们避开了传统的反垃圾账号算法的设计原理,拥有与正常人类账号类似的个人介绍与活动状态,以至人工肉眼都很难区分它们与人类账号。这些机器人账号会被人利用,做一些不正当的活动。例如2014年罗马市长大选中,某位排名靠前的候选人用了约1000个机器人账号来伪装自己的人气。文章[7]中公开了许多高质量的数据集,指出现有的反垃圾账号算法效果有限,并呼吁大家重视新算法研究的问题。
除以上介绍的内容以外,大会还有许多有趣的报告,例如VRML的联合发明者Mark Pesce带来的关于万维网虚拟现实技术的特邀演讲,Uber和Pinterest在Industry Track的实用技术分享等,篇幅所限,不能一一介绍了。
图:来自雅虎的keynote现场
今年微软共有20篇长文被接收,涵盖了社会计算、用户建模、互联网挖掘与搜索、理论算法、普适计算、计算健康等众多领域,而微软亚洲研究院的员工为其中5篇作了贡献,可谓硕果累累。此外,微软亚洲研究院的刘铁岩等研究员们带来了关于分布式机器学习的教程[8]。
本次,我为我们团队的一篇长文做了口头报告和一篇poster 作了展示。在给微软产品部门打造用户流失分析模型的过程中,我们进而思考如果研究的对象不是消费者,而是商家本身呢?类似的问题是否需要不同的解决方案呢?这属于商家风险评估问题,相对于个体消费者,它有更多的因素值得考虑。
在经济与管理领域,学者们喜欢用商家的经济指标去评估它们的破产风险。但其实这些指标比较不容易获取,甚至有些商家为掩饰经营不善而伪造数据。因此我们提出利用万维网上广泛又免费的资源,通过数据挖掘技术去构建商家存亡预测模型。
文章主要从四个维度建模:商家地理位置、消费者移动规律、评分规律以及用户评论内容。我们发现,比较之下,地理位置特征的作用比较弱,因为大部分商家在开店之前,已经对位置精挑细选过一番了;用户评论内容是最丰富的信息源,其中最强的负面特征是团购有关的关键词——其实这也不难理解,因为团购往往不能带来利润(例如10元包下午场的KTV团购券),而如果商家只能通过团购吸引客户,它自然面临很大的倒闭风险。我们的poster论文[10]是我们在推荐系统的最新进展。我们发现,深度学习在极大影响着推荐系统的发展,但目前的推荐系统并没有把深度内容学习和协同过滤学习完美的结合起来。因此我们设计了一种神经网络,用于把协同过滤和内容学习统一在一个网络模型下。其实我们对CF的建模上与本次大会的一篇长文[6]原理是一致的,站在学生的角度来看,正在进行的项目和别人“撞衫”了,当然是悲伤的;但是站在WWW大会精神的角度看,我们也并肩站在前沿科技的阵列,同时做了一点微不足道的贡献,自然也是欣慰的。