【大数据专栏】王答明:个性化推荐的前世今生及1号店实践
【这是“大数据专栏”的推送文章,本专栏由中关村大数据产业联盟与科技杂谈合作提供】
文 / 王答明 ,本文为王答明在中关村大数据产业联盟“大数据100分”论坛上的交流探讨实录
主讲嘉宾:王答明
主持人:中关村大数据产业联盟副秘书长陈新河
承办:中关村大数据产业联盟
嘉宾介绍:
王答明:1号店IT资深经理,负责个性化推荐/大数据挖掘。早年曾在Intel,Alcatel等公司做过大型分布式系统,p2p网络,移动自组织网络等分布式协议的研发。后加入Autodesk,成为其内容搜索组上海区的创始成员和技术负责人,期间曾负责过基于机器学习的自动分类,分词和信息抽取等方向,也曾带团队利用hadoop对搜索的backend进行分布式改造,并在2008年第一届hadoopsummit上做过demo.随后创建过国内最早的团购导航网站之一酷省网,进行个性化技术在电商领域的探索和尝试。最近两年加入了1号店,带领个性化推荐方向从头建立起了分布式算法平台,大规模用户画像等等重要组件,以及推动个性化技术在公司内部的各种应用。并从去年年底开始负责了一些新的大数据挖掘方向,比如销量预测,品类管理以及动态定价等。
以下为分享实景全文:
王答明
大家好,我是1号店王答明,很高兴能跟大家做个分享交流。
考虑到前几天刚出过一个关于1号店关于大数据挖掘的分享。
答明这个精彩纷呈的PPT,请选中下面红色链接后,点击搜索;或点击复制,打开浏览器,在地址栏中复制链接打开;或到文章末尾,点击阅读原文
?【PPT】1号店电商大数据挖掘实践
http://mp.weixin.qq.com/s?__biz=MzA5NDExMTAzNA==&mid=202672702&idx=2&sn=66492dd1837b573d490fd621247250f2&3rd=MzA3MDU4NTYzMw==&scene=6#rd
同时也考虑到这个群里有大数据各个行业的专家,所以今天就不准备再讨论大数据这个词,而是想聊一聊我个人对个性化推荐的一些理解以及我们在电商中的一些探索实践。当然,对推荐系统比较熟悉的朋友应该可以了解推荐是目前大数据领域切实落地的一个应用,而且已经有了不少成功的案例。
从互联网发展历史来看,人们获取信息的方式从信息板到搜索引擎,获取方式便利性得到极大提升同时也更加灵活,那么大家可能也都在思考有没有下一步或者下一步会是什么?其实几年来,关于个性化推荐能不能算得上未来信息获取方式的一个本质飞跃一直有着各种各样的争论,有人说有效也有人说是忽悠,到现在也没个定论。从我个人的观点来看,当前个性化推荐的确在很多垂直领域有了突破性的进展,但是否能作为整体的一个信息入口方式(比如在一定程度上替代通用搜索)现在还远未看到迹象。
那么,到底个性化推荐价值在哪里?有什么意义?本人的理解主要有三点:
第一点:信息负载很好理解,推荐系统可以帮助人们过滤信息是个最基本的价值点,
第二点:可以跟搜索引擎来做个对比,我们一般什么时候用搜索呢?对某个事物已经有了解想理解的更深或者至少模糊的知道某个事物的存在,那么从这句名言“人最大的恐惧在于自己不知道自己不知道什么”来理解的话,也就是希望推荐系统能承载帮助我们发现新的我们本来不知道的事物的使命。图片上用了一个例子,比如说去年施瓦辛格和史泰龙合作了一部新片,我基本上是从地铁广告里看到的,那么这里对我们本人来说就是一个非常有用的推荐,一来我完全不知道这部新片的存在,二来我对两个演员本来就很有好感。
第三点:我想说的是终极来讲,个性化推荐可以跟什么联系起来?Ok,人工智能,机器跟我生活在一起,对我自己各方面都很了解,而机器本省拥有强大的信息搜集和处理能力,从而紧贴我的生活为我做各方各面的提醒推荐从而极大地辅助我的生活。
对应上面的三点,一般推荐系统会从相关性,覆盖度,多样性,新颖度,惊喜度等若干指标来衡量。
现在我们简单回顾一下个性化推荐的发展历史,这里我个人把整个历史分成三个部分,第一个是1999年前,然后是2000~2006,接着2006~2010,最后2010至今。我们把每个时期的代表性发展简单阐述一下。
1999年前:
现在大家耳熟能详的协同过滤其实在1992年就被施乐的科学家发明了出来,最初是为了解决信息负载的问题,实验室的科学家们在思考如何有效的把每个人感兴趣的邮件自动化的过滤给他,就简单的基于打分模型设计了协同过滤(见下方左侧贴图),熟悉硅谷历史的人对大名鼎鼎的施乐paloalto实验室肯定不陌生,图形界面,鼠标等等早期it里程碑的发明都是在这个实验室诞生的,久负盛名的协同过滤也不例外。另外,还有standford在97年做了个叫fab的系统,初期的目的也是为了解决网络的信息负载,如果利用系统把每个用户感兴趣的web内容以topic为底层组织来推荐给他,那这里也产生了另一个推荐系统里重要的方法之一:contentbasedrecommendation。值得一提的是,amazon偷偷地在98年注册了itembased协同过滤的专利,关于amazon后文再继续阐述。
2000~2006:
也有几个标志性的推荐产品,首先是Pandora(目前已经是价值几十亿美金的上市公司)启动了漫长的音乐基因工程,目标是为了能精准地给用户推荐他可能感兴趣的音乐,类似的还有一家比较知名公司叫last.fm。另外,在此期间,amazon公开了他们item-base的算法论文,从本质上来说,并没有算法上的根本改变,更多的是为了在真实大规模工业应用中为算法做的工程创新,也是这个时期,他们有对外发消息说销售的推荐占比可以占到整个销售GMV的30%.不幸的是,似乎在06年后,amazon就很少再公开他们的实践经验了。
2006~2010:
推荐领域发生的一件相对有里程碑的事情,熟悉推荐系统的都知道,netflix举行了一个百万美金的推荐算法优化竞赛,时至今日不少行业内人士对这个竞赛有褒有贬。但有一定可以确定,这个竞赛的确很大程度上推进个推荐系统的发展,期间有几十上百种的算法,或者ensemble进行尝试,成为机器学习界几年前的一大盛事。有意思的是,这个比赛据说发源于netflixceo跟工程师们在2005年底打的一个赌,而且其本人也跃跃欲试的跟工程师们比试过。所以说,硅谷的geek文化真的不错。从公开的资料来看,整个竞赛历史有两个重大的breakthrow,其中之一是一个叫simonfunk的geek写了一套svd优化的程序获得第一个提升成绩的里程碑,另一个是一个叫gavinpotter本科学心理学的英国人(大概在他50岁左右的时候读了个机器学习相关的学位),通过引入心理学的一些特点来建模又一次给整个业界带来灵感。有意思的是,两个人都不算真正意义的科班出身,但算是真正意义上的Geek,Geek改变世界,哈哈。就如刚才所言,至今也有人指出这个竞赛的各种缺点,但不可否认的是,推荐系统的工业界发展被这个竞赛推进到了一个新的高度。
另外,在这个时期,出现了一个叫stumbleupon的网站,目标是希望对全网的各种topic通过算法来推荐给各种用户,在互联网时代似乎没有发展的很好,但大概在2009年从ebay赎回之后,借助移动的特点,似乎获得了第二春有了较好的用户增长。
2010至今:
滚滚车轮驶入了2010年后,个性化推荐在工业界相对而言空前的热闹起来。各种网站在个性化推荐领域都展开了或强或弱的尝试,几家大型垂直应用的网站,比如linkedin,netflix等都号称推荐的流量已经超多一半,也就是个性化推荐系统已经成为这些网站最根本的基础设施之一。Netflix也有空开他们在不同的推荐场景下使用了各种各样的算法,在这一点上,从我们1号店自己的实践来看,也是非常的合理,我们也从来不认为整个推荐系统是建立在某一个特别独特,特别“领先”的算法上,而是需要相对丰富的算法平台,然后针对我们不同的产品场景,不同的业务目标来做改造创新,从而落地的更有价值。
下面就进入第二部分,来简单介绍一些我们1号店在这方面的实践。
对于大型电商来说,个性化推荐的意义我们要从用户体验和商业价值两个角度去考虑,为什么呢?举个例子,比如去年我们公司CEO曾质疑推荐系统给用户推荐的商品价格太低,也就是卖出去的sku量不错,但整体GMV偏低,当然实时上所有的算法基本上并没有做任何刻意调低价格的程序,从这件事上我们可以这么理解,用户买得多说明用户体验还不错,但gmv低说明推荐系统对公司的商业价值贡献不够。对于这个问题,我们从去年年底就开始在各个栏位中设计算法来优化,但大家应该可以理解两个角度之间在很多场景下是有矛盾的,所以需要设计相对复杂的方法来在不伤害用户体验的前提下如何提升商业价值。
对于1号店个性化推荐的整体系统架构以及不少已经使用的算法,因为之前也在几次分享中阐述过(比如四月份北京qcon),所以这里就不做过多介绍,值得一提的是,随着我们底层个性化引擎的越来越完善,而且基于明显的线上测试效果,公司的各个业务线都开始拥抱接入,CRM,广告,搜索,团购闪购,app等都已经或者正在被个性化推荐所重构和改造。
现在很多人在谈精准营销,在谈RTB,DSP,ADTargeting,在谈用户精准投放,大家可以想到的是,其核心离不开个性化推荐,或者说你把任何的广告,市场活动当成信息来看的话,那就跟个性化推荐目的是一样的:在合适的时间,合适的场景下,把每个人需要的信息推荐给他
今天我再稍微分享一些我们在推荐算法上的创新,传统的不少推荐算法,比如cf,as,svd,contentbase,lr,graghmodel…我们已经通过或多或少的改造定制活跃在不同的推荐场景下,但就如之前所提及的,我们需要的是针对不同的应用,业务,场景来设计解决问题的算法来落地,所以大部分传统推荐系统使用的算法并不能完全满足一个大型电商所有的需要。比如1号店在国内食品,快消品方面的电商龙头,这些大都属于易消耗品,所以我们需要设计算法来做商品使用周期预测,也就是比如你买了一袋洗衣粉,大概多久之后才能再给你推荐同类商品,还有在数据清洗方面我们要做异常检测算法,比如来检测黄牛用户,黄牛单。还有一个比较有特色的是我们所设计实现的一套母婴推荐系统,也是今天剩下来时间着重阐述的一个创新。
总的来说,我们是想对母婴这个群体进行尽可能精准的推荐,那么这里有一个实例图,简单罗列了一下母婴会处于不同的时间周期,在不同的时间周期我们需要推荐些什么样的商品,而且推荐的商品除了母婴品类线之外,还要能提升跨类之间的CrossSale.当然,一切以顾客为中心,以用户体验为首要出发点。
这里有一个我们母婴推荐子系统的架构图,那么我们会综合利用用户画像,母婴时间段预测算法,商品平均消费周期预测算法,以及一个实时的用户意图模型来互相协作,通过EDM,APP,网站的不同购物流程等触点为母婴用户做精准推荐。
通过对各种源数据的清洗建模,设计有效算法来尽可能估算出每一个母婴用户的当前时间段,是备孕期,还是在孕初,孕中等孕期的哪个周,或者是月子期,宝宝处于0~3岁的某个时间段,这里我们综合考虑了商品之间的序列模式以及母婴年龄段的序列模式。
在设计算法的时候,一开始我们认为是个时间序列模型,考察了AR,ARMA等,后来通过对预测目标和各种数据源的认真分析发现不能简单拟合,然后我们还考虑了HMM也发现单模型不能解决问题,因为这个系统里有观察状态,也有隐状态,还有时序等众多因素。最终我们只能综合对各个算法的理解,综合起来设计了一个落地系统(就图里面所示的基于时间序列回归的年龄区间预测算法,名字起得可能太屌丝了点),至少效果还不错。那么,我们也通过这个系统,阐述了之前表达过的类似的一个观点,算法的设计和取舍离不开面临的领域,面临的产品场景,以及面临的数据源类型,还有你系统的一个价值目标。
这一页是我们实现的消费周期挖掘算法。当然,由于今年在其他场合也做过不少关于1号店个性化推荐和大数据挖掘的一些分享,为避免重复,今天主要内容就先这么多了。如果对其他相关内容感兴趣的朋友欢迎私信我,或者欢迎各种的问题探讨和骚扰:)谢谢大家
交流互动
阮彤
有关母婴的当前时间段预测,您提到了很多模型,但最终感觉单模型无法建模预测模型,然后用了一个系统来实现?这个系统是否类似于一个规则引擎?
王答明
不是规则引擎,我是指我们参考各个单模型基础上,做了个ensemble模型出来
阮彤
母婴是一类特殊物品,是否对于每一类物品,都要象母婴一样,建一个不同的模型呢?传统的推荐算法,和货品无关。母婴的特殊性,也让人联想到,哪些货品有特殊性,这些特殊性又能否化归为一般性?
王答明
传统方法在很多场合还是基本有用的不过的确有些品类需要些特殊处理比如母婴
刘睿民
@王答明那么跨品类的推荐会怎样去做呢?
王答明
跨品类有很多做法比如图挖掘是其中之一
…….
陈新河:联盟副秘书长;《软件定义世界,数据驱动未来》再次感谢答明的精彩分享!
【入中关村大数据产业联盟500人微信群指南】
您只需在中关村大数据产业联盟500人微信群中分享一次大数据思想、案例,即可进入500人微信群,与众多大数据朋友沟通、交流、合作!(入联盟500人微信群,请把代表您能力和水平的PPT及姓名、单位、职务、联系方式发chenxinhe2020@126.com。详情请订阅微信公众号:软件定义世界(SDX)后,查询500)
【中关村大数据产业联盟主旨与目标】
落实国家战略,聚合产业势能,促进商学互动,
助力企业成长,倡导数据伦理,探寻数字文明
【中关村大数据产业联盟活动】
〖大数据100分〗以500人圈大数据技术、资本、专家和政策专业人士为依托,每晚9点进行的线上活动。
〖大数据地平线〗以大数据执委会和中关村大数据产业联盟成员为依托,进行的走入企业现场调研活动。
〖大数据香山汇〗以“运动、分享、进步”为宗旨的爬山、PPT分享、研讨活动。
〖大数据沙龙〗以“数据驱动,创新未来”为主题的高端大数据沙龙活动。
【中关村大数据产业联盟联盟网站】
http://www.zgc-bigdata.org/
【大数据媒体方阵】
〖软件定义世界(SDX)〗、〖大数据文摘〗、〖大数据栋察〗、〖科技杂谈〗、〖CSDN〗、〖天云融创〗、〖大数据邦〗、〖199IT〗、〖大数据实验室〗、〖云里数里〗、〖中云网〗、〖云华时代〗、〖大数据问答〗等,目前已覆盖20多万订阅用户。
欢迎加入大数据媒体方阵,第一时间获得〖大数据100分〗等中关村大数据产业联盟提供的独家信息,请在公众号留言或加入个人微信号沟通。
【联系方式】
地址:北京市海淀区东北旺西路8号中关村软件园软件广场C座3层
电话:010-56380808
电子邮件:sdxtime@gmail.com
个人微信号:sdxtime
欢迎大家加入科技杂谈菁英汇,交流思想、分享信息。仅限行业商端人士参与。参与方式:点击左下方“阅读原文”填写您的加入信息,科技杂谈通过审核后,会添加入群。
本文仅代表作者观点,科技杂谈授权刊登。
转载必须注明作者与科技杂谈,侵权必究。
科技杂谈文章,均同步发布于犀牛财经网。
已入驻搜狐新闻客户端,网易阅读客户端。