查看原文
其他

人物|杨赟:数据为桥,算法为梁,同心为“家”

杨赟 58技术 2022-03-15

11月24日,上海市计算机学会年会在上海市科学会堂举行。房产事业群数据及流量运营部总监杨赟博士受邀参加,并做精彩分享《大数据和算法在房产互联网的应用》。


背景

大数据技术和算法的快速发展给企业带来强大推力,利用大数据和算法,可以有效地帮助企业进行业务创新和提效。在移动互联网时代,购房者选择范围日益增多,需求也更加复杂和多样化,对房产平台的个性化服务和信息质量也提出了更高的要求。58同城&安居客作为国内第一大找房平台,房产数据打通了包括58同城、安居客、赶集网在内等58系平台的数据。本次分享将分别介绍房产大数据现状,以及如何通过大数据和算法来提升用户体验,提高平台连接效率。


房产大数据现状

房产数据主要涵盖小区/楼盘/房屋数据、用户数据和经纪人数据等,将分别阐述。 1.小区/楼盘数据房产平台在2017年就推出“58房源全息字典”,它是房源新生态的基础数据库,通过线下数据采集和线上数据沉淀,目前已拥有800多个字段,分类超过50种,包括房价、户型图、面积、房龄等等,帮助用户轻松获得小区基本设施、历史交易信息及周边配套等所需的详细信息。

经过多年的积累,房源全息字典已经收录了全国640个城市、55万个小区以及将近2亿套真实房源信息。通过房源字典,可以把更加精准的数据呈现在用户面前,让购房者选房买房更为便捷。 2.用户/行为数据作为国内第一找房平台,58同城&安居客为日均3000万以上的找房用户提供多样化的高品质服务。我们通过综合分析用户行为路径,包括用户的点击、收藏、订阅等一系列行为,多维度全面了解用户需求,精细化用户标签。目前我们的用户标签体系覆盖了包括基本信息、设备信息、行为标签、兴趣标签以及特征人群等在内5个大类的数百个标签。通过对用户标签的精准描述,我们可以针对不同的用户做精细化运营和个性化服务,满足不同用户的找房需求。3.经纪人/行为数据58同城、安居客连接着全国众多经纪公司和百万以上经纪人,平台找房用户与全国经纪人进行匹配,并产生数十万条对经纪公司或经纪人的点评。我们通过综合分析经纪人的发房、问答、微聊、电话、带看等行为,结合用户评价,多维度全方面刻画经纪人,精细化经纪人标签。目前我们的经纪人标签体系包括:经纪人基本信息、房源真实性与丰富性、服务水平、用户评价、专业知识等多个大类标签。通过对经纪人标签的精准描述,我们可以对经纪人的服务能力和服务质量作出总体评估,从平台甄选出优质的经纪人,更好地促进和用户的连接。



大数据和算法实践

1.个性化推荐个性化推荐在房产有着丰富的应用场景。做好个性化推荐最关键的一点是如何去理解用户的意图。相比衣食行,找房是一个低频行为,数据比较稀疏,因此对如何挖掘用户需求也提出了较高的挑战。我们基于用户的基本信息和行为特征等构建出用户兴趣图谱和画像。一般来说,处在买房初期和买房后期的用户兴趣图谱会存在较大差异。处在买房初期的用户,往往兴趣较为广泛,需要去进一步挖掘用户的潜在需求,而买房后期的用户,买房需求往往会锁定在几个特定的小区。基于上述用户行为模式的观察,在推荐场景下,我们采用了用户画像和召回、精排和重定向相结合的方法。对于用户兴趣的挖掘,我们采用规则统计和LDA模型对用户进行分类,采用深度网络结合attention机制对用户行为建模,去构建用户长短期兴趣。在推荐候选集方面,我们采用协同过滤、location-based、基于用户长短期兴趣、基于神经网络的item2vec等进行召回。

在精排方面,我们采用了大规模离散特征+LR、连续特征+XGBoost,2018年以来我们也尝试了FNN、wide&deep等深度学习预估模型。在重定向方面,我们采用规则,结合信息质量和真实度,对房源进行二次排序。在转化和连接效率方面都取得较大的提升。


 2.智能连接

连接规模和连接质量是房产平台核心指标之一,每天数千万的用户,100w+的经纪人,如何通过数据和算法,有效地去实现用户和经纪人的智能连接是房产大数据的主要应用场景之一。在这里,我们基于用户的一系列行为,包括用户的微聊、电话、浏览、订阅等,筛选出买房意向较高的用户,结合用户的兴趣图谱,跟平台甄选出的优质经纪人做智能匹配,来实现两者的双向连接。

智能匹配的预估模型也经过了一系列的演进。2015年,我们为了实现产品的快速上线,主要采用基于规则的匹配算法,包括用户特征和经纪人特征的相似度计算(余弦相似度、欧氏距离等)。2016年,我们引入特征工程,人工融合特征,并且采用流式计算框架,来实现用户和经纪人的实时匹配。2017年以来我们在特征工程上做了相当多的工作,通过GBDT和XGBoost构造新特征,后来又尝试了通过深度网络去学习新特征,跟NLP文本特征做结合,显著地提升用户和经纪人的匹配效率。在此基础之上,房产业务线陆续推出多个大数据连接类产品(抢客券,畅聊包,微聊客等)。

3.视频质量评估房产在2016年推出了视频看房业务。房源视频可以全方位地为用户提供房源信息,为用户选房看房提供便利。同时,房源视频也是鉴别真假房源的有效手段之一,能够帮助用户获取真实的房源信息。为了更好地把平台优质视频甄选出来,进一步提高用户体验,我们构建了一个基于深度学习、机器学习、传统图像算法等方法的视频质量评估系统。视频质量评估主要从视频拍摄质量、视频内容质量、视频运动质量以及语音质量等几个维度进行综合评测。视频拍摄质量是考虑视频拍摄的清晰度、亮度、色彩、峰值信噪比等,是最直观的视觉系统感受的效果。视频内容质量则是从内容信息质量的角度出发,考虑视频是否完整地拍摄了房源的户型、是否添加经纪公司广告、视频拍摄内容是否虚假等。除此之外,我们还对房源视频进行码流分析,提取视频AVFrame结构体中的运动矢量表,以此评估视频的拍摄速度,太快或者太慢的拍摄速度都会直接影响到用户感知和体验。

除此之外,我们也对视频中语音质量进行评估,重点衡量视频里面声音是否与房源相关的解说。通过对多个维度的计算,训练一个浅层的神经网络去预测视频质量。视频质量上线之后,对用户的视频观看时长和连接效率都有较大的提升。

总结

大数据+AI, 在房产互联网有着广阔的应用空间。除了上面提到的几点应用以外,58同城自主研发的VR看房、智能客服和智能广告创意等AI项目也都在房产业务线得到了广泛的应用,在国内外处于领先水平。“AI是为大数据而生,也是以大数据为前提”。大数据+AI的价值在于提效和赋能,通过技术去提高效率和用户体验,提升企业和平台的价值。这一领域,未来大有可为,我们继续努力。

杨赟


房产事业群数据及流量运营部总监


目前主要负责58集团HBG数据部团队管理工作


在大数据、个性化推荐、图像算法等领域有着多年丰富的经验


END


相关文章推荐:

人物|江军平:业务架构缺乏技术含量?这些事情您需要了解

人物|钟昌寿:58同城分布式存储系统架构设计和优化实践

人物|龚诚:58同城万台服务器下的智能运维实践







您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存