其他
深度学习在互联网房产推荐场景的算法实践
导读 本次分享的题目为深度学习在互联网房产推荐场景的算法实践。
主要内容包括以下四大部分:1. 58 房产业务介绍
2. 向量化召回
3. 多任务,多场景多任务模型优化
4. 总结与展望
分享嘉宾|胡作梁 58安居客 资深算法工程师
编辑整理|鲍亭文
内容校对|李瑶
出品社区|DataFun
01
数据层:负责离线数据和实时数据的存储。此外,房源向量存储在 Faiss 中。 计算层:涵盖了离线和实时计算任务、模型训练、Faiss 向量检索以及画像个性化检索等。 召回层:采用多种召回策略,包括向量化召回、商业房源召回、兴趣召回、基于位置的召回、再营销召回以及热门召回等。 排序层:应用精排模型,对召回层提供的房源进行精细化的排序。 重排层:进一步对排序后的房源进行加权、去重、过滤和打散等操作,以优化推荐列表的多样性和相关性。 应用层:为线上的推荐位提供接口服务。
向量化召回
两次点击行为时间间隔大于一定阈值时,我们会将用户的浏览房源序列分割成两个新的序列; 剔除一些用户误点击的房源,这些误点击的房源通常表现为停留时长过短或两次行为之间房源的差异过大; 对于经过修改的房源,只保留最后一次修改后的行为数据; 剔除一些异常用户的数据,如经纪人的行为数据; 对于用户的连接行为,如电话、微聊、分享、收藏等,我们也会进行适当的过采样处理。
分城市分业务类型召回:商业地产推荐涉及多种业务类型,如写字楼租售、商铺、厂房仓库的出租转让等。 分层召回:保证会员房源优于个人房源展示。 优质房源加权召回:需要对一些比较优质的房源进行加权召回。 召回足量房源:由于城市间房源数量差异巨大,从几百到几十万不等,这给召回策略带来了挑战。比如我们采用 Faiss 的参数设置(nlist=100,nprobe=20),即将房源聚成一百类,在检索时从二十个最相似的类中挑选 top n 最相似的房源。这种策略理论上只能召回五分之一的房源。对于房源数量较少的城市,这可能导致召回结果不足。
多任务,多场景多任务模型优化
总结与展望
分享嘉宾
INTRODUCTION
胡作梁
58安居客
资深算法工程师
2017 年毕业于同济大学,一直从事58房产推荐相关工作。目前主要负责五八、安居客商业地产、爱房推荐相关工作。
往期推荐
揭秘NVIDIA大模型推理框架:TensorRT-LLM
好的数据分析与业务洞察该如何做?
AI 大模型在汽车行业应用探索
DataOps 在联通数科的实践 构建数据治理研发运营一体化能力
Data+AI,一站式指标平台的创新应用
大模型微调方案设计和能力整合
金融级实时数仓建设实践
数据存储的灵魂拷问:空间小、速度慢、不稳定,该咋办?
大数据安全治理与防范——网址反欺诈实战
点个在看你最好看
SPRING HAS ARRIVED