智慧家庭“连楹”体系之行业数据采集能力,助力解决移动体系全域运营中数据驱动问题
点蓝色字关注“中移科协”
//
随着数据时代的到来,对数据的需求愈加强烈。传统的运营商自有数据已经不能满足愈发多样化的业务场景,云爬虫采集能力可以帮助解决移动体系全域运营中数据驱动问题,在用户画像、内容库建设、行业内容数据支撑、营销效果衡量等运营营销的关键环节提供数据支持。
中国移动智慧家庭运营中心联合信息技术中心,依托集中化大数据平台,构建云爬虫采集能力。通过提供外部行业数据云爬虫采集工具,输出包括数字内容、电商、房地产信息等在内的17个行业超6000万的行业数据,助力集团、省/专公司进行场景化业务运营活动。
一、能力介绍
重点关注全网运营活动的底层行业数据采集支撑:提供媒体、教育、电商等细分行业爬虫数据、数据标签及可视化服务及数据采集能力,为精准营销、舆情、商业情报跟踪等上层业务提供基础数据,助力集团、省公司及行业客户快速获取行业竞品信息及发展趋势(媒体、电商、舆情等海量内容信息),挖掘分析潜在用户数据价值,进而实现数据价值变现。
基于可用、可靠、安全、可测、可维五大原则,采用“自研+开源”的混合架构打造了集采集、存储、交换一体化统一云爬虫平台。
1. 组件选型先进和可靠:开源组件遵循“社区活跃,优先Apache 项目”的选型原则。
2. 业务划分及统一纳管:能力层基于业务特征划分三大模块,分而治之;兼容统一的日志、代理、监控、调度服务。
3. 分布式:分布式架构满足租户资源横向扩展,可快速自由部署服务。
二、能力优势
1、海量高吞吐DPI解析引擎
采用自研的分布式聚类模型,通过对DPI历史处理数据分析,选取对爬虫引擎效率影响较大的四个属性作为特征,动态计算出队列个数及各域名与队列序号的对应关系,通过DPI分流器将不同域名的DPI分流至不同的优先级队列中,避免不同处理速度的DPI相互影响,显著提高整体处理效率。
2、动态松耦合爬虫架构
统一爬虫平台采用松耦合方式实现了爬虫服务器、三类爬虫任务、日志、爬虫进程的统一纳管,最大限度的降低了开发及运维复杂度,同时使用sdk方式实现了集httpclient、okhttp、google-chrome、firefox的一站式采集工具和高效的动态代理服务,为用户提供多样化采集方案,实现站点数据可采集最大化。
3、高精度爬虫文本分类模型
针对传统语义分析模块在人工标注上耗费大量精力的难题,提出基于预训练的中文文本深度学习分类算法。该算法对训练数据采用自提取的方法,利用预训练好的BERT神经网络模型做文本编码,快速精准提取词向量类型的标注,得到的分类结果将完善海量爬虫数据的“标注结果”,根据实验结果对比,比传统朴素贝叶斯、随机森林等算法精度可提升10至12个百分点。
三、应用案例
目前已经采集了包括音乐、视频、电商、POI等在内的17个行业数据,累计行业爬虫数据量超6000万,每年将保持至少6个行业,2000万的增量。2021年累计11家省/专公司订阅爬虫数据,支撑了18项定制化爬虫需求开发。
1、沿街商铺商机挖掘
22年家庭市场规划要求加大对沿街商铺等聚类用户的网络覆盖和精准营销。各省在线下拓展时存在商铺信息不完善,商机抓取不及时等问题。利用云爬虫能力,智能采集房源、商旅、生活服务等平台多源数据,自动采集商铺的类型、位置、联系电话等相关信息。通过互联网渠道扩大商机入口,实现沿街商铺商机挖掘、评价、监控的闭环管理流程,帮助网格经理/商客经理快速获客。
2、小区画像智能匹配
当前,由于各省基础数据能力差距较大,部分省公司小区画像作战地图存在不精细、不准确、未能有力支撑一线营销工作等问题。可以利用云爬虫技术,快速获取第三方来源的小区信息,包括小区户数、年代、房价等多维数据,结合智能匹配算法,与省公司综资系统小区信息进行快速匹配,更新补全小区级数据,构建多维小区画像,助力开展网格化高价值小区攻坚。
— end —
供稿单位:中国移动智慧家庭
往期精彩内容,戳我
· 中移科协有奖问答-“科技成果日”第45期:中台能力组合&定位专题&中国移动参股企业成果宣传推广
· 中国移动信息技术中心副总经理陶涛:繁荣大数据生态,加速产业链协同
· 中国移动张昊:“东数西算”热潮涌动,数字经济已迎来算力时代
更多精彩视频
通过思考控制的机械手臂
水下焊接你见过吗
据说每一个点【在看】的人都收获了好运👇