【大数据专栏】Adtime CTO 雷永华:Adtime品牌营销的大数据实践
【这是“大数据专栏”的推送文章,本专栏由中关村大数据产业联盟与科技杂谈合作提供】
文 / 雷永华 ,本文为雷永华在中关村大数据产业联盟“大数据100分”论坛上的交流探讨实录
主讲嘉宾:雷永华
主持人:中关村大数据产业联盟副秘书长陈新河
承办:中关村大数据产业联盟
嘉宾介绍:
雷永华:Adtime副总裁、CTO,负责产品和技术,曾早期在Yahoo先后负责无线业务(短彩,IVR),数据平台,YST搜索技术平台运维,后在淘宝搜索负责数据算法团队和运维架构,是Postgresql数据库集群架构的committer之一,更是最早从事hadoop平台国内应用实践的核心成员。围绕着Adtime大数据这个核心战略,雷永华带领团队在智能管道大数据,音视频大数据,基于webkit的智能爬虫等应用架构上不断创新,构建了基于品牌营销的DMC(digitalmarketingconsultant)大数据平台为行业客户提供360全景营销决策支持。
以下为分享实景全文:
Hi!大家好!我是雷永华,来自Adtime,负责公司产品和技术线。今天给大家分享的主题是《Adtime品牌营销的大数据实践》。
一、技术架构
随着互联网、移动互联网、互联网电视的迅速发展,传统的BI架构已经难以适应海量数据挖掘的要求,AdTime结合多年的技术积累、实战经验总结了一套大数据体系架构。
该架构分为五层,分别是数据获取层、数据存储层、内容解析层、应用模型层以及应用展现层。
在数据获取层,我们通过数据爬虫、搜索引擎、API接口、C++数据预处理等技术,将视频、图片、文本等结构化、非结构化数据进行有效收集。其中,针对不同的信源,我们采用了不同的爬虫技术。
模拟浏览器行为,智能定位目标的爬取技术:
通过监听浏览器网络通信、模拟浏览器访问行为,智能识别内嵌流媒体素材,爬取视频内容:
社交内容爬取技术:
1、新闻类、论坛、BBS、电子报:通过HTTP协议,通过基础配置对目标页面进行规则解析获取;
2、Blog类:通过作者RSS订阅定制进行定期爬取获取;
3、微博类:预定义关键词,通过官方授权接口进行数据即时搜索获取;
4、公众号类:预定义公众号范围,通过搜索引擎、智能爬虫进行数据查询及结果解析;
在数据存储层,我们将缓存处理后的视频、图片等非结构化数据存储到了FASTDFS文件集群中,将文本数据存储到HADOOP的HDFS文件服务集群中,将搜索引擎获取到的信息存储到Solr集群服务器中。HADOOP平台负责海量数据计算,ORACLERAC集群负责数据分析模型构建及相关计算。整个数据存储层采用KETTLE进行ETL转换、加载调度。其中,数据转换线索都是围绕着行业品牌标签库、全媒体信息库、情感词库展开。
在数据分析模型中,我们运用了大量的数据挖掘算法,以人群属性建模为例,如下是我们的受众性别判断模型。
数据存储层与内容解析层对接,借助全文解析、智能分词、热词发现、音频识别、视频识别、人脸识别等技术手段,有效将数据转换为可利用信息。
介绍一下音频识别技术,如下是我们的音频识别流程:
再看一下我们的人脸识别模型:
二、业务产品
接下来给大家分享一下我们在业务方面的实践。先来看一下我们的业务作战图。
Atlas云图是用户行为分析产品
下面是产品截图:
第二个产品:品牌舆情是品牌形象分析平台
下面是产品截图:
第三个产品是:广告监测是广告策略分析平台
下面是产品截图:
最后一个产品:DMC是数字营销全案咨询服务平台
下面是产品截图:
借助上述四大产品及技术能力,AdTime致力于为品牌客户提供量身定做的品牌营销咨询服务。
AdTime是一家大数据营销企业,也是一家运用大数据技术的创新科技型广告公司,可为广告主提供全网(基于互联网、移动互联网、互动电视等)一站式的营销服务及解决方案。我们的营销落地产品有:互联网精准广告投放平台CCM、移动互联网精准广告智能投放平台手指客、“三网融合、多屏互动”广告运营平台XAD、社会化媒体营销平台SNS+、跨网多屏平台DSP、互动电视精准广告投放平台AdSmart等,借助这些产品,实现品牌营销战略落地。
以上是我今天分享的全部内容,我们在实践中前行,肯定有很多缺陷不足之处,希望大家有任何意见建议随时与我联系,谢谢大家。
嘉宾互动:
Jameslu:
人脸识别是自己的技术吗?人脸侧面识别准确度怎么样?
雷永华:
是的,采用种子特征库,做特征比较。我们改进了开源识别算法。精确度在80%以上,主要看图库的多少,以及角色对应形象可识别度。
Jameslu:
咱们的大数据的架构中用到了gpu这种技术了吗?如果处理视频的话,用gpu据说能提速很多倍。
雷永华:
图像处理器技术我们现在没有用到。视频也是按时间间隔提取图像。
Jameslu:
一直想了解有无把gpu和hadoop结合高速处理大量视频的方案
雷永华:
gpu主要跟硬件性能有较大关系
雷永华:
可以咨询下北航计算机那,他们做过语音比对的gpu加速
Jameslu:
嗯,谢谢[微笑]。
赵晓庆:
人脸识别在Adtime的应用场景是什么呢?
雷永华:
艺人识别、代言人识别
赵晓庆:
我大概明白了,是识别图片新闻中的人物?
雷永华:
图片、视频都有。图片来自社交媒体,视频
赵晓庆:
再加上文本挖掘,语义分析等等,都是高精尖的技术阿[强]强悍
雷永华:
我们也在摸索中前行,也希望联盟中的各位专家多给意见建议,共同成长。我们目标就是构建全媒体大数据营销平台。
赵晓庆:
是云模式吧
雷永华:
是的,我们ATLAS就是云图。
赵晓庆:
时效性怎么样
雷永华:
看业务场景时效性是不一样的,主要是看性价比,有实时的、准实时的。
赵晓庆:
明白了,多谢!
......
陈新河:中关村大数据产业联盟副秘书长;《软件定义世界,数据驱动未来》再次感谢永华的精彩分享!
【入中关村大数据产业联盟500人微信群指南】
您只需在中关村大数据产业联盟500人微信群中分享一次大数据思想、案例,即可进入500人微信群,与众多大数据朋友沟通、交流、合作!(入联盟500人微信群,请把代表您能力和水平的PPT及姓名、单位、职务、联系方式发chenxinhe2020@126.com。详情请订阅微信公众号:软件定义世界(SDX)后,查询500)
【中关村大数据产业联盟主旨与目标】
落实国家战略,聚合产业势能,促进商学互动,
助力企业成长,倡导数据伦理,探寻数字文明
【中关村大数据产业联盟活动】
〖大数据100分〗以500人圈大数据技术、资本、专家和政策专业人士为依托,每晚9点进行的线上活动。
〖大数据地平线〗以大数据执委会和中关村大数据产业联盟成员为依托,进行的走入企业现场调研活动。
〖大数据香山汇〗以“运动、分享、进步”为宗旨的爬山、PPT分享、研讨活动。
〖大数据沙龙〗以“数据驱动,创新未来”为主题的高端大数据沙龙活动。
【中关村大数据产业联盟联盟网站】
http://www.zgc-bigdata.org/
【大数据媒体方阵】
〖软件定义世界(SDX)〗、〖大数据文摘〗、〖大数据栋察〗、〖科技杂谈〗、〖CSDN〗、〖天云融创〗、〖大数据邦〗、〖199IT〗、〖大数据实验室〗、〖云里数里〗、〖中云网〗、〖云华时代〗、〖大数据问答〗等,目前已覆盖20多万订阅用户。
欢迎加入大数据媒体方阵,第一时间获得〖大数据100分〗等中关村大数据产业联盟提供的独家信息,请在公众号留言或加入个人微信号沟通。
【联系方式】
地址:北京市海淀区东北旺西路8号中关村软件园软件广场C座3层
电话:010-56380808
电子邮件:sdxtime@gmail.com
个人微信号:sdxtime
欢迎大家加入科技杂谈菁英汇,交流思想、分享信息。仅限行业商端人士参与。参与方式:点击左下方“阅读原文”填写您的加入信息,科技杂谈通过审核后,会添加入群。
本文仅代表作者观点,科技杂谈授权刊登。
转载必须注明作者与科技杂谈,侵权必究。
科技杂谈文章,均同步发布于犀牛财经网。
已入驻搜狐新闻客户端,网易阅读客户端。