查看原文
其他

【大数据专栏】Adtime CTO 雷永华:Adtime品牌营销的大数据实践

2014-08-28 雷永华 科技杂谈
科技杂谈keji_zatan

新谈友,请点击题目下蓝字关注我

中国通信行业影响力最大的自媒体



【这是“大数据专栏”的推送文章,本专栏由中关村大数据产业联盟与科技杂谈合作提供】


文 / 雷永华 ,本文为雷永华在中关村大数据产业联盟“大数据100分”论坛上的交流探讨实录


  主讲嘉宾:雷永华


  主持人:中关村大数据产业联盟副秘书长陈新河


  承办:中关村大数据产业联盟


  嘉宾介绍:


  雷永华:Adtime副总裁、CTO,负责产品和技术,曾早期在Yahoo先后负责无线业务(短彩,IVR),数据平台,YST搜索技术平台运维,后在淘宝搜索负责数据算法团队和运维架构,是Postgresql数据库集群架构的committer之一,更是最早从事hadoop平台国内应用实践的核心成员。围绕着Adtime大数据这个核心战略,雷永华带领团队在智能管道大数据,音视频大数据,基于webkit的智能爬虫等应用架构上不断创新,构建了基于品牌营销的DMC(digitalmarketingconsultant)大数据平台为行业客户提供360全景营销决策支持。


  以下为分享实景全文:


  Hi!大家好!我是雷永华,来自Adtime,负责公司产品和技术线。今天给大家分享的主题是《Adtime品牌营销的大数据实践》。





  一、技术架构


  随着互联网、移动互联网、互联网电视的迅速发展,传统的BI架构已经难以适应海量数据挖掘的要求,AdTime结合多年的技术积累、实战经验总结了一套大数据体系架构。


  该架构分为五层,分别是数据获取层、数据存储层、内容解析层、应用模型层以及应用展现层。


  在数据获取层,我们通过数据爬虫、搜索引擎、API接口、C++数据预处理等技术,将视频、图片、文本等结构化、非结构化数据进行有效收集。其中,针对不同的信源,我们采用了不同的爬虫技术。


  模拟浏览器行为,智能定位目标的爬取技术:



  通过监听浏览器网络通信、模拟浏览器访问行为,智能识别内嵌流媒体素材,爬取视频内容:



  社交内容爬取技术:


  1、新闻类、论坛、BBS、电子报:通过HTTP协议,通过基础配置对目标页面进行规则解析获取;


  2、Blog类:通过作者RSS订阅定制进行定期爬取获取;


  3、微博类:预定义关键词,通过官方授权接口进行数据即时搜索获取;


  4、公众号类:预定义公众号范围,通过搜索引擎、智能爬虫进行数据查询及结果解析;



  在数据存储层,我们将缓存处理后的视频、图片等非结构化数据存储到了FASTDFS文件集群中,将文本数据存储到HADOOP的HDFS文件服务集群中,将搜索引擎获取到的信息存储到Solr集群服务器中。HADOOP平台负责海量数据计算,ORACLERAC集群负责数据分析模型构建及相关计算。整个数据存储层采用KETTLE进行ETL转换、加载调度。其中,数据转换线索都是围绕着行业品牌标签库、全媒体信息库、情感词库展开。


  在数据分析模型中,我们运用了大量的数据挖掘算法,以人群属性建模为例,如下是我们的受众性别判断模型。




  数据存储层与内容解析层对接,借助全文解析、智能分词、热词发现、音频识别、视频识别、人脸识别等技术手段,有效将数据转换为可利用信息。


  介绍一下音频识别技术,如下是我们的音频识别流程:



  再看一下我们的人脸识别模型:




  二、业务产品


  接下来给大家分享一下我们在业务方面的实践。先来看一下我们的业务作战图。



  Atlas云图是用户行为分析产品



  下面是产品截图:




  第二个产品:品牌舆情是品牌形象分析平台



  下面是产品截图:



  第三个产品是:广告监测是广告策略分析平台



  下面是产品截图:



  最后一个产品:DMC是数字营销全案咨询服务平台



  下面是产品截图:



  借助上述四大产品及技术能力,AdTime致力于为品牌客户提供量身定做的品牌营销咨询服务。


  AdTime是一家大数据营销企业,也是一家运用大数据技术的创新科技型广告公司,可为广告主提供全网(基于互联网、移动互联网、互动电视等)一站式的营销服务及解决方案。我们的营销落地产品有:互联网精准广告投放平台CCM、移动互联网精准广告智能投放平台手指客、“三网融合、多屏互动”广告运营平台XAD、社会化媒体营销平台SNS+、跨网多屏平台DSP、互动电视精准广告投放平台AdSmart等,借助这些产品,实现品牌营销战略落地。


  以上是我今天分享的全部内容,我们在实践中前行,肯定有很多缺陷不足之处,希望大家有任何意见建议随时与我联系,谢谢大家。


  嘉宾互动:


  Jameslu:


  人脸识别是自己的技术吗?人脸侧面识别准确度怎么样?


  雷永华:


  是的,采用种子特征库,做特征比较。我们改进了开源识别算法。精确度在80%以上,主要看图库的多少,以及角色对应形象可识别度。


  Jameslu:


  咱们的大数据的架构中用到了gpu这种技术了吗?如果处理视频的话,用gpu据说能提速很多倍。


  雷永华:


  图像处理器技术我们现在没有用到。视频也是按时间间隔提取图像。


  Jameslu:


  一直想了解有无把gpu和hadoop结合高速处理大量视频的方案


  雷永华:


  gpu主要跟硬件性能有较大关系


  雷永华:


  可以咨询下北航计算机那,他们做过语音比对的gpu加速


  Jameslu:


  嗯,谢谢[微笑]。


  赵晓庆:


  人脸识别在Adtime的应用场景是什么呢?


  雷永华:


  艺人识别、代言人识别


  赵晓庆:


  我大概明白了,是识别图片新闻中的人物?


  雷永华:


  图片、视频都有。图片来自社交媒体,视频


  赵晓庆:


  再加上文本挖掘,语义分析等等,都是高精尖的技术阿[强]强悍


  雷永华:


  我们也在摸索中前行,也希望联盟中的各位专家多给意见建议,共同成长。我们目标就是构建全媒体大数据营销平台。


  赵晓庆:


  是云模式吧


  雷永华:


  是的,我们ATLAS就是云图。


  赵晓庆:


  时效性怎么样


  雷永华:


  看业务场景时效性是不一样的,主要是看性价比,有实时的、准实时的。


  赵晓庆:


  明白了,多谢!


  ......


  陈新河:中关村大数据产业联盟副秘书长;《软件定义世界,数据驱动未来》再次感谢永华的精彩分享!


  【入中关村大数据产业联盟500人微信群指南】


  您只需在中关村大数据产业联盟500人微信群中分享一次大数据思想、案例,即可进入500人微信群,与众多大数据朋友沟通、交流、合作!(入联盟500人微信群,请把代表您能力和水平的PPT及姓名、单位、职务、联系方式发chenxinhe2020@126.com。详情请订阅微信公众号:软件定义世界(SDX)后,查询500)


  【中关村大数据产业联盟主旨与目标】


  落实国家战略,聚合产业势能,促进商学互动,


  助力企业成长,倡导数据伦理,探寻数字文明


  【中关村大数据产业联盟活动】


  〖大数据100分〗以500人圈大数据技术、资本、专家和政策专业人士为依托,每晚9点进行的线上活动。


  〖大数据地平线〗以大数据执委会和中关村大数据产业联盟成员为依托,进行的走入企业现场调研活动。


  〖大数据香山汇〗以“运动、分享、进步”为宗旨的爬山、PPT分享、研讨活动。


  〖大数据沙龙〗以“数据驱动,创新未来”为主题的高端大数据沙龙活动。


  【中关村大数据产业联盟联盟网站】


  http://www.zgc-bigdata.org/


  【大数据媒体方阵】


  〖软件定义世界(SDX)〗、〖大数据文摘〗、〖大数据栋察〗、〖科技杂谈〗、〖CSDN〗、〖天云融创〗、〖大数据邦〗、〖199IT〗、〖大数据实验室〗、〖云里数里〗、〖中云网〗、〖云华时代〗、〖大数据问答〗等,目前已覆盖20多万订阅用户。


  欢迎加入大数据媒体方阵,第一时间获得〖大数据100分〗等中关村大数据产业联盟提供的独家信息,请在公众号留言或加入个人微信号沟通。


  【联系方式】


  地址:北京市海淀区东北旺西路8号中关村软件园软件广场C座3层


  电话:010-56380808


  电子邮件:sdxtime@gmail.com


  个人微信号:sdxtime


  欢迎大家加入科技杂谈菁英汇,交流思想、分享信息。仅限行业商端人士参与。参与方式:点击左下方“阅读原文”填写您的加入信息,科技杂谈通过审核后,会添加入群。


本文仅代表作者观点,科技杂谈授权刊登。

转载必须注明作者与科技杂谈,侵权必究。

科技杂谈文章,均同步发布于犀牛财经网。

已入驻搜狐新闻客户端,网易阅读客户端。


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存