查看原文
其他

揭秘!“首款青少年定制搜索引擎”背后的算法

传播君 网络传播杂志 2021-07-16

昨日,国内第一款专为青少年定制的搜索引擎——“花漾搜索”APP正式发布。“花漾搜索”由新华社中国搜索打造,可以阻断暴力、色情、赌博等不良信息,为孩子打开美好的网络世界。这款APP背后使用了哪些算法?在人工智能探索方面有哪些心得?传播君专访中国搜索人工智能部总监龙飞,为你揭秘。


发布会现场


传播君:上线“花漾搜索”的初衷是什么?


龙飞:花漾搜索是中国搜索最新上线的一款APP力作。该产品响应习近平总书记提出的“引导青少年扣好人生第一粒扣子”的号召,专门为中国广大青少年量身打造,是人工智能技术应用的新探索。


效果


01


在今年六一儿童节前试运营以来,累计下载量已超过1000万,在苹果应用商店总榜名列前茅。


02


花漾搜索在应用宝、百度手机助手、360手机助手和苹果商店四大平台均获得了近乎满分的好评。


03


花漾搜索推出仅仅一个多月时间,即位列苹果应用商店总榜第11位,连续2天登顶教育类榜首。



传播君:“花漾搜索”背后使用了哪些算法?


花漾搜索采用“信息流+搜索”结合的模式,采用人工智能技术为青少年打造绿色清新又丰富多彩的上网工具。


在内容安全方面


花漾搜索采用图像识别和自然语言处理技术助力人工,为青少年筛选并屏蔽不良信息。


在内容分发方面


花漾搜索采用智能推荐技术,为不同年龄段的青少年提供差异化的内容和服务。


花漾搜索收集了大量不适合青少年阅读和观看的文字和图片,以此为训练数据打造了内容安全智能过滤模型。通过不断的训练、迭代和优化,内容安全过滤系统已经可以较为准确地识别出图片和漫画中包含的暴力、血腥、恐怖、裸露和恶心等不适合青少年观看的内容,也可以较为准确地识别出文字中的色情、颓废等不适合青少年阅读的内容。


以此为实践基础,中国搜索牵头申请了“青少年互联网不健康内容分类”团体标准,并于5月23日正式发布。在内容分发方面,花漾搜索综合考虑了青少年内容信息成长性模型和家长满意度,综合使用了多种推荐算法,为青少年推送感兴趣的内容。同时,花漾搜索的意图理解引擎也能够较为精准地还原青少年的搜索意图。




传播君:人工智能技术给你们的内容生产、产业拓展等方面带来了哪些改变和影响?


龙飞:人工智能技术日新月异,目前已经与媒体行业深度融合。中国搜索作为新华社直属的高新技术企业,具有媒体和技术的双重基因。早在2015年,中国搜索就开始探索人工智能在媒体领域的应用。


1

2015年

上线国搜识图。


2

2016年

上线国搜学术。


3

近期

上线专门为青少年开发的花漾搜索。

上线为抢占新闻“第一落点”的突然事件融媒体报道智能生成系统。


内容生产是内容建设的重要部分,广义地来说,内容生产还应包括内容的采集、过滤、生成和反馈等几个环节。


早在2014年,美联社就开始使用WordSmith进行财报类新闻的写作。虽然目前人工智能技术还不能准确理解文章的语义,无法写出有思想有内涵的报道文章,但是在财经、体育和自然灾害等领域的自动报道中已经起到了越来越重要的作用。


写稿机器人案例


1

新华社

“快笔小新”


2

第一财经

“DT稿王”


3

今日头条

“xiaomingbot”



传播君:你们在人工智能探索方面还有哪些案例?


龙飞:以中国搜索自主研发的突发事件融媒体报道智能生成系统为例。该系统主要监测自然灾害、社会安全事件、群体性事件和交通事故等突发事件。首先通过大规模分布式实时爬虫系统定向爬取可能发布突发事件消息的微博账号,然后通过过滤模型自动过滤掉非突发事件的消息,最后通过内容生成模型将同一事件的消息自动生成突发事件的报道。


分布式爬虫系统实时爬取了每类2000多个微博账号,每天共可爬取20000多条疑似突发事件的微博消息。通过过滤模型后可筛选出1000条左右的突发事件消息。最后内容生成模型在去除相同事件后,总共可生成300余条的突发事件。在整个系统中,人工智能技术贯穿了信息筛选、信息去重和信息生成的全链条,使得用户对国内外的突发事件能有实时的掌控。该系统从发现突发事件信息到生成报道的时间周期在五十秒内。

案例1

在巴黎圣母院失火事件中,该系统比人民日报和人民网的报道快了5个小时,比央视网快了近5.5个小时。

案例2

在埃塞俄比亚失事事件中,该系统比央视新闻快了近2个小时,比头条新闻快了1.5个小时。


突然事件融媒体报道智能生成系统是中国搜索在MGC方向的首次尝试。在可以遇见的未来,中国搜索会在更多规律性强的报道中采用MGC,从而解放更多的人力用于有创造性的内容生产中。此外,中国搜索还利用人工智能技术在互联网金融、版权保护等领域进行了尝试。




传播君:在人工智能探索的过程中,你们遇到了哪些困难和问题,是如何解决的?


龙飞:人工智能技术虽然在媒体领域获得了较大成功,但是也遇到了一些困难和问题。总体来说,实验室级别的人工智能技术和工程级别的人工智能技术还存在着较大的差异。有很多在实验室中性能良好的算法和技术,到了实际的工程应用中性能下降急剧,几乎不可用。这与数据集的来源和规模有着直接的关系。我们在人工智能技术的工程性应用中一直采取边探索边改进的策略,通过联合一些技术较强的高校和一线互联网企业共同推进人工智能技术的应用落地。



传播君:您认为未来,人工智能和传媒行业的融合将会怎样发展?


龙飞:人工智能技术和传媒行业在未来会深度融合是毫无疑问的。但是我认为最关键的一点在于要明确以传媒行业的需求和痛点为导向,利用人工智能技术攻破这些应用的硬核。需要有更多既懂得传媒行业又懂得人工智能技术的人才来驱动人工智能和传媒行业的深度融合。我认为,人工智能技术在未来将会像水、电、气等基础性支撑资源一样,为传媒行业提供全方位的服务。



本文 来自传播君约访。

✿投稿  wangluocb@vip.sina.com

征订 《网络传播》杂志邮发代号:80-199




    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存