情感分析是比较复杂和高阶的AI应用,在AI和人的交互过程中,能够准确地把握人的情感状态,从而极大地提升AI产品体验,对质检、对话交互、风控、舆论监督等都有着重要意义。
近年来短视频应用大火,视频媒体逐渐成为用户消费的主要内容载体之一,对视频内容的精准检索成为重要的技术需求。视频理解是目前计算机领域中非常热门、且极具挑战力的一个方向。视频通常有多种形式的数据,如音频、视频、文本(字幕)。目前关于视频理解的研究主要集中在视频的视觉模态上,而视频数据本身是多模态的,包括视频,声音,文本等。理解与建模不同模态之间的交互是视频分析任务的关键,如分类、目标检测、活动识别等。
当前,各大主流媒体已进入多模态阶段,可实现文字、图片、视频搜索,但相互间的壁垒依然存在。人民中科的跨模态智能搜索引擎“白泽”,可实现文字、图片、音视频互联互通,并在内容检索上实现了智能情绪识别。模态(Modality),虽然不是我们的日常用语,但却十分容易理解。我们平时接触到的信息可以来源于文字、声音、图像、味觉、触觉等。我们把每一个信息的来源域称为一个模态。随着信息技术和传感器技术的发展,模态的范畴也变得更为宽广:网络上的文本,深度相机收集到的点云等信息,都可以看作是不同形式的模态。跨模态感知涉及到两个或多个感官的信息交互,可以是通感(Synesthesia),也可以是转换感知。在实际应用中,转换感知更接地气:比如最基本的图像检索,就是一种从文本到图像的感官替换。反过来,从图像到语音的转换,可以帮助有视觉感官缺陷的人们,强化感知环境的能力。在互联网信息爆发且形式愈加丰富的时代,图文及短视频内容在互联网内容中所占比例不断提高。单一模态,往往难以提供对图文、视频等信息的完整描述。而且基于单个模态的内容提取及简单规则匹配的内容分析策略,已无法满足实际工作需要。对此,各厂商纷纷推出基于多模态融合和复合规则判断的多模态策略,但仍面临依赖大规模算力、模态之间信息相互隔离、运行和维护成本高、资源复用率低等问题。人民中科面向内容安全的跨模态的视频检索策略,相较于单模态理解、多模态融合,跨模态引擎同时可实现单模态语义理解、多模态信息融合、跨模态语义关联。在跨模态智能识别上,高级的情感智能是人类特有的一种认知能力。人类的交流天然是情感丰富的,并且往往跨越多个模态(语言、视觉、结构化知识等)。为建造高度拟人化的人机交互智能体,机器需要能理解以及生成跨模态的情感内容,能与人进行有同理心的跨模态情感交流。
“白泽”是人民中科跨模态智能搜索引擎,是对全网海量内容进行高通量感知、机器理解、智能检索并自主进化的计算平台。
人类面对互联网爆发性增长的形态多样的海量数据,原本几乎无计可施,而这恰恰是人工智能擅长的领域。为跨平台、跨模态搜索而生的“白泽”,就是一款全新的面向内容安全的人工智能搜索引擎。对于它来说,无论是音视频平台还是网站论坛,无论是用视频搜视频、用图片搜视频还是用文字搜视频、用图片搜文字,都可以轻松驾驭。
当然,要实现跨模态搜索,无论技术难度还是系统复杂度,都远超文本搜索。“白泽”突破了内容的智能理解与结构化、跨模态统一的表示与度量、高通量数据的计算成本这三大跨模态搜索方面的核心技术,在内容的智能理解与结构化方面真正做到了多方面、多层次。在使用上,“白泽”系统无需配置传统内容搜索所需的复杂匹配规则,通过自然语言描述即可快速检索出相同语义的视频,可有效应对新事件和突发事件,同时不需要依赖大规模算力,资源复用率高。具体应用案例
面向内容安全,“白泽”结合对境内外多平台内容的检索,可跨平台实现文本搜图片、文本搜视频、图片搜视频、视频搜视频、图片搜文字、视频搜文字等功能。
此外,“白泽”不仅可以用于指定主题的自动推荐,也可以进行专题内容的高效采集,还能对融媒体矩阵内容进行巡检核查,实现智能风控。在跨模态智能情感识别上,通过输入“怀念”“认真学习”等情绪化的词语,“白泽”也能帮您快速精准的检测内容。
面对数字世界的海量内容,需要新技术手段来解决非结构化数据的理解和关联。跨模态视频搜索引擎“白泽”是内容风控大脑的核心组件,可实现跨平台、跨模态的视频搜索,帮助解决数字世界的监管难题,以技术手段应对数字化给国家安全、社会治理、商业经营、消费娱乐等带来的挑战。鉴于跨模态视频搜索的巨大社会价值和商业前景,该引擎拟独立运营,以“白泽”作为商品名对外提供服务。让机器理解视频,赋予数字世界认知能力。未来,人民中科将继续深耕内容安全领域,以更先进的技术和服务为数字世界安全治理做贡献。
关于人民中科人民中科智能技术有限公司,是人民网与中科院自动化所共同发起设立的“人工智能技术引擎”和科技成果转化平台,拥有世界领先的内容理解技术,核心产品是跨模态智能搜索引擎“白泽”,初始应用场景是数字世界的安全,目标是成为全球内容科技领导企业。