其他
这款超强搜索神器,我爱了!
以下文章来源于AI科技大本营 ,作者CSDN APP
Magi 是什么?能做什么?
AI 技术解读
从零设计研发了整个技术堆栈,包括原创 succinct 索引结构的分布式搜索引擎 使用专门设计的 Attention 网络的神经提取系统 不依赖 Headless 浏览器的流式抓取系统 支持混合处理 170 余种语言的自然语言处理管线 独一无二的训练/预训练数据。 这个系统通过引入传统搜索中的 query-independent 质量因素,使得优质可靠的消息源会更被重视 其基于多级迁移学习的提取模型则完全摒弃了人工规则、角色标注、依存分析等限制泛化能力的环节,并且可在 zero-resource 的前提下直接应用到各种外语文本上并取得令人满意的效果 而随着数据的积累以及来源多样性的扩充,这个系统还能够持续学习与调整,自动消除学习到的噪音和错误结果。
工作原理
能够 exhaustively 提取重叠交错的知识,且不利用 HTML 特征。 不预设 predicate / verb,实现真正意义上的 “Open” Information Extraction。具体来说,Magi 不再依赖于预设的规则和领域,“不带着问题” 地去学习和理解互联网上的文本信息,同时尽可能找出全部信息 (exhaustive) 而非挑选唯一最佳 (most promising)。Magi 通过一系列预训练任务淡化了具体实体或领域相关的概念,转而学习 “人们可能会关注内容中的哪些信息?”。为 Magi 设计了专门的特征表达、网络模型、训练任务、系统平台,并投入大量精力逐渐构建了 proprietary 的专用训练/预训练数据
配合自家 web 搜索引擎以评估来源质量,信息源和领域不设白名单,综合Clarity(清晰度)、Credibility(可信度)、Catholicity(普适性)三个 Magi 权衡知识工程的规模化和准确性难题的量化标准来进行来源质量评估。 大幅提升实时性,热点新闻发布后几分钟内,就可以搜到结构化知识了。
没有前置 NER 和 dependency parsing 等环节,减少母文本信息的损失。为 Magi 的提取模型设计了专用的 Attention 网络结构以及数个配套的预训练任务。具体来说,网络结构主要解决了复杂依赖关系和搜索空间爆炸的问题,让长文本下高效的 exhaustive 的知识提取成为可能。预训练任务则是对上述 “环节” 问题的新尝试,主要目标是淡化实体、predicate、领域的约束,充分利用多种不同的训练数据,并且降低线上持续学习修正过程中模型更新的开销。 技术栈完全 language-independent,可以实现低资源和跨语言 transfer。由于技术栈本身已经完全 language-independent,在设计预训练任务时,会专门 “引导” 并期望模型能在较浅层对语言有足够的抽象能力。