Word Embedding News | 词嵌入新鲜事:COVID-19特刊
这里是 WEN(Word Embedding News)|词嵌入新鲜事。
作为起步,它将基于 Sebastian Ruder NLP News 的每月筛选,聚焦词嵌入领域。对涉及内容在个人阅读后的基础上进行总结、评论。不简单复制,力求做到小而精。
关于作者:张正,坐标巴黎,上班NLP,下班词嵌入。
机器翻译:如何将“Wash your hands”翻译成 500 多种语言
问答系统:多语言 COVID-19 智能问答助手
预训练模型:基于 COVID-Bert 的又一个智能问答助手
COVID-QA 关系抽取:基于 CORD-19 (COVID-19 Open Research Dataset) 数据集的无监督关系嵌入(relation embeddings)训练
如何将“Wash your hands”翻译成500多种语言
关键词:cross-lingual word embeddings,机器翻译,MUSE
原文链接:https://datadan.io/blog/wash-your-hands
语料
映射
跨语言词嵌入无监督学习,第一个应当想到什么?对,MUSE [1](又是 Facebook,他们在跨语言词嵌入方面是真的强)。
找寻
回归到“wash your hands”这个具体问题,它是一个 phrase 不是一个单词,因此下一个棘手问题就是怎么找到这个 phrase 的对应。作者决定除了找“wash your hands”本身,还找它的组成部分如“wash your”和“your hands”等。在 MUSE 训练(映射)后的目标语言 embeddings 空间中找离这些词组位置最近的 n-grams 作为它们的翻译。注意!是 n-grams 而不是单词,因为作者的假设是,phrase 的翻译一般还是个 phrase。
组合
最后一步就是组合出“wash your hands”的正确翻译,比如通过上一步找寻,在目标语言中找到了“wash your feet”的对应 n-gram,那这里就需要再次利用跨语言词嵌入,找出“feet”的对应翻译并作替换。
[1] https://github.com/facebookresearch/MUSE
多语言 COVID-19 问答助手
https://corona.ml6.eu
信息源
句嵌入
如果是简单的基于关键词的搜索,作者推荐用 elasticsearch [2]。不过这样就没什么 word embedding 什么事了,为了让搜索更宽泛(基于语义),作者决定训练 embedding。
毕竟是 2020 年,别再什么 word2vec 了,直接基于上下文的词嵌入;再想想又是问答系统,直接训练句嵌入好了。因此,作者选择 Google 的 The Universal Sentence Encoder [3]。
搜索
因为应用场景是用户提问题,因此句嵌入空间只需要计算所有问题的句子的就行了。当用户输入问题时,只需要在句嵌入空间中找到最接近的句子,返回相应答案。
faiss [5](来自Facebook) annoy [6](来自Spotify) elastic [7]
工程
工程方面我了解有限,先列出来,以后多学习。
API 基于 Zalando 的 connexion [8] 框架。 部署到 Google Cloud Platform(GCP),因为就一个 container,所以选择 Cloud Run [9]。 用 Cloud Functions [10] 和 Cloud Scheduler [11] 每天早上自动更新问答库。
ML6公司
这个工作来自一家叫 ML6 的比利时 AI 公司,在欧洲多地有办公室。浏览了下公司网页觉得很酷,有种 Deepmind 等尚未被巨头收购,但已不是小 startup 的感觉,值得关注。
[1] https://scrapy.org
[2] https://www.elastic.co/cn/
[3] https://research.google/pubs/pub46808/
[4] https://tfhub.dev
[5] https://github.com/facebookresearch/faiss
[6] https://github.com/spotify/annoy
[7] https://www.elastic.co/cn/
[8] https://github.com/zalando/connexion
[9] https://cloud.google.com/run
[10] https://cloud.google.com/functions
[11] https://cloud.google.com/scheduler
COVID-BERT 及 COVID-QA
德国 startup deepset [1] 基于 COVID-19 相关文章 fine-tune 了一个 COVID-BERT 预训练模型,该模型在 HUGGING FACE [2] 的 Transformers 中可以直接用:
https://huggingface.co/deepset/covid_bert_base?utm_campaign=NLP%20News&utm_medium=email&utm_source=Revue%20newsletter
基于 COVID-BERT,作者搭建了 COVID-QA:
https://github.com/deepset-ai/COVID-QA?utm_campaign=NLP%20News&utm_medium=email&utm_source=Revue%20newsletter#heart-how-you-can-help
CORD-19-SeVeN:基于CORD-19数据集的无监督关系嵌入训练
原文链接:https://github.com/luisespinosaanke/cord-19-seven?utm_campaign=NLP%20News&utm_medium=email&utm_source=Revue%20newsletter
关系嵌入对于医学相关的文本分析、应用尤其重要,比如可以提取(症状,药品)等关系。
此工作基于 COVID-19 研究的数据集 CORD-19 [1] 训练关系嵌入。
虽然词嵌入空间中,词与词的语义关系也可以被其相对空间位置表示,但并不是每种关系都在空间中井然有序的:
https://medium.com/voice-tech-podcast/seven-semantic-vector-networks-9b0329383a78
#投 稿 通 道#
让你的论文被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学习心得或技术干货。我们的目的只有一个,让知识真正流动起来。
📝 来稿标准:
• 稿件确系个人原创作品,来稿需注明作者个人信息(姓名+学校/工作单位+学历/职位+研究方向)
• 如果文章并非首发,请在投稿时提醒并附上所有已发布链接
• PaperWeekly 默认每篇文章都是首发,均会添加“原创”标志
📬 投稿邮箱:
• 投稿邮箱:hr@paperweekly.site
• 所有文章配图,请单独在附件中发送
• 请留下即时联系方式(微信或手机),以便我们在编辑发布时和作者沟通
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
关于PaperWeekly
PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。