查看原文
其他

语言人工智能正在升温

Pieter Buteneers 应用语言学研习 2022-06-09

感谢关注我们!加油,研习人!

欢迎关注我们,一站式分享海量语言学术资源

来源编辑:AI前线公众号

转载编辑:研习君



敬请星标应用语言学研习,喜欢请点赞,分享请转发




 

作者 | Pieter Buteneers
译者 | Sambodhi
策划 | 刘燕
掌握人类语言的独特而深远的复杂性是人工智能面临的最严峻的挑战之一。


短短几年间,深度学习算法已发展到能够在棋牌游戏中打败世界上最优秀的玩家,并且能够以与人类相同的正确率(甚至可能更好)识别人脸。但事实证明,掌握人类语言的独特而深远的复杂性是人工智能面临的最严峻的挑战之一。

这种情况会改变吗?

计算机可以有效地理解所有人类语言,它将彻底改变我们与世界各地品牌、企业和组织接触的方式。现在,大多数公司都没有时间回答顾客提出的问题。但是你可以想象一下,如果一个公司能够在任何时候、任何渠道,倾听并理解和回答所有的问题呢?为了抓住存在的这个巨大机会,我的团队已经和一些世界上最具创新能力的组织及其技术平台生态系统一起建立了大规模的一对一客户交流。但是仍有大量工作要做。

一直到 2015 年,一种能够识别人脸的算法才得以建立,其正确率堪比人类。Facebook 的 DeepFace 的正确率是 97.4%,与人类 97.5% 的表现相差无几。作为参考,FBI 的面部识别算法 只能达到 85% 的正确率,也就是说,每 7 个案件中,仍有 1 个以上的案件是错误的。

FBI 的算法是由一个工程师团队手工制作的。每一个特征,比如鼻子的大小和眼睛的相对位置,都是人工编程的。Facebook 的算法则是利用学习到的特征。Facebook 使用了一种特殊的深度学习架构,称为卷积神经网络,它能模拟我们视觉皮层的不同层对图像的处理。由于我们不知道我们到底是如何看到的,所以这些层之间的连接是由算法学习的。

Facebook 之所以能做到这一点,是因为它想明白了如何将人类级人工智能的两个基本要素落实到位:一个能够学习功能的架构,一个由数百万用户标注的高质量数据,这些用户在分享的照片中为好友添加了标签。


语言是视觉的


在生物进化过程中,视觉是被数以百万计的不同物种所解决的问题。但是语言却显得更加复杂。就我们所知,我们目前是唯一能用复杂语言进行沟通的物种。

不到十年前,要理解文本的含义,人工智能算法只会统计某些词出现的频率。但这种方法显然忽略了这样一个事实:即单词具有同义词,而且只在特定语境下具有意义。

2013 年,Tomas Mikolov 和他在谷歌的团队发现了如何创建一个能够学习单词含义的架构。他们的 word2vec 算法将同义词相互映射,它能够对大小、性别、速度等意义进行建模,甚至能够学习国家及其首都这样的函数关系。

然而,缺失的部分是上下文。这一领域真正的突破出现在 2018 年,谷歌推出了 BERT 模型。Jacob Devlin 和他的团队回收了一种通常用于机器翻译的架构,让它根据句子中的上下文来学习单词的意思。

通过教会该模型填补维基百科文章中的缺失词汇,该团队能够将语言结构嵌入到 BERT 模型中。在只有有限数量的高质量标签数据的情况下,他们能够针对多种任务对 BERT 进行微调,从寻找问题的正确答案到真正理解一句话的内容。他们是第一个真正掌握了语言理解的两个基本要素:正确的架构和学习大量高质量的数据。

2019 年,Facebook 的研究人员得以更进一步。他们同时在 100 多种语言上训练了一个类似 BERT 的模型。该模型能够学习一种语言的任务,例如英语,并将其用于其他任何一种语言的相同任务,例如阿拉伯语、汉语和印地语。这种语言无关的模型在训练的语言上的表现与 BERT 相同,从一种语言到另一种语言的影响是有限的。

这一切技术本身的确令人印象深刻,但是到 2020 年初,谷歌的研究人员终于能够在广泛的语言理解任务中超越人类。谷歌通过在更多的数据上训练一个更大的网络,将 BERT 架构推向极限。这种被称为 T5 的模型现在在标记句子和寻找问题的正确答案方面比人类做得更好。10 月发布 的语言无关的 mT5 模型在从一种语言翻译到另一种语言方面几乎和双语人类一样出色,但它可以同时处理 100 多种语言。而 谷歌刚刚宣布的万亿参数模型,则让这个模型变得更庞大、更强大。


可能性


想象一下,聊天机器人可以理解你用任何想象中的语言写的东西。它们会真正理解上下文并记住过去的对话这个时候,你得到的答案不再是泛泛的答案,而变成了切中要害的答案。

随着时间的推移,随着公司对这些微调工作的投资,我们将看到有限的应用出现。而且,如果我们相信摩尔定律,我们可能会在五年左右看到更复杂的应用。但是新的模型也会出现,超过 T5 算法的性能。

2021 年伊始,我们距离人工智能最重大的突破,以及由此带来的无限可能,已触手可及。


 作者介绍:


Pieter Butters,Sinch 机器学习和人工智能工程总监。

原文链接:

https://venturebeat.com/2021/01/17/language-ai-is-really-heating-up/


综合编辑:应用语言学研习

微信公众平台审核:梁国杰

科研助力

文献综述的目的及写作方法指南

2022年度教育部人文社科项目申报线上培训——语言学专场

线上课程 | 人文社科研究方法——质化、量化、混合研究方法


文献延伸阅读(研习人指引)

本平台友情整理相关文献索引链接

欢迎感兴趣的朋友按需选购



科研助力

扫码享限时特惠!



扫码享限时特惠!

2022年度教育部人文社科项目申报线上培训——语言学专场
教育部人文社科项目申报书填写+立项案例
精选 | 应用语言学研习丛书(13种)一览:回顾经典 分析热点

友情推荐

点击左下方阅读原文,发现更多语言学好书!

出版社官方直销包邮!扫码查看详情

推荐阅读:
推荐 | 文献综述高分模版
国家社科基金·中华学术外译项目申报解读与经验分享
2021软科中国大学排名系列:学科水平排名发布!
讲座预告∣语言智能发展现状及思考
专栏讲座 | 定性研究方法及论文写作(清华大学教授、博导主讲)
资源|网络上那些轻松愉快的语言学课程(值得收藏)
快讯!2021年国家社科基金中华学术外译项目申报(外一篇)
数据告诉你:国家社科基金几年能结项?
线上课程 | 文学类SSCI & AHCI 论文发表进阶系列课
2021中华学术外译项目政策解读(另:社科文献公开招募项目主持人)
推荐 | 一文讲清国家社科基金和教育部人文社科项目
近五年国家社科中华学术外译项目立项名单及2021年推荐选题目录
快讯!撤销4项,2021年国家社科年度项目和青年项目最终立项名单正式公布!
刊讯 |《现代外语》2022年第1期目录、摘要及稿约
涨知识!用英文介绍中秋节的起源和习俗,传播中国传统文化(推荐收藏)
汇总 | 最全的月饼口味英文词汇
发布 | 2020-2021年度中华文化国际传播十大案例
乔姆斯基 | Simplicity and the form of grammars
课题研究方案、立项申报书、开题报告的联系和区别
两岸三地翻译学博导知多少?最全名单来了(2021年版)
讲座专栏 | 教育部人文社科项目申报书填写+立项案例
在线课程 | 人文社科研究方法——质化、量化、混合研究方法,报名马上学!
重磅惊喜!Google学术来啦——最新免费镜像链接分享
重磅!6年社科基金统计出炉,这些高校是真正的“社科大牛”!
英语教学必备资源|一篇文章搞定220个常见sight words
讲座视频 | 认知语言学导论(9):认知语法
聚焦 | 国家社科基金:盲评、会评大揭秘
孔子语录英文版(理雅各 译),值得珍藏!
Google学术搜索使用方法及技巧
诚邀参会│“2021语言智能教学国际会议”第3号征稿通知
2021年度国家社科基金项目公示(外国文学、语言学、翻译学)
立项机构排名||2021年国家社科基金年度项目和青年项目立项名单的公示
我国区域与国别研究的现状和愿景(钱乘旦 汪诗明 张倩红)
《外语教学与研究》2021年第5期目录
“新文科”怎么搞?12所大学新文科建设典型案例汇总!
2022年度泰晤士世界大学排名发布:清北并列,中国大陆10所高校跻身200强
名单:C刊来源期刊目录(2021-2022),附快速查询通道!
于洋 姜飞:国际跨文化传播研究新特征和新趋势
最全3000个常见公共场所英语标示!(国家英文译写规范/收藏版)
学科分类版 | CSSCI扩展版来源期刊目录(2021-2022)
Michael Farrelly | 再论批评话语分析中的「互文性」
推荐 | 160个学术电子书下载数据库网站(部分网址已更新)
CSSCI南大核心来源期刊目录(2021-2022) 学科分类版
重磅 | 外语类新学科出现了!如何看待“国际语言服务”?
语言学再添新分支:北语创立国内首个“语言资源学”学科
推荐 | 在家也能免费下载知网等文献的10种方法
莫言:翻译家功德无量
赵新利:八路军的日语学习培训
高教司司长吴岩:新文科建设中外语教育教学不能缺位!
蔡基刚:英语在中小学的主课地位与公民素质和能力的培养 | 光明日报
以更广阔的视野看待教育 | 北外党委常委、副校长孙有中访谈
翻译要忠实于原文吗?这是个问题
冯全功 | 翻译忠实观:争议与反思
《外国语》2021年第4期目录、摘要
收藏 | 公文写作常见错误更正对照表!
郑永年:一个国家有没有前途, 就看有没有给年轻人前途
复旦教授:人文社科类学生还是要老老实实读经典(外一篇)
学术争鸣|蔡基刚:课程思政与立德树人内涵探索——以大学英语课程为例
六位核心期刊主编眼中的“好论文”
特别推荐 | 语料库方法技术
PPT收藏丨2021-2018年教育部高教司吴岩司长报告汇总(附下载链接)
2021第九版北大核心期刊目录(语言学、文学、综合性学报)
陆俭明:语言研究要与未来接轨
我国二语写作研究的若干重点问题 |《外语教学与研究》2021(4)
收藏 | 国内外好用的语料库资源汇总
C 刊中常用的 107种人文社科研究方法
推荐 | 兰卡斯特大学免费慕课:语料库语言学方法、分析与阐释
胡壮麟:“语言学及应用语言学名著译丛”总序(首批30余种陆续出版)
王学典:何谓“新文科”?
郭英剑 | 新文科与外语专业建设
期刊《认知语言学》近20年数据简析(2000-2021)
王俊菊:新文科建设对外语专业意味着什么?
《现代外语》2021年第4-5期目录
刊讯 |《外语教学与研究》2021年第4期目录、摘要
胡钦谙 顾曰国 | 计算语言学研究70年
视频 | Tony McEnery:语料库与批评话语分析 前沿讲座
视频 | Paul Baker: 语料库与话语研究 前沿学术讲座
刘海涛:关于自然语言计算机处理的几点思考
人工智能的诗与远方,一文读懂NLP起源、流派和技术(外一篇)
关注人工智能时代的语言学研究(外一篇)| 中国社会科学网
重磅上市 |《国际中文教育中文水平等级标准》及解读本正式出版!
重磅 | 最新版北大核心期刊目录及投稿方式大全(语言学)
访谈视频 | Rod Ellis, D. Nunan & K. Bailey谈线上TESOL项目的发展
《外语教学》2021年第4期目录
刘海涛 林燕妮:大数据时代语言研究的方法与趋向
荐读 | 张辉教授团队“批评认知语言学”系列研究成果
张辉 张艳敏 | 批评认知语言学:理论源流、认知基础与研究方法
热点聚焦 | 本土语用研究—《外语与外语教学》专栏“人际语用研究的本土视角”)
讲座视频 | Martin Hilpert:语言与大脑的关系——从三个语言学实验谈起
讲座回放 | 宗成庆:机器翻译现状与语料资源建设
文秋芳《产出导向法:中国外语教育理论创新探索》评介
国内高校外语专业哪家强?教育部第四次学科评估 外语专业排名
讲座回放 | 李嵬教授:多元能力、超语行为及自主移动学习
王立非:加快建设“新文科语言学”!增设五个方向
新文科背景下外国语言文学学科发展与学术创新高层论坛(1号通知)
原版引进 | 德古意特认知语言学研究丛书+应用丛书(13种)
精选 | 应用语言学研习丛书(13种)一览:回顾经典 分析热点
热文 | C刊的“秘密”
中英全文 | 习近平:在庆祝中国共产党成立100周年大会上的讲话(中英双语+外媒报道)
文秋芳 常小玲 | 中国共产党百年外语教育与中华民族伟大复兴
重磅 | 2021软科中国大学专业排名出炉(中国语言文学 & 外国语言文学)
李战子教授原创随笔 | 人文学者与国际传播素养——话语研究者的观察与思考
施旭 | 文化视野下的话语研究 (浙外学报文化话语研究专题)
Rod Ellis教授关于二语习得的两个视频讲座
分享 | Rod Ellis教授讲座课件PPT
吴岩:教学改革改到深处是课程,改到痛处是教师,改到实处是教材
吴岩:抓好教学“新基建”  培养高质量外语人才
重磅丨2021软科中国语言类大学排名出炉(附中国大学完整排名)
重磅 | 语言学CSSCI(2021-2022)来源期刊投稿方式大全
收藏 | 史上最伟大的100部戏剧(附观看链接)
CSSCI南大核心来源期刊投稿方式大全(五)——综合社科和高校学报
讲座PPT:BCC语料库的理论和应用(荀恩东 邵田)
世纪对话 | Krashen教授与 Chomsky教授 谈现代语言学的发展
圆桌谈| Halliday, Labov, Mey, Embleton谈功能、语用与社会语言学的融合发展
「关联理论」超大份文献资源!
访谈视频 | Larsen-Freeman教授谈应用语言学中的复杂理论
冯志伟:大哉,计算语言学之为用!| 中国社会科学报
刘建军:思维方式差异与中西文化的不同特性 | 上海交通大学学报哲社版
2021年度语言教育重要国际学术会议(7-12月)
CSSCI来源期刊最新总目录(含扩展版,2021-2022),建议收藏!
陈平:语言学的一个核心概念“指称”问题研究
语言与心智:普遍语法是否存在?
国别和区域研究体系机制探讨专栏 (主持人: 罗林)
刊讯 | 《现代外语》2021年第5期目录、摘要及稿约
黄国文 李文蓓:作为应用语言学的生态语言学
视频 | 李嵬教授谈超语实践研究(附Applied Linguistics 高被引论文)
收藏 | 2020版《中文核心期刊要目总览》完整目录表格版(附增减变化明细)
孙茂松 | 人工智能与未来语言教育
蔡基刚:课程思政与立德树人内涵探索——以大学英语课程为例
新书预告 | 乔姆斯基《句法结构》第二版中译本(冯志伟审校)
“躺平”一词火到外网,这个翻译有意思!
外语教师面临的新形势 新问题 |《外语教学与研究》
【讲座回顾】多模态人类学的思考
黄国文 | 新文科与外语教育——从“术”与“道”的 关系谈起
蔡基刚 | 学科交叉:新文科背景下的新外语构建和学科体系探索
陈平 | 话语的结构与意义及话语分析的应用
书讯 | Routledge Handbook of Cognitive Linguistics 文旭&Taylor主编
话语研究四十年 | 热点话题·发展趋势·研究路径
图解 | 语言研究的哲学基础与理论渊源
新文科建设的理路与设计
访谈视频 | Dan Jurafsky:AI 如何改变我们对语言的理解
徐赳赳 | 篇章语用研究70年
刘海涛 | 数据驱动的应用语言学研究
黄国文:思政视角下的英语教材分析
北大中文核心期刊投稿方式大汇总(最全版)
王宁:新文科视域下的翻译研究 |《外国语》2021(2)
徐锦芬 | 应用语言学研究的国际动态与前沿分析
王克非 | 翻译研究拓展的基本取向
语言学家伤口撒盐:王冕死了父亲
语言学、外国文学、中国文学CSSCI (2021-2022) 源刊目录及官微汇总
胡键丨语言、话语与中国的对外传播
王文斌 柳鑫淼:关于我国外语教育研究与实践的若干问题
新书推荐 | 穆雷 等著《翻译学研究的方法与途径》
何宁 王守仁 | 高校外语专业学生外语运用能力的培养
中国国家治理话语体系的构成与演化:基于语词、概念与主题的分析
戴炜栋 胡壮麟 王初明等:新文科背景下的语言学跨学科发展
国外语言学学科眼动研究: 现状与前瞻( 1934-2020)
神经语言学国际热点与趋势的科学知识图谱分析

扫码关注↑↑↑ 即可获取最新入群二维码!

目前已有 3.98 万语言文学、区域国别与

跨文化传播学研习者关注本公号

欢迎加入交流群,分享学习,共同进步!

亲爱的研习人,

一起来点赞、在看、分享三连吧!

一个,点亮在看

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存