验证码的故事: 1亿人的举手之劳可以带来什么？

Original 2016-04-17 士奇知社学术圈

海归学者发起的公益学术平台

分享信息，整合资源

交流学术，偶尔风月

从计算机的发明到互联网的普及，不知有多少事情已经从新奇罕见变成了稀松平常。验证码就是其中之一，这样东西我们总会碰到，但大家早已视之为自然，很少琢磨它的来历，更不知道在其背后，隐藏着令世界震撼的故事。

如何在王珞丹里面找出白百合？如何在春哥丛中发现姚明？也许你曾被12306那些神奇的验证码所折磨，也许你曾看着那些被折磨的家伙而心中窃喜。无论怎样的搞怪和奇葩，它们存在的根本目的其实是保护多数人的利益，维护一个正常的网络环境。论坛上留言，社交网站里注册账号，或者直接在网上买一张火车票……验证码随处可见，在一定程度上阻挡了恶意软件的肆虐。那么，最初的验证码又是什么样子呢？

CAPTCHA

早在2000年，卡内基梅隆大学的Luis von Ahn发明了一种工具，以抵制网络上的不良软件程序。假如你要在线购买车票，那么你需要过目一组扭曲的字母，并输入正确内容。这样，系统可以将你判定为人类，而非机器程序。这就是所谓的CAPTCHA (Completely Automated Public Turing test to tell Computers and Humans Apart)。

然而，随着恶意软件的进步，验证码也跟着提升了难度，这使人们在辨识图案这件事上要花费更多的精力。偶尔，也会出现些令人尴尬的情形。据说Yahoo曾收到一条求救信息，询问系统出现了“W A I T”字样，可是他等了20分钟却没有任何反应。

如果说这是一场介于网站和恶意程序/用户之间的竞争，那么最大的受害者是普通用户。据Google统计，每天，地球人至少要填写2亿个验证码。平均来讲，人们搞定一个验证码需要10秒的时间。往往我们还会因为看不清楚而不得不换一个新的来输入。按照这些数据计算，人类每天在验证码上就浪费了50多万个小时。这实在是一件令人沮丧的事。

两个验证码

这样大数量级的时间浪费问题再一次激发了Luis von Ahn，他开始思考，是否有什么方法可以把这些碎片时间利用起来，哪怕仅仅是那短暂的10秒。面对如此奇妙的设想，他居然找到了答案。

如果你曾经填写过类似下面形式的验证码，那么恭喜你，尽管你可能并不知情，但实际上你在做着一件很有意义的事情——为旧书电子化。

解决这一问题的传统做法是直接扫描书页，然后由计算机来辨认图片中的文字。这就是所谓的光学字符识别 (OCR)。然而这一技术并没有我们以为的那样理想，对于一本50年前的旧书，计算机可正确辨识的文字甚至达不到30%。我们所看到的那些扭曲怪词正是出自这样的旧书。当然，这些词汇变得扭曲只是为了抵抗那些恶意程序。

问题来了，如何判断人们输入的词正确与否呢？上图中出现的双词形式正是Von Ahn给出的解决方法。对于从旧书中提取出来的陌生词语，计算机并不知道答案，所以也无法判断电脑前的真人输入的是否正确。但是系统可以多给出一个词，这个词系统是知道其正确文字内容的。输入验证码的用户并不知道哪个是哪个的，只是顺其自然地把两个词都填上。如果电脑知道正确答案的那个词我们输入对了，那么系统会判定用户是真人，从而推断另一个输入的词也是正确的。当然，这样一次判断是不够的。通过重复这一过程，如果还有 (比如) 10个真人都输入了相同的内容，那么系统才会认为这个未知词语真正得到了数字化。

这就是所谓的reCAPTCHA。在国外，Ticketmaster，Facebook，Twitter等很多站点都曾使用过这种技术。据统计，通过这种方法每天可以数字化的词汇可达1亿个。也就是说，每年会有250万本书被数字化，而这一壮举只不过是基于我们最简单不过的填写验证码完成的。尽管reCAPTCHA较以往的验证码难度更大，但数据表明，人们输入的正确率高达92%。

然而这还并非最了不起的数字。要知道，很多伟大的工程都需要耗费巨大人力。很巧的是，建造埃及金字塔，修建巴拿马运河，或者把一个人送上月球，这些事都牵扯了大约10万人。这也不难理解，在互联网出现以前，调度和照顾10万人以上是很困难的事。如今，在将人类文化与知识数字化这一工作上，通过双词验证码做出过贡献的个人超过了7.5亿，这已经超出了世界人口的十分之一。试想，10万人可以把一名宇航员送上月球，那么1亿人能做出什么？7.5亿人又能实现什么？

多邻国 (Duolingo)

Von Ahn并没有停下脚步，顺着这条思路，他又将故事推向了新的高度。也许你听说过多邻国 (Duolingo)，没错，正是验证码的发明者开发了这个语言学习平台。上亿人在学习外语的同时，也在帮助翻译资料。

我们知道，互联网中的内容大部分为英文，而其他语言尽管比例相对略低，但体量依然巨大。Von Ahn想做的事是将互联网中的大部分内容翻译成各种主流语言。这件事目前仍无法依赖电脑来完成，原因同OCR一样。当然，也有专业语言机构可以提供此种服务，但问题是费用极其昂贵。我们选取维基百科为例，其西班牙语版本内容仅为英语版内容的20%，如果把另外80%全部翻译为西班牙语，那么这至少需要5000万美元。而Von Ahn则想让上亿人在不经意间携手完成这一壮举。

要实现这一点，至少需要克服两个困难。一是需要拥有双语能力的人；二是需要这些人有足够的动机去做翻译之类的事。哪一条看起来都很棘手，我们甚至不知道世界上有没有1亿人具备双语能力，更别说引导他们去做翻译工作。

然而有一件事正好可以一箭双雕，那就是语言教育。如今，世界上有超过12亿人在学习一门外语。单在美国，花上500美元购买语言软件的人就超过500万。Von Ahn却反其道而行之，开发了Duolingo这款免费语言学习系统。

其基本原理在于人们免费学习语言的同时，也在翻译内容。无论初级还是高级用户，系统会分配相当难度的语句让你翻译，通过比对其他用户的翻译结果，你不断地学习了这些内容。也就是说，人们都是在边做边学。令人惊讶的是，这一理念在实际应用中极为有效。

有趣的是，几个初级水平的用户合起来的效果与一名专业翻译人员的贡献相当。人们在学习的同时，也在创造价值。还以维基百科西班牙版为例，如果将那80%英文内容全部译为西班牙语，在拥有10万个活跃用户的情况下只需5周时间；如果有100万个活跃用户，将只要80个小时。记住，这可是个价值5000万美元的项目。

当然，多邻国总是要盈利的。Von Ahn曾亲自在网上表示，其盈利模式有两点：一是付费翻译。CNN和Buzzfeed这样的机构会将待译的英文内容交给将他们，多邻国系统将这些内容发到正在学习英文的人手中，使其将新闻翻译成各自的母语。CNN自然会为这些地道的文章买单；另外一点就是App的语言测试服务。大家知道，托福或者雅思考试收费很高，而你大概只需要一两百块钱就可以参加多邻国提供的语言水平测试。这一点也很有竞争力。

尽管如此，我们不要忘记，这一系统的最大意义在于免费面向全人类。能够花500美元买软件的人也许只占5%，世界上还有95%的人无法承受这一负担，却同样拥有学习的渴望。在创业过程中，这样的商业模式与驱动模式非常值得我们借鉴。

参考资料

http://articles.philly.com/2012-05-01/news/31498658_1_recaptcha-macular-computers

https://www.ted.com/talks/luis_von_ahn_massive_scale_online_collaboration?language=en

http://www.tools138.com/create/article/20150207/020019466.html

另请关注

2016, 那些闪耀中国的科技新星, 春花烂漫

请大家支持

扩展阅读

Email之父: 他用一个符号改变了世界

论文引用20万次的麻省理工神级教授科技创业之道: 提升20亿人生活品质!

谷歌vs脸书: 谁搞定了围棋人工智能？| 深度解析

本文由知社原创编译，转载请联系授权投稿、授权、合作事宜请联系

service@scholarset.com 或微信ID: scholarset

回复“目录”或“分类”，浏览知社更多精华。长按二维码识别，可以关注/进入公众号进行回复。

反向激励，在加速这个社会的黑化

官媒发声：反对调休的声音不能装聋作哑！这不是放假，是“假放”（五一假期）

豪放女乘客扯掉裤子当场“硬要”，的哥乖乖“束手就擒”……

瘦皇被指“爱C女主播”！破防诅咒“小SS父母”：煤气厂爆炸！鱼皇下场开喷！

斗鱼老板已经“Q保H审”？多家知名媒体爆料！律师预计进去五到七年！