查看原文
其他

验证码的故事: 1亿人的举手之劳可以带来什么?

2016-04-17 士奇 知社学术圈

海归学者发起的公益学术平台

分享信息,整合资源

交流学术,偶尔风月

从计算机的发明到互联网的普及,不知有多少事情已经从新奇罕见变成了稀松平常。验证码就是其中之一,这样东西我们总会碰到,但大家早已视之为自然,很少琢磨它的来历,更不知道在其背后,隐藏着令世界震撼的故事。



如何在王珞丹里面找出白百合?如何在春哥丛中发现姚明?也许你曾被12306那些神奇的验证码所折磨,也许你曾看着那些被折磨的家伙而心中窃喜。无论怎样的搞怪和奇葩,它们存在的根本目的其实是保护多数人的利益,维护一个正常的网络环境。论坛上留言,社交网站里注册账号,或者直接在网上买一张火车票……验证码随处可见,在一定程度上阻挡了恶意软件的肆虐。那么,最初的验证码又是什么样子呢?


CAPTCHA


早在2000年,卡内基梅隆大学的Luis von Ahn发明了一种工具,以抵制网络上的不良软件程序。假如你要在线购买车票,那么你需要过目一组扭曲的字母,并输入正确内容。这样,系统可以将你判定为人类,而非机器程序。这就是所谓的CAPTCHA (Completely Automated Public Turing test to tell Computers and Humans Apart)。


然而,随着恶意软件的进步,验证码也跟着提升了难度,这使人们在辨识图案这件事上要花费更多的精力。偶尔,也会出现些令人尴尬的情形。据说Yahoo曾收到一条求救信息,询问系统出现了“W A I T”字样,可是他等了20分钟却没有任何反应。


如果说这是一场介于网站和恶意程序/用户之间的竞争,那么最大的受害者是普通用户。据Google统计,每天,地球人至少要填写2亿个验证码。平均来讲,人们搞定一个验证码需要10秒的时间。往往我们还会因为看不清楚而不得不换一个新的来输入。按照这些数据计算,人类每天在验证码上就浪费了50多万个小时。这实在是一件令人沮丧的事。


两个验证码


这样大数量级的时间浪费问题再一次激发了Luis von Ahn,他开始思考,是否有什么方法可以把这些碎片时间利用起来,哪怕仅仅是那短暂的10秒。面对如此奇妙的设想,他居然找到了答案。


如果你曾经填写过类似下面形式的验证码,那么恭喜你,尽管你可能并不知情,但实际上你在做着一件很有意义的事情——为旧书电子化。



解决这一问题的传统做法是直接扫描书页,然后由计算机来辨认图片中的文字。这就是所谓的光学字符识别 (OCR)。然而这一技术并没有我们以为的那样理想,对于一本50年前的旧书,计算机可正确辨识的文字甚至达不到30%。我们所看到的那些扭曲怪词正是出自这样的旧书。当然,这些词汇变得扭曲只是为了抵抗那些恶意程序。


问题来了,如何判断人们输入的词正确与否呢?上图中出现的双词形式正是Von Ahn给出的解决方法。对于从旧书中提取出来的陌生词语,计算机并不知道答案,所以也无法判断电脑前的真人输入的是否正确。但是系统可以多给出一个词,这个词系统是知道其正确文字内容的。输入验证码的用户并不知道哪个是哪个的,只是顺其自然地把两个词都填上。如果电脑知道正确答案的那个词我们输入对了,那么系统会判定用户是真人,从而推断另一个输入的词也是正确的。当然,这样一次判断是不够的。通过重复这一过程,如果还有 (比如) 10个真人都输入了相同的内容,那么系统才会认为这个未知词语真正得到了数字化



这就是所谓的reCAPTCHA。在国外,Ticketmaster,Facebook,Twitter等很多站点都曾使用过这种技术。据统计,通过这种方法每天可以数字化的词汇可达1亿个。也就是说,每年会有250万本书被数字化,而这一壮举只不过是基于我们最简单不过的填写验证码完成的。尽管reCAPTCHA较以往的验证码难度更大,但数据表明,人们输入的正确率高达92%。


然而这还并非最了不起的数字。要知道,很多伟大的工程都需要耗费巨大人力。很巧的是,建造埃及金字塔,修建巴拿马运河,或者把一个人送上月球,这些事都牵扯了大约10万人。这也不难理解,在互联网出现以前,调度和照顾10万人以上是很困难的事。如今,在将人类文化与知识数字化这一工作上,通过双词验证码做出过贡献的个人超过了7.5亿,这已经超出了世界人口的十分之一。试想,10万人可以把一名宇航员送上月球,那么1亿人能做出什么?7.5亿人又能实现什么?


多邻国 (Duolingo)


Von Ahn并没有停下脚步,顺着这条思路,他又将故事推向了新的高度。也许你听说过多邻国 (Duolingo),没错,正是验证码的发明者开发了这个语言学习平台。上亿人在学习外语的同时,也在帮助翻译资料。


我们知道,互联网中的内容大部分为英文,而其他语言尽管比例相对略低,但体量依然巨大。Von Ahn想做的事是将互联网中的大部分内容翻译成各种主流语言。这件事目前仍无法依赖电脑来完成,原因同OCR一样。当然,也有专业语言机构可以提供此种服务,但问题是费用极其昂贵。我们选取维基百科为例,其西班牙语版本内容仅为英语版内容的20%,如果把另外80%全部翻译为西班牙语,那么这至少需要5000万美元。而Von Ahn则想让上亿人在不经意间携手完成这一壮举。



要实现这一点,至少需要克服两个困难。一是需要拥有双语能力的人;二是需要这些人有足够的动机去做翻译之类的事。哪一条看起来都很棘手,我们甚至不知道世界上有没有1亿人具备双语能力,更别说引导他们去做翻译工作。


然而有一件事正好可以一箭双雕,那就是语言教育。如今,世界上有超过12亿人在学习一门外语。单在美国,花上500美元购买语言软件的人就超过500万。Von Ahn却反其道而行之,开发了Duolingo这款免费语言学习系统。


其基本原理在于人们免费学习语言的同时,也在翻译内容。无论初级还是高级用户,系统会分配相当难度的语句让你翻译,通过比对其他用户的翻译结果,你不断地学习了这些内容。也就是说,人们都是在边做边学。令人惊讶的是,这一理念在实际应用中极为有效。


有趣的是,几个初级水平的用户合起来的效果与一名专业翻译人员的贡献相当。人们在学习的同时,也在创造价值。还以维基百科西班牙版为例,如果将那80%英文内容全部译为西班牙语,在拥有10万个活跃用户的情况下只需5周时间;如果有100万个活跃用户,将只要80个小时。记住,这可是个价值5000万美元的项目。


当然,多邻国总是要盈利的。Von Ahn曾亲自在网上表示,其盈利模式有两点:一是付费翻译。CNN和Buzzfeed这样的机构会将待译的英文内容交给将他们,多邻国系统将这些内容发到正在学习英文的人手中,使其将新闻翻译成各自的母语。CNN自然会为这些地道的文章买单;另外一点就是App的语言测试服务。大家知道,托福或者雅思考试收费很高,而你大概只需要一两百块钱就可以参加多邻国提供的语言水平测试。这一点也很有竞争力。


尽管如此,我们不要忘记,这一系统的最大意义在于免费面向全人类。能够花500美元买软件的人也许只占5%,世界上还有95%的人无法承受这一负担,却同样拥有学习的渴望。在创业过程中,这样的商业模式与驱动模式非常值得我们借鉴。


参考资料

http://articles.philly.com/2012-05-01/news/31498658_1_recaptcha-macular-computers

https://www.ted.com/talks/luis_von_ahn_massive_scale_online_collaboration?language=en

http://www.tools138.com/create/article/20150207/020019466.html


另请关注

2016, 那些闪耀中国的科技新星, 春花烂漫

请大家支持


扩展阅读
 

Email之父: 他用一个符号改变了世界

论文引用20万次的麻省理工神级教授科技创业之道: 提升20亿人生活品质!

谷歌vs脸书: 谁搞定了围棋人工智能?| 深度解析


本文由知社原创编译,转载请联系授权投稿、授权、合作事宜请联系

service@scholarset.com 或微信ID: scholarset

回复“目录”或“分类”,浏览知社更多精华。长按二维码识别,可以关注/进入公众号进行回复。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存