查看原文
其他

想给Google做数据标注,你得先拿到医师资格证才行

邢逸帆 腾讯创业 2019-06-01

点击上方蓝色字体“腾讯创业” 选择关注公众号

创投圈大小事,你都能尽在掌握



腾讯创业 | ID:qqchuangye


数据标注这份工作,也不是谁都能做的。


作者 / 邢逸帆

来源 / 硅星人(ID:guixingren123)


文末有赠书福利哦~


在一排一排的电脑前,这里的年轻人们一边浏览照片和视频,一边标记他们看到的每样东西。


有的是在为无人驾驶公司标注路上的汽车和红绿灯,有的是在为无人售货公司标注面包牛奶巧克力。


河南省郏县睿金科技公司工人正在标注数据


据《纽约时报》的报道,在位于中原腹地的河南河北,数据标注正在渐渐成为最新的劳动密集型行业。


有多少人工,就有多少智能。目前的人工智能在被投喂了大量数据之后,才能认出三岁小孩子都能认出的东西,学会“黑猫白猫都是猫”。


当然,狸花猫也是猫


然而,在人工成本更高以及对数据标注要求更复杂的硅谷,工程师们需要寻找其他出路来获取大规模的高质量有标记数据。


1

众包


在人工费用高昂的硅谷,工人的最低时薪约为13美元左右。对于很多创业公司和中小企业来说,雇工人标注数据实在承受不起。


最经济的方法就是把大量任务拆分成小任务,再以低廉的价格分发到用户手中。


其中最有名的在线众包平台就是亚马逊旗下的Amazon Mechanical Turk了。


在Mechanical Turk 上,发布者可以自行上传标注任务,用户只需要填写简单的个人信息就可以开始工作。


为了搞清楚Mechanical Turk到底是怎么工作的,我们也注册了一个账号。


在Mechanical Turk的开始页面,有各种奇奇怪怪的任务。这其中包括“标注厨房里的事物”,“找出电子邮件地址和发件人名字”,“给图片中的物体勾线”等等。



每个任务中包含若干个被称为HIT(人类智能任务,Human Intelligence Task)的小任务,标注员每完成一个小任务可以获得相应的报酬。


其中最便宜的一个是给图片中的建筑分类,判断这个小楼是属于拉丁裔、亚裔还是中东人。每完成一个可以获得1美分(约7分人民币)报酬。



而最贵的一个,是找一位中文母语者按要求录150句中文,可以获得6美元。



除了这些简单易懂,点一下鼠标就能完成的任务,在Mechanical Turk上还有更多高要求的标注工作。


比如,有一个任务要求标注者看10秒钟视频,并用一句话描述视频里的内容。


在描述时,不能出现拼写和语法错误,也不能加以主观臆断,在囊括所有重要内容的同时又不能描述太多不重要的细节。


而实现这么一个高要求的任务,发布者只需要付出0.3美元赏金。


建议家长拿这个玩意儿训练小朋友写英语短句


尽管任务复杂报酬低廉,Mechanical Turk上的任务还是供不应求。一些低要求的工作被放出来不到十秒,就被抢光了。


截至2011年1月,Mechanical Turk上的注册工人数量已经达到了50万,在这些人的帮助下,有无数资金不充裕的人工智能研究得以实现。


此外,在网站输入验证码时,其实我们也在顺便做数据标注,只不过得不到报酬罢了。


比如这种标出路牌的验证码


而其实,Mechanical Turk(直译为机械土耳其人)的名字早就剧透了人工智能训练的本质。


1769年,初代Mechanical Turk的发明者——匈牙利机械师沃尔夫冈·冯·肯佩伦制造了一个“能战败人类”的下棋木偶。


这个“智能”木偶在欧洲和美洲几乎战无不胜,连拿破仑一世和本杰明·富兰克林都成了它的手下败将。


然而直到1857年,《国际象棋月刊》才揭露,其实傀儡里坐了一个象棋国手。



而电脑屏幕背后的人,又和机器里坐着的象棋国手有什么区别呢?


2

和专业人士合作


众包模式固然有种种优点,但它的缺点也是致命的。


当我向一位Google工程师朋友提起Mechanical Turk的时候,他表示“我们不敢用Turk 标注”。


因为众包模式,通过Mechanical Turk标注的数据良莠不齐,花钱标注已经花了大功夫,整理和“清洗”数据又要浪费很多时间。


尤其对于很多专业领域来说,普通人根本无法完成数据标注。


比如这种,你能告诉我哪个是有病变的吗?


2017年,Google AI公布了一项突破性研究成果:通过机器学习技术,AI能够从病人的视网膜眼底照片中自动诊断出潜在的病变情况,来提前发现糖尿病性视网膜病变,进行及时的治疗和预防,让患者保住视力。


但想要教会AI什么是正常的眼底照片,什么是有潜在病变的眼底,这个过程并不容易。


为了获得高质量的标注图片,真正让AI的诊断水平达到执业医师的同等标准,Google与印度和美国的眼科医生合作,创建了含有12万张图像的开发数据集,再由3到7名眼科医生联合评估图片中的病变。


最终,共计54名医生从这些视网膜眼底照片素材中标记出超过88万个确诊症状。


这些图片和标记全部被用来训练深度卷积神经网络,最终使得AI的诊断准确率逼近甚至超越了医生。


在Google Brain参与另一个与寿命预测相关的项目的工程师Steven Zhan告诉我,他们的数据集标注工作基本无法众包,都是交给医生来完成的。


虽然在未来,AI很有可能发展到“自己教自己”这一步。


但目前为止,大部分的数据标注工作都是由真人完成的。这个工作不像大家想象的那么简单,而是充满了复杂的判定和繁琐的重复。


而随着人们对数据的需求越来越高,也有越来越多的人开始靠标注数据为生。


皮尤研究中心预测,这种零碎的数据标注工作将在未来几年内成为美国经济的重要组成部分。


在2016年,有大约5%的美国人通过Mechanical Turk这样的在线标注平台赚钱——这个数量已经超过了优步司机。


在可见的未来里,人类还将继续为人工智能打工。


在中国如此,在美国也一样。


腾讯创业福利时间


腾讯创业的朋友们!今天我们联合机械工业出版社华章科技,又来为大家发书发书发书啦!


铛铛铛铛!本期赠书《股权规则:创业者基业长青股权法则》!20本!(原价59元)



欢迎在留言区和我们互动,1月22日上午10点,我们会为留言区点赞前20位的幸运读者各赠一本《股权规则:创业者基业长青股权法则》!


小手动起来~!!!当然你也可以直接戳“阅读原文”选择购买哦~



你怎样看待数据标注的工作?


 欢迎评论区留言,与大家分享



机器人失业

啥是佩奇

变现王者

星巴克营销

APP倒闭

麻烦别人

以色列孵化

内容创业

创业建议

招人杀手锏

社交留存

名人去世


文章已于修改

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存