斯诺登新文件:看NSA如何将语音转化为文本
斯诺登最新泄露的文本显示,NSA将口头对话利用RHINEHART及VioceRT工具转换成可索引文本。
为了了解如何将语音转化为可索引文本,让我们回顾一下20世纪70年代,当时美国国防高级研究计划局(DARPA)正在着手资助在语音识别研究,这让几个项目可将语音转换为文本,虽然过程缓慢,但随后的改进工作提高了速度并且可获得更多数据。
DARPA信息创新办公室董事Dan Kaufman表示,将语音转换为文本“极其艰难”,而且“信号中有很多噪音”,“实话说我们并不擅长这个领域”,但“我们在这些类型的翻译上面做的非常好。”
自2001年在间谍工具中的大规模投资增加以及从斯诺登提供的泄露文本中我们获知,十年前NSA分析员就已经在庆祝“语音Google”了。
现在还没有出现一种能将自然会话完美转录的工具,虽然我们知道这一天终将到来,但目前现有的工具确实做得还不错,它们利用广泛的关键词搜索、提取语音会话、使用执行算法标注感兴趣的会话等等。
斯诺登泄露的文档显示,美国情报局已经在多个战区(伊拉克、阿富汗、拉美)使用这些工具了,但还未有数据显示工具被用来监控美国公民。
遍布全球每个角落的人员都应该对此引起重视,因为美国情报局的操作神秘低调,因为似乎美国议会也未曾意识到存在这些活动。
“我觉得人们可能不了解监控经济已经完全发生了变化,”相关人士指出,“一旦你拥有了这项能力,问题就来了:它将如何被部署?你能临时缓存美国的通 话记录、转录所有通话、对所有通话内容进行文本搜索吗?他们现在可能还无法做到这些,但他们终将会具备这个能力。我们如何知道他们是否更改了政策?我们根 本不知道有多少无辜的人受到了影响,或者其中有多少无辜人士是美国人。”
分析工具及其历史
在2001年美国遭受恐怖袭击时,类似的工具曾被用来收集大量的语音通讯并对它们进行处理。第一代工具名为“RHINEHART”,首次用于2004年。一份名为《多媒体挖掘的未来就是现在!》的NSA内部备忘录(2006年)报道称:
“语音词语搜索技术允许分析员基于情报内容找出并优先考虑拦截。”
这份备忘录指出,RHINEHART旨在同时支持实时搜索即收录数据由指定的字典自动搜索,以及回顾搜索即分析员可反复搜索过去几个月的流量。2006年,RHINEHART被用于“大规模的任务及语音”中。
2009年,新工具“VoiceRT”出现,并首次用于巴格达,“旨在媒体对100万份命令进行索引及标注。”
2011年及2012年,一款名为“SPIRITFIRE”的新工具取代“VoiceRT”,它能够更快地处理更多的数据,具有“更加强大的基于语音到文本关键词搜索及对话转录的语音处理能力。”
从NSA备忘录中我们可发现,“RHINEHART”主要用于讲波斯语的分析员,而西班牙语是从语音转化文字更加成熟的语音。
作为本文的结束语,我想说作为世界公民,我们需要更多地尊重我们的权利、要求获得对此类工具的相关规定,并且要求法律保护我们免受政府的监控。
本文由测腾代码卫士编译,不代表测腾观点,转载请注明“转自测腾代码卫士www.codesafe.cn”。