查看原文
其他

讲堂 |“语言•大数据•开放”——于洋谈未来

2016-04-15 于洋 译·世界
编者按

48日,“语言·大数据开放2016”大会在青岛召开。中译语通科技(北京)有限公司CEO于洋以“语言·大数据·开放”为主题发表了会议主旨演讲。




“语言·大数据开放2016”大会现场,于洋向与会者介绍了在互联网、大数据和人工智能的时代中,跨语言大数据的现状和未来,并介绍了语言大数据联盟的情况。于总对于大数据对未来的影响做了深入思考,他的观点引人深思。


1互联网·大数据·人工智能




一个月之前的人机智能大战,阿尔法狗完胜,这一次机器学习、大数据、人工智能技术完全战胜了人类。阿尔法狗运用复杂的计算策略进行运算,达到了前所未有的深度、速度和准确度。但“老司机还是老司机”,创造人工智能的是人类,制定策略网络和价值网络的是人类。从手工翻译到计算机辅助翻译,从人工翻译到机器翻译,从人工处理数据到算法处理大数据,看起来是机器在进步,实际上是人的进步,是人在工作分配、工作方式上的进步。




在今天的大数据时代,每秒会产生22T的数据,在今天的时间节点,中译的译云已经拥有30亿句对,相当于600亿词。在2016年底,将会超过40亿句对。


对当下的数据进行归纳,去总结庞大数据中存在的规律,可以帮助我们预测未来的数据,这是数据给我们带来的一种颠覆。对实时的数据进行检索和分析,可以帮助人看到事物发展的“横截面”,从每一秒的数据中累积出价值。


我们需要在时间、空间和社会之间跨越,将所有的能力整合在一起,所以今天提出“跨语言大数据”,大数据本身就是一个巨大的整体,机器翻译又进一步放大了大数据的量级和价值。对于机器来说,语言不再是障碍。当我们用搜索引擎搜索中文时,应该出现更多语种的资料。在今天,我们需要在大数据基础上深度挖掘跨语言大数据之美。


2没有风,依然要飞翔




2015年互联网市场经历了跌宕起伏,有人说到了“资本寒冬”。但是该做的事情还是要做,2016,没有风,也依然要飞翔,要继续向前进。互联网带给各行各业很多冲击,最典型的是上到国家总理,下到平民百姓,无人不谈大数据和互联网思维,人人都在创业。在这个行业诞生了很多平台。对于平台来说,用户、流量、交易是核心,没有用户、流量、交易的平台顶多称得上是网站。


在市场遇到互联网泡沫的时候,资本一直在追逐互联网。移动互联网并没有消失掉,而是变成了我们今天生活、学习、工作的一部分,互联网已经变成了基础设施。在这样一个环境下我们应该考虑如何将语言学习、翻译教学与大数据、人工智能紧密结合起来。例如跨境电商领域要跨语言,会产生每年数千亿字的翻译量,这是巨大的翻译任务,单一公司翻译几千年才能完成,所以这个需要机器才能完成。


机器翻译是自然语言处理的一部分,处于顶端的位置,融合了很多技术。很多人在讨论机器翻译能否替代人,有些人说可能需要十年、几十年。机器翻译最早诞生于IBM,到现在,机器翻译已经得到了大规模的使用,机器永远不会替代人类,在过去的相当长一段时间内,语言服务公司、翻译公司做的笔译量仍旧是不断增加的,并没有机器翻译挤占人工翻译的市场。因为大数据发展的速度极大,机器翻译开辟的是新的市场,机器翻译替代人类完成的翻译量是过去人们难以想象的。所以说机器翻译是更好帮助人类翻译的工具,它让人类看到了不同的世界。


用“30亿”语料提供一个支点,这个语料库本身就是一个庞大的数据,机器翻译作为支点又可以进一步撬动各个领域的大数据,这是今天非常重要的一个主题。作为语言服务行业,机器翻译的进步是靠着存在的数据去发展,在大数据领域,机器翻译推动了新的数据融合和增长。


大数据可分为结构化数据和非结构化数据,非结构化数据占比超过80%。如何深度挖掘非结构化的大数据和跨语言的大数据给是巨大的挑战,通过分析为这些数据构建标准、秩序和可视化的呈现方式,这样才能预测未来。




时至今日,AI人工智能技术的发展成果和成熟度要远远超出人们的想象,在各个行业得到极大的应用。许多智能厂商已经开始制造人工智能芯片,一个小小的芯片能够与各种各样的设备甚至人体融合。试想早上起来,机器人可以帮我们阅读世界头条,大数据可以帮助我们检索到最需要的资讯分析,这样的场景也许3-5年就可以实现,甚至更短。


3语言大数据生态——开放共赢




在人工智能时代,跨语言的大数据能给我们带来无限的想象。中译语通在跨语言大数据上持续投入研发力量,希望将我们的经验与所有的高校、企业和专家共享,把更多的智慧、更多的知识储备拧成一股绳,大家一起完成更大的壮举。我们构建一个开放、共赢的跨语言大数据生态社群,更希望联合科研院所与企业一起做这个事情。我们希望实现从一个词到整个世界的共享。


我们要构建的是一个开放、共赢的语言大数据的生态系统,企业、高校、科研院所都可以进来,成立语言大数据联盟。开放大数据不仅仅是企业与高校之间的共享,也是高校与高校之间的共享。未来数据可以共享,量级更加庞大,为教学和科研带来更多的机遇。


您对跨语言大数据的见地,欢迎与我们分享交流。来稿请致:media@yeeworld.com


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存