查看原文
其他

苏东庄:开拓中文信息检索产业化 | “难以计算的贡献” 访谈

CCF计算机学会 计算机六十年 2023-07-08

苏东庄,1932年生,福建漳州人。我国中文信息全文检索研究的开拓者。苏东庄参与了我国第一代计算机104机的研制工作,编写出我国最早的计算机系统结构教材。1985年在国内首先开展海量信息的全文检索研究。在本片中苏东庄老师为我们讲述了早期从事计算机研究的经历和开拓中文信息检索产业化的感悟。

2019年9月24日,CCF记录计算机历史工作组访问苏东庄先生。

    中国的计算机确实是在党的规划下,党的组织之下搞起来的。这一点,我觉得没有这么一个规划,不可能,我们不可能在1956年这么一穷二白的时候啊,能够搞得起来的。后来,所以能够百花齐放,也跟改革开放以后的这套政策完全一致,搞起来的。

  我学的是电机系,苏联专家来了以后呢,就成立电力传动,我念的是电力传统专业,毕业以后呢,哈工大就成立了计算机专业了,1956年就成立了,成立以后就放在仪器系。我毕业以后,中科院计算所办第一期训练班,哈工大就把我派到计算所来了。

    我到了北京以后,就看到应用,中国的计算机应用啊,中文信息处理啊是绕不过去的。然后什么打印、编码,输入什么,这些东西都有人搞了。当时就是说,搞中文信息处理,然后就成立了这么一个中文信息处理中心。我为什么转过来呢?因为我觉得中文信息处理,对于计算机在中国的应用,它要突破的话,必须要走的。我认为是转的对的,转的对。联合国开发计划署也批了,每年批了几十万美元,还是多少的。然后我就请回来了李开复,就是我用这个中文信息处理中心把他请回来的。他回来了以后,中文信息处理就搞起来了。

   当时呢,我们就集中了一个事情,到了后来就搞中文检索,因为中文检索啊它远远不像英文检索那么样,那么好搞的。当时,我们讨论最简单的一个,你不能说全文检索,就是(语句)里头的每一个词都可以检索到的了。如果我送进一个检索词叫华人。那华人也不能把中华人民共和国给检索出来,那就错了,对吧?那就说明中文呢,要分词了。这个分词的技术,以及这个分词的算法,就变成是一个需要突破的(问题),那时候我们就集中搞这个东西了。其实搞这个东西的时候呢,新华社、人民日报,我们就以这个项目去对应他们的了。所以当时,新华社就帮我们搞这个分词,它是搞词啊,分词是我们的算法,但是词怎么分?新华社帮了很大的忙,人民日报也帮了,这样我们就解决了全文检索的问题,是在同一个系统里头,能进行英文的全文检索和中文的全文检索,这是第一个。

      80年代末了,我还是在搞,一直搞到 90年代初,19941995年,就开始在新华社、人民日报投入运行。在人民日报验收会上,当时是电子工业部的副部长曾培炎,他就找到我,他说你啊,把这个产品,把这个项目变成产品。他说,你不要停留在研究,把它变成产品,你办公司。我就在他的支持下,就搞了公司,你们可能没有体会,当时如果你不搞公司,你没法留住这些研究生,因为在学校里头,工资很低的,是吧?但我们没有别的收入,是吧?所以呢,人都走掉了。成立公司以后,人员就稳定了,这个系统呢,就搞得越来越好。应该是1995年,95年到96年之间,就在新华社、人民日报里面都用起来了。然后就成果鉴定了,当时时鉴定会的人是谁?鉴定会的组长杨芙清、副组长张效祥,有董蕴美,有何新贵,有唐敏,就搞起来了,然后,得了一个电子工业部的科技进步一等奖;第2年呢,又得了国家的科技进步二等奖。后来,我觉得人呢,要学会适应不同的情况,要走出一条路来。我就走中文信息处理,因为看准了这个事情是中国计算机,你要应用啊,也必须要突破的。那我们是第一个,把人工这个自然语言处理商品化,我把它变成商品,我们追求的呢,就是说用户要用得上,是不是啊?所以我觉得也挺有意思,挺有意思的。

收看视频,请点击页面左下角“阅读原文”。

公众号《计算机六十年》文章选读:

陆汝钤:想象力比知识更重要   | “难以计算的贡献” 访谈

鹏鸣九天——科学家康鹏教授的非常人生(一)

鹏鸣九天(二)——康鹏教授的高炮数字指挥仪

鹏鳴九天(三)——持续创新面对疾风骤雨

拜年!计算机组的第71个春节

康鹏和中国首台晶体管计算机

深切怀念康鹏教授和康鹏电路

海关计算机系统与水客的格斗

1977:海关启用计算机征税查私

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存