查看原文
其他

冯志伟序 | 基于注疏文献的《孟子》信息处理研究

冯志伟 应用语言学研习 2022-06-09

欢迎关注我们,一站式获取海量语言学资源

感谢冯志伟先生授权分享

转载编辑:应用语言学研习

推荐阅读:

冯志伟 | 我国计算语言学研究70年

新书预告 | 乔姆斯基《句法结构》第二版中译本

冯志伟先生讲座讲稿:词向量与语言学
冯志伟 | 神经网络、深度学习与自然语言处理
冯志伟《现代语言学流派》读书笔记链接
冯志伟先生谈计算语言学——把基于语言大数据的经验主义方法和基于语言规则的理性主义方法结合起来
冯志伟:关于“第三人称数据”的观察和检验 | 序陆晓蕾 倪斌《Python 3:语料库技术与应用》
冯志伟:当前计算语言学发展的几个特点 | 中国社会科学网
冯志伟访谈录 | 面向翻译的术语研究:“中国学派”的实践特征和理论探索
冯志伟:自然语言计算机形式分析的理论和方法
冯志伟:我的2020年总结


基于注疏文献的《孟子》信息处理研究

作者:梁社会

北京大学出版社,2021.5


序 言

 冯志伟


本书选取了《孟子注疏》《孟子集注》《孟子正义》三部有代表性的注疏文献作为语言资源进行先秦经典《孟子》的信息处理研究;利用基于范围检查的句子对齐算法以及基于字符串相似度的句子对齐算法,对这三部注疏文献进行了句子对齐,并利用基于正则表达式匹配的注释对齐方法对这三部注疏文献中的注释进行了抽取,并与原文中的各级语言单位进行对齐,形成了一个数目大约在700条左右的注释对齐平行语料库,这些有一定规模的、真实客观的语言资源为基于注疏文献的《孟子》信息处理工作奠定了良好基础。

在这些语言资源的基础之上,本书研究了《孟子》的各项自动分词技术,使用基于规则的自动分词方法,利用几种不同的词表,对《孟子》进行自动分词实验,又利用条件随机场模型,对注疏文献进行了基于机器学习的自动分词实验,实验结果良好。

本书还制定了《孟子》的词性标记集,根据条件随机场模型的原理,对《孟子》全文进行了基于条件随机场的词性标注实验,还对词性标注的错误做了统计,分析了注疏文献中的三种词性提示信息。作者还选用《孟子集注》中的去声信息来进行词性自动校正,这是作者的一个创新,实验结果表明,这种利用去声字表进行词性自动校正的方法是行之有效的。

本书又考察了古代汉语和现代汉语在词义消歧方面存在的异同,探讨了关于古汉语词义消歧的特点与难点,研究了上下文对词义的影响,提出了基于词义消歧树的消歧算法,还采用了条件随机场模型的算法进行词义消歧,并比较了这两种消歧算法的效能。

本书还根据计量语言学的原理,从语言的计量特征出发,广泛采集并统计了《孟子》及其相关注疏文献的字、词、句等各级语言单位的数据,分析了这些文献的文本特征及语言风格特征;并与《论语》《左传》的相关统计结果做了比较分析,对于字型数目、字例数目、平均字频数、高频字、字的熵值、字频曲线图、文献相似度、词型数目、词例数目、平均词频数、高频词、平均词长、词长离散度、词语词长分布、高频多字词、带词性标记的词型数目、带词性标记的词例数目、带词性标记的平均词频数、词语词性分布、多兼类词语、句子类型、句长、句长离散度等诸多语言特征进行了定量研究和计量分析。作者还总结了《孟子》中排比句的特点,提出了一种有效的自动识别古代汉语排比句的方法,并且将该方法用于《论语》中排比句的自动识别。

本书研究内容充实,研究方法正确,研究数据有说服力,是先秦文献信息处理的重要成果。本书的研究对于其他先秦文献信息处理的研究,也有很好的借鉴价值。

本书属于先秦文献的专书研究,所选取的研究对象是《孟子注疏》《孟子集注》和《孟子正义》三部有代表性的注疏文献,其中,《孟子注疏》约27万字、《孟子集注》约12.1万字、《孟子正义》约33.3万字,它们的字数都是固定的,是封闭的文献集合。由于研究对象的这种封闭特性,非常便于使用计算机进行信息处理和研究结果的评估。我国的古典文献浩如烟海,采用这种专书的研究方法分别使用计算机进行深入的分析,不失为一种聪明的处理策略。本书为我国古典文献的信息处理研究提供了一个成功的范例。

本书的研究对象是古典文献,属于人文科学的范畴,本书的研究方法是计算机信息处理,属于自然科学的范畴。本书把古典文献研究与计算机技术结合起来,是非常典型的跨学科研究。梁社会老师在这种跨学科研究中,努力进行更新知识的再学习,不仅学习了古代文献的知识,还学习了数学的知识和计算机的知识,成为了文理兼通的新一代语言学家。希望梁老师在这样的基础上,继续努力,更上一层楼,为我国语言学的现代化和新文科的建设做出新的贡献。


                                   冯志伟

2020年岁末于北京




转载编辑:应用语言学研习

微信公众平台审核: 梁国杰

科研助力

科研必备|让每一位文科生都能轻松上手的Python基础课

一文讲清后期资助项目(国家社科&教育部社科后期资助项目)

教育部人文社科项目申报书填写+立项案例

数说 | 国家社科思政专项2020年立项题目和2021年选题指南


文献延伸阅读(研习人指引)

本平台友情整理相关文献索引链接,

欢迎感兴趣的朋友按需选购。





精选推荐

点击左下方阅读原文,发现更多语言学好书!

定价:¥48

限时优惠价:34.56

定价:¥55.90

扫码即享限时优惠价:44.5


教育部人文社科项目申报书填写+立项案例


科研必备|让每一位文科生都能轻松上手的Python基础课
推荐阅读:
汉语国际教育怎么办?大咖云集出谋划策(李宇明、刘利、王甬、吴应辉、王辉……)
重磅上市 |《国际中文教育中文水平等级标准》及解读本正式出版!
最高领导人讲话,释放我国科研工作重大信号!
中国语言学的体系建设和时代使命——写在习近平《在哲学社会科学工作座谈会上的讲话》发表五周年之际
重磅好课|上外语言院《语言跨学科研究方法》MOOC平台上线啦!
中国民族语言学会汉藏语言文化专业委员会第三届学术年会(一号通知)
“新时代大学英语教学改革创新与实践”研讨会(一号通知)
会讯 | 第六届全国生态语言学研讨会(一号通知)
【讲座回顾】多模态人类学的思考
黄国文 | 新文科与外语教育——从“术”与“道”的 关系谈起
李宇明 | 国家治理 语言助力——序王春辉《语言治理的理论与实践》
重磅!北外首发全球国家翻译能力指数和中国大学翻译能力指数(附:中心组织架构)
《汉语语法长编》出版!
线上讲座 | 河南大学外语学院第二届国际语言学术研讨会(Traugott 6场讲座)
《外国语》2021年第2期 目录、摘要
国外应急语言研究的主要路径和方法
深切缅怀 · 贾洪伟博士
讲座视频 | Martin Hilpert:语言学是一门科学吗?
讲座视频 | Martin Hilpert:为什么要学习语言学?
KT文库|语言学方向与应用语言学方向年度书单
KT文库 | 翻译学方向与跨文化研究方向年度书单
访谈视频 | M.A.K. Halliday 教授谈 World Englishes
若论文数据库也遭美国 “卡脖子”,中国如何应对?
资源推荐 |《国际中文教育中文水平等级标准》可检索精校Excel版(含字词表)
王俊菊:新文科建设对外语专业意味着什么?
纪念 | 贾洪伟:间隙弥合——古希腊经典翻译之符号学解读
国外反讽研究的现状、趋势和展望
语气词的绝对统治:中国式聊天,全靠“嗯、哦、哈、嘿、吼”?!
语言认知科学国际学术研讨会(CLCS-1) 通知(第2号)
2021(第17届)语言智能教学国际会议(北外、南航联合承办)
蔡基刚 | 学科交叉:新文科背景下的新外语构建和学科体系探索
书介 |《英语可以被视为亚洲语言吗?》,剑桥大学出版社
蔡基刚 | 课程思政视角下的大学英语通识教育四个转向:《大学英语教学指南》(2020版)内涵探索
刘海涛 郑国锋 | 数据时代语言学理论研究的路径与意义
陈平 | 话语的结构与意义及话语分析的应用
重磅英文讲座︱北外外国专家系列文化讲座大预告
许渊冲:中国是不是“翻译强国”?
朋友圈被颜色测试刷屏?各种“颜色”用英语怎么说?
书讯 | The Routledge Handbook of Cognitive Linguistics 文旭&Taylor主编
最新发布 | 北京语言大学诚聘海内外博士后研究人员
冯志伟 | 我国计算语言学研究70年
话语研究四十年 | 热点话题·发展趋势·研究路径
图解 | 语言研究的哲学基础与理论渊源
新文科建设的理路与设计
谢维和 | 中国教育发展的“双循环”——从外语教育的讨论说起
手把手教你如何撰写社科课题申报书
一文讲清后期资助项目(国家社科&教育部社科后期资助项目)
文旭 | 大数据时代的认知语言学展望
文旭 | 认知语言学的研究方法
冯志伟 | 神经网络、深度学习与自然语言处理
访谈视频 | Dan Jurafsky:AI 如何改变我们对语言的理解
徐赳赳 | 篇章语用研究70年
申丹丨关于修辞性叙事学的辩论:挑战、修正、捍卫及互补
刘海涛 | 数据驱动的应用语言学研究
北京外国语大学2021年秋季博士后招聘公告
免费获取英文电子书和文献资源的30个网站
黄国文:思政视角下的英语教材分析
文秋芳 | 大学外语课程思政的内涵和实施框架
文旭 | 语言学课程如何落实课程思政
外语专业课程思政的本、质、量
新书 | 文秋芳著《产出导向法:中国外语教育理论创新探索》

预告 | 南京大学119周年校庆人文社科高端系列讲座

在线公益论坛 | 线上线下混合式教学:理论与实践(复旦新学术承办)

第五届全国英语专业及大学英语课堂教学高端论坛(1号通知)

吕叔湘王佐良等中外名家谈汉诗英译

许渊冲:关于翻译学的论战

【会议通知】第六届中国生态语言学战略发展研讨会
北京外国语大学世界语言博物馆藏品征集启事
2021年度国家社会科学基金后期资助暨优秀博士论文出版项目申报公告
会讯 | 第17届功能语言学学术研讨会通知(1号)
CSSCI来源期刊&扩展期刊(2021-2022)目录完整版
赵蓉晖 冯健高 | 区域国别研究视角下的语言能力:地位与内涵
基于文献计量学可视化技术的国内话语分析研究热点与主题演变
《文史哲》主编王学典:治学的功力与见识
写好的唯一办法:每天都写!
北大中文核心期刊投稿方式大汇总(最全版)
校友会2021世界一流大学建设高校排名!
2021中国高校国家级一流课程数量排行榜
基于文献计量学可视化技术的国内话语分析研究热点与主题演变
全名单!CSSCI(2021-2022)期刊目录与情况分析,增减变化一目了然!
资讯丨CSSCI 2021-2022年扩展版期刊目录(附变动情况)
蔡静 张帅 唐锦兰│我国高校外语教育信息化主要问题调查
《外语教学》2021年第3期目录
王宁:新文科视域下的翻译研究 |《外国语》2021(2)
徐锦芬 | 应用语言学研究的国际动态与前沿分析
王克非 | 翻译研究拓展的基本取向
《外国语》| 傅敬民 刘金龙:中国特色应用翻译研究的特色问题
2021新增 9 本语言学类SSCI期刊 | CorpusTalk
国内最有代表性的17个语料库介绍
涨知识 | 世界语言文字知识知多少?
刚刚,2021 QS美国大学排名发布!
冯志伟先生讲稿:词向量与语言学
会讯 | 第二十届中国认知语言学国际论坛日程(1号公告)
预告 | AI & Cognition Lab 人工智能与认知实验室2021年春季8场讲座
语言学联合书单 | 外教社语言学图书年度盘点
《外语教学与研究》2021年第3期目录和摘要
语言学家伤口撒盐:王冕死了父亲
秦丽莉等 | 生态给养视阈下英语知识内化机制构建——基于课堂展示活动
刘乐宁 | 美国外语教学委员会外语教学标准与《国际中文教育中文水平等级标准》的互鉴和互补
重磅 | 2020中国高被引学者榜单出炉,外语界有这些学者上榜
语言学、外国文学、中国文学CSSCI (2021-2022) 源刊目录及官微汇总
干货 | 228所高校学报投稿邮箱+472本社科领域经典文献!
重磅丨2021软科中国语言类大学排名出炉(附中国大学完整排名)
重磅 | 语言学CSSCI(2021-2022)来源期刊投稿方式大全
胡键丨语言、话语与中国的对外传播
荐书 | 德古意特认知语言学研究丛书+应用丛书(13种)
王文斌 柳鑫淼:关于我国外语教育研究与实践的若干问题
首批国家级一流课程案例分享及评审标准
数说 | 国家社科思政专项2020年立项题目和2021年选题指南
胡壮麟:吾师韩礼德先生的为人和治学 | 纪念著名语言学家M. A. K. Halliday
黄国文 | Halliday的系统功能语言学理论与生态语言学研究
新书推荐 | 穆雷 等著《翻译学研究的方法与途径》
《当代语言学》2021年第2期目录
何宁 王守仁 | 高校外语专业学生外语运用能力的培养
抗击新冠疫情语境中的新语用现象
译者 | 林语堂翻译经验:“之乎者也”怎么译?
中国国家治理话语体系的构成与演化:基于语词、概念与主题的分析
会讯|第十二届中国认知语言学研讨会征文【一号通知】
胡钦谙 顾曰国 | 计算语言学研究70年
王灿龙 | 现代汉语句法语义研究70年
刊讯 |《现代外语》2021年第3期目录
刊讯 |《现代外语》2021年第4期目录及摘要
《外语与外语教学》2021年第2期目录及文章摘要
戴炜栋 胡壮麟 王初明等:新文科背景下的语言学跨学科发展
国家社科基金评审标准解读
“浙大学报”:建议科研人员培养一些庸俗的爱好!
刊讯 |《外国语》2021年第2期目录
陈旸:《论语》英译研究的功能语篇分析途径(黄国文序)
多模态批评话语分析: 理论探索、方法思考与前景展望
张伟年 段宛云等. 多模态话语分析:以“疫情防控外语通”为例

《乔姆斯基教授访谈实录》| 外国语
讲座视频 | 乔姆斯基:Language, Creativity, and the Limits of Understanding
陆俭明:为何“人工智能对语言学的研究成果不是不需要,而是用不上”?
国内基于语料库的批评话语分析研究综述
批评话语研究的语境-指称空间模型
新文科背景下的外语教育与外语研究(一)|《中国外语》
何莲珍 胡开宝 胡壮麟|新文科背景下的外语教育与外语研究(二)
梁茂成 刘宏 宁琦|新文科背景下的外语教育与外语研究(三)
束定芳 王文斌 修刚 张辉|新文科背景下的外语教育与外语研究(四)
张天伟 | 我国外语教育政策的主要问题和思考
冯志伟《现代语言学流派》读书笔记链接
韩礼德 | NEW WAYS OF MEANING: 对应用语言学的挑战
王铭玉 | 语言符号学派行:中国符号学研究
新中国成立以来我国国家形象建构
论文该发还得发!224本C刊最新投稿指南汇总
《外语学刊》2021年第2期目录和提要
前沿 | 2021年度语言文学类学术会议集锦
刊讯 |《现代外语》2021年第2期目录
刊讯 |《外语电化教学》2021年第1期目录
张伯江:功能、语用、认知研究的深化
《中国外语》专号预告|外语课程思政建设
陆俭明 | 汉语研究的未来走向
胡键丨“一带一路”的实践与中国的语言战略研究
高雪松 康铭浩 | 国外语言政策研究的问题和路径
沈骑 | 新中国外语教育规划70年:范式变迁与战略转型
观点汇辑|“国际中文教育”大家谈
回放︱第五届全国高等学校外语教育改革与发展高端论坛
翻译必备 | 最好用的语料库了解一下,没有之一!
郭熙 林瑀欢:明确“国际中文教育”的内涵和外延(外一篇:白紫薇 | 孔子学院转型发展研究)
文秋芳 | 学术英语化与中文地位的提升:问题与建议
《外语教学与研究》2020年总目录
视频合集 | Caroline Heycock:生成句法入门(课程共11讲+番外篇)
教育部人文社科研究项目语言学立项趋势及申报建议 ( 2009-2019)
基于普通语言学的当代英语功能分析 (胡壮麟等 序,陈建华等 译)
我们用爬虫和机器学习模型深挖了拜登的对华智库
国际顶级杂志《文体》以特刊形式集中探讨北大申丹教授首创的叙事理论
克里斯蒂娃:《普遍的语言学与“可怜的语言学家”》(龚兆华 王东亮译)
外语教学:国别和区域研究专题 |《外语学刊》
交流 | 被评为“语言学”一流学科的高校建设得怎么样了?
“语言生活”研究热点︱语言政策与规划研究
科研助力 | (即将)读研究生的你,如何选择研究方法?
观点 | 汉语教学标准与大纲专题
蔡基刚:取消英语主课地位,无异于重新回到闭关自守年代
“不应以任何方式削弱英语教育的地位和价值”——外语界部分知名专家谈“取消英语在中小学主课地位”
取消英语主科、淡化英语考试、削弱英语地位,谁最高兴?
王克非: 新中国翻译学科发展历程
纪念王德春先生逝世十周年暨当代语言学新视野国际研讨会 会议通知(第一号)
《中国小语种教育趋势报告》:在线教育优化供给端,小语种高考机会来临
汇总帖丨外文局审定600条新冠疫情相关词汇中英表达
盘点 | 中国古代语言文字学名人录
科研贴士 | 如何写好研究计划(Research Proposal)?
乔姆斯基 | Minimalism: where we are now, and where we are going
张辉 张艳敏 | 批评认知语言学:理论源流、认知基础与研究方法
刘英凯:试论奈达“读者反应”论在中国的负面作用(修订稿)
刘英凯:归化——翻译的歧路
2020人大复印资料语言学·文学类最受欢迎文章集萃
李葆嘉:西洋汉语文法学三百年鸟瞰 | 华东师范大学学报(哲社版)
近五年国家社科基金年度项目 语言学立项名单一览
译词 | 64个跨文化核心词(含中英释义)
乔姆斯基:语言学的“当时”和“现在”
陈平 | 理论语言学、语言交叉学科与应用研究:观察与思考
陈平:语言交叉学科研究的理论与实践
陈平 | 交叉学科教学与研究:做什么,怎么做?
吴应辉 梁宇:交叉学科视域下国际中文教育学科理论体系与知识体系构建
多模态视野下的国家媒介形象:概念与特征 | 中国社会科学报
交流 | 那些隐藏在高校“文学院”中的“自然语言处理”专业
李晨阳:关于新时代中国特色国别与区域研究范式的思考
推荐 | 第二语言教学法主要流派全收录(值得收藏)
国外语言学学科眼动研究: 现状与前瞻( 1934-2020)
李强:关于区域与国别研究方法论的思考
神经语言学国际热点与趋势的科学知识图谱分析
姜望琪:Halliday的语篇衔接理论 |《语篇语言学研究(第二版)》
重磅 | 2020中国学术期刊影响力指数及影响因子排行榜(语言文字)
【高端笔谈】外国语言文学学科高质量发展的路径
国内生态学视角外语教学的特征和趋势 ——基于CiteSpace的可视化分析
干货 | 国家标准:公共服务领域英文译写规范(附电子版下载)
冯志伟:当前计算语言学发展的几个特点 | 中国社会科学网
重磅 | 2020中国学术期刊影响力指数及影响因子排行榜(语言文字)
世界语言谱系及语种概览 | 语言学微课堂
徐锦芬 曹忠凯:国内外外语 /二语课堂互动研究
韩晔 高雪松 | 国内外近年线上外语教学研究述评:理论基础、核心概念及研究方法
近十年国际语言政策与规划研究热点与趋势——基于Scopus数据库的可视化分析
中国英语教育四十年反思及其对新文科背景下英语专业建设的启示

扫码关注↑↑↑ 即可获取最新入群二维码!

目前已有2.94万语言文学、区域国别学

研习者关注本公众号

欢迎加入交流群,分享学习,共同进步!

亲爱的研习人,

一起来点赞、在看、分享三连吧!


一个,点亮在看

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存