查看原文
其他

翻译技术|代码分享——KWIC

吴志雄 翻译圈
2024-09-09

代码分享

KWIC


代码及解析
import nltk file_in = open("D:\学习\语料库\江选\第三选英文.txt",'r',encoding='utf-8') raw_text = file_in.read() tokens = nltk.word_tokenize(raw_text) nltk_text = nltk.Text(tokens) nltk_text.concordance('social')
这段代码实现了关键词上下文(KWIC)功能。下面是每行代码的含义:
1. `import nltk`:导入了Python的自然语言处理工具包nltk。
2. `file_in = open("D:\学习\语料库\江选\第三选英文.txt",'r',encoding='utf-8')`:打开一个名为"第三选英文.txt"的文本文件,并将文件对象赋值给变量`file_in`。文件路径是"D:\学习\语料库\江选"。
3. `raw_text = file_in.read()`:将文件中的内容读取为一个字符串,并将其赋值给变量`raw_text`。
4. `tokens = nltk.word_tokenize(raw_text)`:使用nltk的`word_tokenize`函数对`raw_text`进行分词,将分词结果存储到变量`tokens`中。
5. `nltk_text = nltk.Text(tokens)`:根据分词结果创建一个nltk的文本对象,并将其赋值给变量`nltk_text`。
6. `nltk_text.concordance('social')`:使用nltk_text的`concordance`函数,查找包含关键词"social"的上下文,并将结果打印输出。
总结:该代码读取了一个文本文件,然后对文件内容进行分词,并使用nltk的`Text`对象来进行关键词上下文的查找。最后,它打印输出了包含关键词"social"的上下文。
请注意,你需要确保在运行代码之前已经安装了nltk库,并且已经下载了所需的数据集(如punkt分词器)。你可以使用nltk.download()函数来下载所需的数据集。此外,请确保文件路径正确,并且文件存在。
concordance 0 函数的基本格式为:concordance (keyword, width = 75, lines =25) , 其 中 keyword为检索的关键词,返回结果默认有75个字符,默认返回25行检索行。如果选择默认设置,则 不 用 在 concordance()中设置参数。也可以将width 和 lines 设置成其他值,比如 concordance (keyword, width = 100, lines =80 ) ,则返回结果为100个字符,语境更大,返回80行检索行。

部分运行结果如下:

每日啃一段代码,日积月累,我们可以跨越这条鸿沟,若是还未入门Python,可加入我们的粉丝群免费获取《第一本书Python》,快速入门!

往期代码合集可后台回复代码分享或者加入翻译圈粉丝群获取,粉丝群还有其它资源哦!



参考书藉:基于Python的语料库数据处理 雷蕾 著

特别说明:本文仅供学习交流,如有不妥欢迎后台联系小编。

- END -



翻译圈公众号旨在为读者提供名师和专家对口笔译的真知灼见,CATTI考试和MTI入学考试信息,翻译等语言服务就业资讯,以及口笔译学习资源和知识,希望在翻译之路上,为大家助上一臂之力。欢迎大家积极留言,为我们提供建设性意见,我们共同进步!


原文作者:吴志雄

推文编辑:吴志雄

指导老师:朱华

审核:吴志雄、刘一葶

项目统筹:吴志雄


资讯推荐


译者专属搜索引擎




▶精品课程

精品课程 | 如何轻松上手语料库建设及数据处理与分析?十一研修班带你一网打尽!

精品课程|从进阶到精通:基于Python的语言数据分析实战

精品课程|从入门到进阶:语料库建设与统计分析实务

精品课程|刘世界:6节语料库专题课,从入门到精通

精品课程|六节课让你从搜索小白进阶搜索达人
精品课程|CATTI考前实战冲刺班,考前三周实战提升,扫除备考盲点

▶资源宝库

翻译技术|以Sketch Engine为船遨游语料海洋(二)

翻译技术|The Free Dictionary-多语在线词典搜索引擎

翻译技术|ChatGPT+Excel应用结合探索:(一)酷表ChatExcel

翻译技术|代码分享——用ngrams(text,n)提取二连词
翻译技术|代码分享——将文本直接转换为段落列表

翻译技术|字幕翻译配音恐失业,Ai翻译配音超逼真

翻译技术|代码分享——先分段再分句的两个办法

资源宝库|小鹤音形输入法——打字,你还能更快!

资源宝库|Win11正式成为“AI操作系统”了,Copilot助手加持,画图截图一键换背景,马斯克赶来围观

资源宝库|1.7亿篇科技文献 PubScholar公益学术平台向社会开放

▶翻译百科

翻译百科|《中国大百科全书》中的“语言资本”

翻译百科|《中国大百科全书》中的“语言经济”

翻译百科|《中国大百科全书》中的“语言市场”

翻译百科|《中国大百科全书》中的“翻译学”

翻译百科|《中国大百科全书》中的“神经网络机器翻译”

翻译百科|《中国大百科全书》中的“翻译层次”

翻译百科|《中国大百科全书》中的“范化”

翻译百科|《中国大百科全书》中的“可比语料库”

翻译百科|《中国大百科全书》中的“翻译工具”

▶译界动态

译界动态|2023“理解当代中国”多语种国际翻译大赛

译界动态|第二十次全国民族语文翻译学术研讨会成功召开

译界动态|2023国际译联(FIT)北美年会译界动态|第二十届全国科技翻译研讨会(2号通知)

译界动态|美国文学翻译协会 ( ALTA )简介

译届动态|公益沙龙之ChatGPT时代译者的搜商体系构建之道

  关注我们 了解更多

CATTI和MTI资讯

语言服务就业信息

翻译名师真知灼见

翻译学习精品课程


继续滑动看下一个
翻译圈
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存