查看原文
其他

翻译技术|代码分享——spacy词形还原

The following article is from 翻译圈 Author 吴志雄

代码分享

spacy词形还原

代码及解析
import spacy nlp = spacy.load('en_core_web_sm') text = """Our responsibility is to rally and lead the entire Party \ and the people of all China's ethnic groups in taking on this task and continuing to pursue the goal of the rejuvenation of the Chinese nation.""" doc = nlp(text) lemmaText = '' for token in doc: lemmaText += token.lemma_ + ' ' print(lemmaText.replace('\n',''))

这段代码的含义如下:

1. `import spacy`:导入spacy库,用于自然语言处理任务。

2. `nlp = spacy.load('en_core_web_sm')`:加载英语语言模型,使用'en_core_web_sm'模型进行文本处理。

3. `text = """xxxx."""`:定义了一个名为text的字符串变量,存储了一段文本。

4. `doc = nlp(text)`:对文本进行处理,生成一个文档对象doc,该对象包含了对文本进行了词法分析、句法分析等处理后的结果。

5. `lemmaText = ''`:定义了一个空字符串变量lemmaText,用于存储词形还原后的文本。

6. `for token in doc:`:对文档对象doc中的每个词元进行循环遍历。

7. `lemmaText += token.lemma_ + ' '`:将当前词元的词形还原结果(使用lemma_属性获取)添加到lemmaText字符串变量中,并在词元之间添加空格。

8. `print(lemmaText.replace('\n',''))`:打印输出词形还原后的文本,将其中的换行符替换为空字符串。

总结:该代码使用spacy库对给定的文本进行词法分析和词形还原操作,并将词形还原后的文本打印输出。

请注意,你需要安装spacy库,并下载相应的语言模型(如'en_core_web_sm')以便使用spacy的相关功能。同时,你还需要了解词法分析和词形还原的概念和使用方法。

运行结果如下:

our responsibility be to rally and lead the entire Party and the people of all China's ethnic group in take on this task and continue to pursue the goal of the rejuvenation of the chinese nation . 


每日啃一段代码,日积月累,我们可以跨越这条鸿沟,若是还未入门Python,可加入我们的粉丝群免费获取《第一本书Python》,快速入门!

往期代码合集可后台回复代码分享或者加入翻译圈粉丝群获取,粉丝群还有其它资源哦!



参考书藉:Python语言数据分析 管新潮 著



声明:本公众号转载此文章是出于传播行业资讯、洞见之目的,如有侵犯到您的合法权益,请致信:532541801@qq.com,我们将及时调整处理。谢谢支持!【语言服务行业】分享群

群内会定期推送语言服务行业最新动态、活动预告、竞赛通知📝等内容~


欢迎你的加入🥰!



-END-
本文转载自:翻译圈转载编辑:Jerry


关注我们,获取更多资讯!

往期回顾

行业动态1. 会议邀请 | 第二十届全国科技翻译研讨会
2. 论坛预告 | 全球视野下国家战略传播与翻译专业人才培养创新论坛(最新通知)
3. 明晚7点 | 科技翻译的前世今生——第20届全国科技翻译研讨会系列沙龙4. 行业动态|首届外语学科横向课题拓展与管理研修班5. 论坛预告 | 2023·海南国际翻译产业与人才发展论坛三号公告

行业洞见
  1. 行业观察  | 大语言模型能否实现机器翻译同传?
  2. 行业动态 | 李宇明——语言是文化的鸿沟与桥梁
  3. 行业洞见 | 李晗佶老师:技术哲学视阈下的翻译技术
  4. 行业观察 | 贾艳芳老师:始于兴趣,长于实践,技术之路常学常新


行业技术
  1. 技术科普 | 术语转换的基础知识
  2. 技术应用|代码分享——将文本直接转换为段落列表
  3. 技术应用|如何利用Excel快速制作术语表
  4. ChatGPT | 中科院学术优化本地部署
  5. ChatGPT | 基于OpenAI Whisper模型的WhisperDesktop转写工具

精品课程
  1. 行业动态|首届外语学科横向课题拓展与管理研修班
  2. 新课来袭 | 开启倒计时!AI时代掀起影视字幕翻译的智能革命
  3. 基础篇 | 从入门到进阶:语料库建设与统计分析实务
  4. 进阶篇 | 从进阶到精通:基于Python的语言数据分析实战



资源干货
  1. 技术科普 | 揭开手写文本识别“最先进”的秘密
  2. 资源干货 | 英语外刊获取途径、网站推荐
  3. ChatGPT | AI外语写作助手,助力高效写作
  4. 双语干货 | 谢锋大使向中美媒体发表讲话
  5. 资源宝库|译者用“典”,多多益善——精选31款在线词典

招聘就业1. 博硕星睿 | 办公室实习助理招聘(北京)
2. 博硕星睿 | 好的平台,“职”等你来3. 译者招募丨英译中,经济学(有署名)4. 招聘快报 | CNBC财经电视台上海分公司招聘发行部助理实习生5. CATTI备考在即,备考实习两不误,硬核语言专业线上实习机会来了!
继续滑动看下一个
语言服务行业
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存