当年锥子的大爆炸，如今12个语言版本都可轻松搞定！

查看原文

其他

当年锥子的大爆炸，如今12个语言版本都可轻松搞定！

Original Huber Github中文社区 2020-10-08

收录于话题

#中文社区重点推荐

8个

点击上方“Github中文社区”，关注

看遍Github好玩的项目

第011期原创分享作者:huber

大家好，我是Hub哥！又被Hub友们催更了。

这些天，刷抖音看到罗永浩老师的直播带货，发现了老罗的一些变化，头发少了几千根啊（瞎猜的），言行举止少了往日怼天怼地的犀利，没有了让人怀念的单口相声，而且好几次在直播间翻车了，不禁让我想起了当初做手机时的老罗，情怀与工匠精神，追求极致毫不妥协，每期发布会精彩的相声，金句频出流传至今…… 真是万分感概……

不知大家是否还记得，老罗当年带领的锤子科技，推出最经典的一款手机M1 ，伴随而出的系统Smartisan OS 3.1系统，其中一个主打功能，让当时发布会的观众们瞬间都沸腾了

为什么观众们都沸腾了呢？因为该功能解决了手机用户们长期的一个交互痛点：如果在一长段文字中，只需要提取其中一部分，然后再次组合编辑成一句新的句子。

用当时老罗的话说：你需要用一根胡萝卜一样的手指头，在一块小屏幕上不断重复地复制、粘贴、拖拽着一个小小的光标在文字中到处定位，这是一件让人抓狂的事！

就像下图这样：

图片来自优酷

其实这个问题是每个手机用户都感受过的，当时的老罗大发神威，指导着研发团队推出一了锤子系统的一个主打功能之一：大爆炸（Big Bang）

相信不少童鞋已经了解过大爆炸这个功能了，这里再简单描述一下：

你可在手机的任何场景下，用拇指大面积按压屏幕中的文字，“Big Bang”会将按住的那段文字全部“炸”开，智能分解、供你任意操作。

图片来自优酷

虽然已隔多年，但大爆炸在当时，那叫一个香！而其它品牌的手机用户对这个功能真是羡慕嫉妒恨，纷纷嚷嚷着让自己的手机品牌赶紧推出类似功能！

然而这样一个功能，核心技术并不在UI交互，而是幕后的分词引擎，而目前类似的分词技术不止一种，当时的老罗也决定让大爆炸这个技术开源了：

GitHub地址：

https://github.com/SmartisanTech/android

目前已经收获star2.5k

然而！！！本文主要讲的，却是另一个项目！

对不住了罗老师！😂😂😂😂

这个项目就是： 结巴中文分词（jieba）

“结巴”………这名字取的真形象。那为什么要介绍结巴，而不是大爆炸？因为结巴更通用，已经支持了12个语言版本

先来看一下该项目的基本数据：

GitHub地址：https://github.com/fxsjy/jieba

该项目主版本是以Python组件方式提供的中文分词框架，大家都知道，Python用途广泛。然而无论是前端还是后端，这个分词组件在数据分析，爬虫，搜索引擎中的关键词处理等领域都有很大帮助

接下来，一起来看看结巴中文分词的一些特征：

结巴分词的特点：

支持繁体分词
支持自定义词典
MIT 授权协议
支持4种分词模式

4种分词模式：

精确模式，试图将句子最精确地切开，适合文本分析；
全模式，把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义；
搜索引擎模式，在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。
paddle模式，利用Paddle深度学习框架，训练序列标注（双向GRU）网络模型实现分词。同时支持词性标注。paddle模式使用需安装paddlepaddle-tiny，pip install paddlepaddle-tiny==1.6.1。目前paddle模式支持jieba v0.40及以上版本。jieba v0.40以下版本，请升级jieba，pip install jieba --upgrade 。

算法：

基于前缀词典实现高效的词图扫描，生成句子中汉字所有可能成词情况所构成的有向无环图 (DAG)
采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合
对于未登录词，采用了基于汉字成词能力的 HMM 模型，使用了 Viterbi 算法

来看一个示例：

# encoding=utf-8import jieba

jieba.enable_paddle()# 启动paddle模式。0.40版之后开始支持，早期版本不支持strs=["我来到北京清华大学","乒乓球拍卖完了","中国科学技术大学"]for str in strs: seg_list = jieba.cut(str,use_paddle=True) # 使用paddle模式 print("Paddle Mode: " + '/'.join(list(seg_list)))

seg_list = jieba.cut("我来到北京清华大学", cut_all=True)print("Full Mode: " + "/ ".join(seg_list)) # 全模式

seg_list = jieba.cut("我来到北京清华大学", cut_all=False)print("Default Mode: " + "/ ".join(seg_list)) # 精确模式

seg_list = jieba.cut("他来到了网易杭研大厦") # 默认是精确模式print(", ".join(seg_list))

seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所，后在日本京都大学深造")  # 搜索引擎模式

print(", ".join(seg_list))

上面代码输出结果：

【全模式】: 我/ 来到/ 北京/ 清华/ 清华大学/ 华大/ 大学

【精确模式】: 我/ 来到/ 北京/ 清华大学

【新词识别】：他, 来到, 了, 网易, 杭研, 大厦    (此处，“杭研”并没有在词典中，但是也被Viterbi算法识别出来了)

【搜索引擎模式】：小明, 硕士, 毕业, 于, 中国, 科学, 学院, 科学院, 中国科学院, 计算, 计算所, 后, 在, 日本, 京都, 大学, 日本京都大学, 深造

语言版本

令人鸡冻的是，结巴这个项目中，已经有多位作者贡献出了各种语言的版本，因此大多出开发者都可以简单快速地使用这个项目了：

结巴分词 Java 版本

作者：piaolingxue

地址：https://github.com/huaban/jieba-analysis

结巴分词 C++ 版本

作者：yanyiwu

地址：https://github.com/yanyiwu/cppjieba

结巴分词 Rust 版本

作者：messense, MnO2

地址：https://github.com/messense/jieba-rs

结巴分词 Node.js 版本

作者：yanyiwu

地址：https://github.com/yanyiwu/nodejieba

结巴分词 Erlang 版本

作者：falood

地址：https://github.com/falood/exjieba

结巴分词 R 版本

作者：qinwf

地址：https://github.com/qinwf/jiebaR

结巴分词 iOS 版本

作者：yanyiwu

地址：https://github.com/yanyiwu/iosjieba

结巴分词 PHP 版本

作者：fukuball

地址：https://github.com/fukuball/jieba-php

结巴分词 .NET(C#) 版本

作者：anderscui

地址：https://github.com/anderscui/jieba.NET/

结巴分词 Go 版本

作者: wangbin

地址: https://github.com/wangbin/jiebago

作者: yanyiwu

地址: https://github.com/yanyiwu/gojieba

结巴分词Android版本

作者 Dongliang.W

地址：https://github.com/452896915/jieba-android

加上项目本身的Python版本，整整12个版本！已足够各路开发者们使用

思考

这样一个项目，相信大多数的应用场景，还是会在客户端，如果手机系统没有内置类似功能，强烈建议各大APP集成类似功能，这样能提升不小用户体验，试想现在哪个APP没有社区模块？有社区就有文字编写，例如评论，发贴等等。文本编辑类的APP就更不用说了

当然了，这样的分词功能，对前后端常规应用、大数据分析，也会有不小的助力，比如最常见的搜索功能：当用户在搜索框输入 “男士黑色大裤衩”，可分词为男士，黑色，大裤衩，然后再次走组合精确搜索流程

使用场景欢迎大家补充

最后

罗老师，本文虽然讲的不是大爆炸，但我依然是您的粉丝，会继续支持您，会去您直播间喊666 😂

OK！到这就是这期分享

如果觉得文章有意思，请点赞在看，分享。

历史原创

★ 520被女友拉黑后，我用程序员土味十足的情话表白，终于追了回来，真香！★ 厉害了！大四学生发明文言文编程！让汉语言系女神老师哭晕在厕所里！★ 再见，VS Code ！你好，GitHub！★ 真够色！这个AI项目让画师们激动中又透露着瑟瑟发抖！忍不住想尝试

点个在看呗！

常德悲剧：让谴责无差别杀戮之声更加响亮一点

2024【公共营养师】培训报名通道已开启，不限学历，23岁及以上可报！还能领2000补贴

【惊】"以为要写遗书"! 飞温哥华航班遇炸弹气旋华人崩溃大哭连空姐都吐了; 客机颠簸盘旋3小时

魏加宁：日本之所以能走出“大衰退”，靠的是不断改革，而不是所谓“积极的财政政策”

国内突然宣布，将大规模调整经济布局！又一朝阳行业悄然崛起，新一轮机会出现了！