一日一技：怎么中文也属于字母？

Original kingname 未闻Code 2024-03-20

摄影：产品经理

佛跳墙

我最近在使用一个第三方库，叫做RapidFuzz。它有一个工具函数，叫做utils.default_process，在官方文档里面，是这样介绍的：

红色方框里面说，这个函数可以移除所有的非alphanumeric字符。如果我们使用翻译软件，会发现alphanumeric的意思是字母和数字。如下图所示：

因此，我想当然觉得，这个功能函数，只会保留26个英文字母的大小写加上10个数字，一共62个字符。把除此之外的所有其他字符都移除掉。

但我经过测试，它竟然没有办法过滤掉中文字符，如下图所示。难道终于也属于字母？

于是我到Github上面去给这个项目提Issue。但作者却说这个函数没有问题，并且使用Python的.isalnum()来做测试，发现Python也会认为中文也是alphanumeric。如下图所示：

这就非常奇怪了，于是我找到Python官方文档，发现它是这样说的：

str.isalnum()^[1]
Return True if all characters in the string are alphanumeric and there is at least one character, False otherwise. A character c is alphanumeric if one of the following returns True: c.isalpha(), c.isdecimal(), c.isdigit(), or c.isnumeric().

说明'中文'.isalnum()返回True，显然是因为'中文'.isalpha()返回了True。而之所以.isalpha()会返回True，是因为它判断的不仅仅是英文字母，而是所有Unicode里面，类别为letter的字符：

str.isalpha()^[2]
Return True if all characters in the string are alphabetic and there is at least one character, False otherwise. Alphabetic characters are those characters defined in the Unicode character database as “Letter”, i.e., those with general category property being one of “Lm”, “Lt”, “Lu”, “Ll”, or “Lo”.

在Unicode标准网站UAX #44: Unicode Character Database^[3]上面，可以看到它这里定义的Lm、Lt、Lu、Ll和Lo的意思：

我们使用Python自带的unicodedata模块，可以看到中文字符的类型，确实是Lo，如下图所示：

所以，'中文'.isalpha()返回True确实是合理的。

以后看到alphanumeric，再也不要以为只有62个字符了。

参考资料

[1]

Link to this definition: https://docs.python.org/3/library/stdtypes.html#str.isalnum

[2]

Link to this definition: https://docs.python.org/3/library/stdtypes.html#str.isalpha

[3]

UAX #44: Unicode Character Database: https://unicode.org/reports/tr44/#General_Category_Values

未闻Code Telegram Channel开通了！每天都有各种开发小技巧更新，速来！！

END

未闻 Code·知识星球开放啦！

一对一答疑爬虫相关问题

职业生涯咨询

面试经验分享

每周直播分享

......

未闻 Code·知识星球期待与你相见~

一二线大厂在职员工

十多年码龄的编程老鸟

国内外高校在读学生

中小学刚刚入门的新人

在“未闻 Code技术交流群”等你来！

入群方式：添加微信“mekingname”，备注“粉丝群”（谢绝广告党，非诚勿扰！)

继续滑动看下一个

未闻Code

向上滑动看下一个

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突认定该生系高空坠落死亡

桐城一派｜倒在“跨年夜”的龚书记，13个字换来免职调查冤不冤？

市管干部“龚书记”免职迷局

讣告！又一知名女星在家中去世，终年54岁，曾是无数人白月光…

“我，19岁，瞒着父母把留学的钱，在北京买了套房，如今……”

一日一技：怎么中文也属于字母？

您可能也对以下帖子感兴趣

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突 认定该生系高空坠落死亡

桐城一派｜倒在“跨年夜”的龚书记，13个字换来免职调查冤不冤？

市管干部“龚书记”免职迷局

讣告！又一知名女星在家中去世，终年54岁，曾是无数人白月光…

“我，19岁，瞒着父母把留学的钱，在北京买了套房，如今……”

生成图片，分享到微信朋友圈

一日一技：怎么中文也属于字母？

您可能也对以下帖子感兴趣

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突认定该生系高空坠落死亡