查看原文
其他

技术流:汉字高频字探讨

小林学习室 小林 2023-07-26

题外话:
大家好,我是一线老师林敏,
我的学习公众号是sosuo8 
分享一些原创的素材。不定期更新。
工作一忙就会断一些时间。
如果你期待我更多的作品,
请多多支持我的原创。
谢绝二次上传或倒卖。
公众号主要分享一些自制
学习素材或中华特色手工。


说实话,本篇文章分类,我不知道要归类到哪一类。
我们发现,现在各种汉语材料越出越多。
几乎每种,都有自己的字表,级别。

(注意,因为我们知道汉语言博大精深,我只计算了汉,其实还有词频,词语组合,
但是那个对我目前能力来说,太难了。
我目前只讨论:假如一个字本身都不认识,那更不要说一个词语组合了。
另外,每种教材的编排,肯定是有它一定的道理的,我只做个统计比较。并不能说,我统计出的字表就是最完善的。

到底哪些才是汉字高频字呢?
我们能找到各种高频字表现代常用字表
但是大部分是默认根据母语是汉语的情况下,
按照报刊书籍归纳的汉字,
很多字出现率虽然高,似乎不适合儿童(比如“建”)。

于是,我打算借助计算机大数据来算一算。

(哈哈哈,其实也没这么高大尚)

我先放界面图和成果。
以下我写完的界面。


以下网址,是我的编程的一部分成果
(汉字分析时生字有乱码,但不影响正确性)
http://1.gongpai.sinaapp.com/function_pages/in_put_cipin.php
大家可以复制到电脑,打开测试一下。
(注意:我的高频字100,是从一级字里面提取出来的,
所以你勾了一级字,就不用再勾选高频100字了)

平时我们各位老师也讨论了一下各种教学材料中汉字的重合度。我发表了一些小意见。


只要有文字数据,其实计算起来还是很方便的。
可以给大家一个简单的了解。

好了,接下来大量图片,讲解过程(实际步骤更多,我已省略)。


下图是我以前写的,“去掉重复汉字”功能,有了这个过程,我就可以去掉一些不必要的重复计算,让我的计算更精确。


比如,一篇文章里,你不认识 “栩栩如生”,我只记算 “栩如生”,
因为很明显,你只要认识一个“栩”,另一个字必然也是认识的。如果这个字多次出现在文章里,
我们实际上只能算一个生字

然后,我下载了一些目前比较权威的零基础识字材料。
小教材不作讨论。


把这些汉字,都收集到一起,然后按他们在教材里出现的先后顺序,给出分值。



并且,我多次去掉重复汉字,减少误差值。



经过数天,我用计算机运算,加归纳,

总结出了一个字表。


现在,我就拿它做试验,生字率就是,学了这一级别以后,碰到生字,没学过的汉字的机率。
我设定为随机抽取试验,百度关键字,默认取第一个链接就用来做试验。




分析结果,我的字表生字率是最少的。



假设儿童的材料没问题,我又用了成年人阅读的新闻做试验。




结果没让我失望,生字率依然是最低的。


我继续用学生日记做试验,同样取百度第一位链接。


试验结果很开心。



顺手点了故事旁边时事“世界杯日记”。
我的字表四级是1500汉字,试验结果发现,

和HSK四级比,生字率少很多。

而和HSK 一到级生字率差不多。




最后,我又试了试儿童故事


这次,我用YCT的一级(约99字)和我的高频字100做比较。
(为什么用YCT?因为YCT本身是针对儿童的材料,并且99字和我的100字差不多字数
如果按HSK1级,有176字,比我的高频100字多了快一倍汉字了,这个比较就不科学了。)


每次计算,汉字的权重值都会变化,不过大概级别框架就这样了。


好了,汉字高频字处理就告一段落了,
因为,光有字表,没有材料是不够的
所以,我打算接下来收集一下分级文字材料。

当然,如果你有更好的建议和意见,欢迎跟我讨论。

什么,你问我软件在哪?
开篇我就放了,我再放一次。

(一定要用电脑打开,微信打不开)
http://1.gongpai.sinaapp.com/function_pages/in_put_cipin.php
中文可能有乱码,不影响正确性。










您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存