技术流:汉字高频字探讨
题外话:
大家好,我是一线老师林敏,
我的学习公众号是sosuo8
分享一些原创的素材。不定期更新。
工作一忙就会断一些时间。
如果你期待我更多的作品,
请多多支持我的原创。
谢绝二次上传或倒卖。
公众号主要分享一些自制
学习素材或中华特色手工。
我们发现,现在各种汉语材料越出越多。
几乎每种,都有自己的字表,级别。
(注意,因为我们知道汉语言博大精深,我只计算了汉字,其实还有词频,词语组合,
但是那个对我目前能力来说,太难了。
我目前只讨论:假如一个字本身都不认识,那更不要说一个词语组合了。
另外,每种教材的编排,肯定是有它一定的道理的,我只做个统计比较。并不能说,我统计出的字表就是最完善的。)
我们能找到各种高频字表,现代常用字表。
但是大部分是默认根据母语是汉语的情况下,
按照报刊书籍归纳的汉字,
很多字出现率虽然高,似乎不适合儿童(比如“建”)。
于是,我打算借助计算机大数据来算一算。
(哈哈哈,其实也没这么高大尚)
以下我写完的界面。
(汉字分析时生字有乱码,但不影响正确性)
http://1.gongpai.sinaapp.com/function_pages/in_put_cipin.php
大家可以复制到电脑,打开测试一下。
(注意:我的高频字100,是从一级字里面提取出来的,
所以你勾了一级字,就不用再勾选高频100字了)
只要有文字数据,其实计算起来还是很方便的。
可以给大家一个简单的了解。
下图是我以前写的,“去掉重复汉字”功能,有了这个过程,我就可以去掉一些不必要的重复计算,让我的计算更精确。
比如,一篇文章里,你不认识 “栩栩如生”,我只记算 “栩如生”,
因为很明显,你只要认识一个“栩”,另一个字必然也是认识的。如果这个字多次出现在文章里,
我们实际上只能算一个生字。
然后,我下载了一些目前比较权威的零基础识字材料。
小教材不作讨论。
把这些汉字,都收集到一起,然后按他们在教材里出现的先后顺序,给出分值。
并且,我多次去掉重复汉字,减少误差值。
总结出了一个字表。
我设定为随机抽取试验,百度关键字,默认取第一个链接就用来做试验。
分析结果,我的字表生字率是最少的。
假设儿童的材料没问题,我又用了成年人阅读的新闻做试验。
结果没让我失望,生字率依然是最低的。
我继续用学生日记做试验,同样取百度第一位链接。
试验结果很开心。
顺手点了故事旁边时事“世界杯日记”。
我的字表四级是1500汉字,试验结果发现,
和HSK四级比,生字率少很多。
而和HSK 一到五级生字率差不多。
最后,我又试了试儿童故事。
这次,我用YCT的一级(约99字)和我的高频字100做比较。
(为什么用YCT?因为YCT本身是针对儿童的材料,并且99字和我的100字差不多字数。
如果按HSK1级,有176字,比我的高频100字多了快一倍汉字了,这个比较就不科学了。)
每次计算,汉字的权重值都会变化,不过大概级别框架就这样了。
因为,光有字表,没有材料是不够的,
所以,我打算接下来收集一下分级文字材料。
当然,如果你有更好的建议和意见,欢迎跟我讨论。
开篇我就放了,我再放一次。
(一定要用电脑打开,微信打不开)
http://1.gongpai.sinaapp.com/function_pages/in_put_cipin.php
中文可能有乱码,不影响正确性。