另类!这项目没有一行代码,30k star 和 近40w的内容收录,登顶GitHub热榜
看遍Github好玩的项目
第015期原创分享 作者:huber
大家好,我是hub妹,咱们又见面了!
最近看到小侄女整天抱着pad背诵古诗词,让我想起了自己曾经背诵诗词的苦逼时代,那时候没pad, 都是抱着课本啃,背不完当天任务就不让回家,现在想起来都有阴影……
那么问题来了:她们pad里的古诗词,数据都是哪来的?APP厂家自己收集的?还是有公共数据资源? 好奇之下网上查了一下,居然发现了GitHub上有这么个让人鸡冻的项目 : chinese-poetry
这可真是一个情怀项目啊,来自几十位贡献者,搜集出了最全的中华古典文集数据库,包含5.5 万首唐诗、26 万首宋诗、2.1 万首宋词和其他古典文集。诗人包括唐宋两朝近1.4 万古诗人,和两宋时期 1.5 千古词人。数据基本都是来源于互联网。
而且目前已经收获 Star 近 30k !
这么受欢迎的数据,把诗人们都给激动坏了:
为什么要做这个仓库?
据官方简介:古诗是中华民族乃至全世界的瑰宝,我们应该传承下去,虽然有古典文集,但大多数人并没有拥有这些书籍。从某种意义上来说,这些庞大的文集离我们是有一定距离的。而电子版方便拷贝,所以此开源数据库诞生了。此数据库通过 JSON 格式分发,可以让你很方便的开始你的项目。
词频分析
项目对数据库做了一个初步的词频分析,不过用现代技术去分析古诗词,总感觉怪怪的呢?😂 这里列举部分词频分析图:
宋词受欢迎的词牌名:
宋词高频词:
宋词作者榜:
唐诗高频词:
唐诗作者榜:
已含数据集
每一个集合可直接点击进入子集,比如我点击诗经后,进入了诗经的子集页面,有进一步介绍:
诗经
中国最早诗歌总集, 《诗经》,是中国古代诗歌开端,最早的一部诗歌总集,收集了西周初年至春秋中叶(前11世纪至前6世纪)的诗歌,共311篇,其中6篇为笙诗,即只有标题,没有内容,称为笙诗六篇(南陔、白华、华黍、由康、崇伍、由仪),反映了周初至周晚期约五百年间的社会面貌。来自百科
数据格式
shijing.json
[
{
"title": "关雎",
"chapter": "国风",
"section": "周南",
"content": [
"关关雎鸠,在河之洲。窈窕淑女,君子好逑。",
"参差荇菜,左右流之。窈窕淑女,寤寐求之。",
"求之不得,寤寐思服。悠哉悠哉,辗转反侧。",
"参差荇菜,左右采之。窈窕淑女,琴瑟友之。",
"参差荇菜,左右芼之。窈窕淑女,钟鼓乐之。"
]
}
应用案例
项目还提供了数个应用案例:
咱们就点第一个案例看一下效果:
关于贡献
目前已经聚集了近30位贡献者
贡献的方式也很简单,可用自己的方式将采取到的古诗词以JSON格式按照项目官方标准提交即可
传送门
https://github.com/chinese-poetry/chinese-poetry
写在最后
中文诗词,之所以让人们从古至今都在学习,是因为那都是古人们思想与智慧的结晶,大家来随便欣赏几句李白被网友们评为最狂的诗句:
十步杀一人,千里不留行。 事了拂衣去,深藏身与名。 ——《侠客行》 仰天大笑出门去,我辈岂是蓬蒿人。 ——《南陵别儿童入京》 兴酣落笔摇五岳,诗成笑傲凌沧洲。 ——《江上吟》 |
这个项目是一个典型的,拿GitHub当公共数据库使用的项目😂😂,这种方式简单并且方便维护,贡献者直接上传json文件就行,应用端对数据获取也很方便直接,开发者们能如此快捷的使用这些数据,都要归功于这些无私的贡献者们
大家请起立,为贡献者们鼓掌
历史原创
★ 卧槽!红色警戒游戏源代码被开源了!★ 毫无破绽!用这个开源项目换了张脸后,连女朋友都难分真假,能否骗过刷脸支付?★ 强!这个GitHub官方终端命令行工具!星标10K!真是让人相见恨晚啊★ 当年锤子的大爆炸,如今12个语言版本都可轻松搞定!
点个在看呗!