其他

一周 Github Trending 热门项目,最全中华古诗词数据库 | Github 项目推荐

2018-02-08 孔令双 AI研习社

Chinese-poetry 是本周 Github Trending 热门项目,截至 2 月 7 日,该项目已经获得了 2.5k 个「star」以及 199 个「fork」。

该诗词数据库包含5.5万首唐诗、26万首宋诗和 2.1 万首宋词. 唐宋两朝近 1.4 万古诗人, 和两宋时期 1.5K 词人,数据均来源于互联网。

数据库作者 Jackey Gao 认为,古诗是中华民族乃至全世界的瑰宝,我们应该传承下去,虽然有古典文集,但大多数人并没有拥有这些书籍。从某种意义上来说,这些庞大的文集离我们是有一定距离的,而电子版方便拷贝,所以此开源数据库诞生了。你可以用此数据做任何有益的事情,作者也可以帮助你。

古诗采集没有记录过程,因为古诗数据庞大,目标网站有限制,采集过程经常中断超过一个星期。2017年新加入全宋词,全宋词爬取过程及数据分析:https://jackeygao.io/words/crawl-ci.html。

Github 主页:https://github.com/chinese-poetry/chinese-poetry

数据库官方页面:http://shici.store/

作者个人网站:https://jackeygao.io/

  数据分析

一些简单的高频分析

       唐诗高频词

    唐诗作者作品榜

宋诗高频词

宋诗作者作品榜

宋词高频词

宋词作者作品榜


                       两宋喜欢的词牌名

  数据分发形式

古诗数据分发采用繁体字的分组 JSON 文件,保留繁体能更大程度地保存原数据。宋词数据分发采用 sqlite 数据库,使用简体字(无原因,采集源就是简体,如需繁体请自行转换)。

其他类型结构数据

  • KomaBeyond / chinese-poetry-mysql 适用于 mysql 数据库的格式数据

  • (链接:https://github.com/KomaBeyond/chinese-poetry-mysql)

古诗 JSON 结构

[
 {
   "strains": [
     "平平平仄仄,平仄仄平平。",
     "仄仄平平仄,平平仄仄平。",
     "平平平仄仄,平仄仄平平。",
     "平仄仄平仄,平平仄仄平。"
   ],
   "author": "太宗皇帝",
   "paragraphs": [
     "秦川雄帝宅,函谷壯皇居。",
     "綺殿千尋起,離宮百雉餘。",
     "連甍遙接漢,飛觀迥凌虛。",
     "雲日隱層闕,風煙出綺疎。"
   ],
   "title": "帝京篇十首 一"
 },
 ... 每单个JSON文件1000条唐诗记录.
]

作者 JSON 结构

[
 {
   "name": "太宗皇帝",
   "desc": "帝姓李氏,諱世民,神堯次子,聰明英武。貞觀之治,庶幾成康,功德兼隆。由漢以來,未之有也。而銳情經術,初建秦邸,即開文學館,召名儒十八人爲學士。既即位,殿左置弘文館,悉引內學士,番宿更休。聽朝之間,則與討論典籍,雜以文詠。或日昃夜艾,未嘗少怠。詩筆草隸,卓越前古。至於天文秀發,沈麗高朗,有唐三百年風雅之盛,帝實有以啓之焉。在位二十四年,諡曰文。集四十卷。館閣書目,詩一卷,六十九首。今編詩一卷。"
 },
 ...]

  案例展示

  • animalize / QuanTangshi 离线全唐诗 Android

  • (链接:https://github.com/animalize/QuanTangshi)

  • justdark / pytorch-poetry-gen a char-RNN based on pytorch

  • (链接:https://github.com/justdark/pytorch-poetry-gen)

  • Clover27 / ancient-Chinese-poem-generator Ancient-Chinese-Poem-Generator

  • (链接:https://github.com/Clover27/ancient-Chinese-poem-generator)

  • chinese-poetry / poetry-calendar 诗词周历

  • (链接:http://shici.store/poetry-calendar/)

  公众号

  • PoemSearcher

  贡献&讨论

提交 issue 来优化完善此数据库,你也可以联系作者的邮箱 gaojunqi@outlook.com

创建和维护 chinese-poetry 需要花费很多的时间和资源。如果此数据库对您有很大的帮助,请酌情考虑打赏作者(https://jackeygao.io/donation.html)。



新人福利




关注 AI 研习社(okweiwu),回复  1  领取

【超过 1000G 神经网络 / AI / 大数据,教程,论文】



玩机器学习要知道哪些开源数据库?

▼▼▼

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存