查看原文
其他

推荐一份中文数据,来试试汉字、词语、成语、歇后语在线检索

52nlp AINLP 2020-10-22

前段时间给公众号新增了一个成语接龙功能:AINLP公众号对话接口新增成语接龙,这个里面提到的项目用到了一份成语数据,包含了2万多条成语数据和释义。不过这个数据之外,推荐一个更棒的Github项目:

pwxcoo/chinese-xinhua:

https://github.com/pwxcoo/chinese-xinhua

这个项目收录了收录了 14032 条歇后语,16142 个汉字,264434 个词语,31648 个成语,并且以json格式提供了相关数据,非常方便:

项目结构:

chinese-xinhua/
|
+- data/ <-- 数据文件夹
| |
| +- idiom.json <-- 成语
| |
| +- word.json <-- 汉字
| |
| +- xiehouyu.json <-- 歇后语
| |
| +- ci.json <-- 词语

汉字例子:

{
"word": "吖",
"oldword": "吖",
"strokes": "6",
"pinyin": "ā",
"radicals": "口",
"explanation": "喊叫天~地。\n 形容喊叫的声音高声叫~~。\n\n 吖ā[吖啶黄](-dìnghuáng)〈名〉一种注射剂。\n ────────────────—\n \n 吖yā 1.呼;喊。",
"more": "吖 a 部首 口 部首笔画 03 总笔画 06 吖2\nyā\n喊,呼喊 [cry]\n不索你没来由这般叫天吖地。--高文秀《黑旋风》\n吖\nyā\n喊声\n则听得巡院家高声的叫吖吖。--张国宾《合汗衫》\n另见ā\n吖1\nā\n--外国语的音译,主要用于有机化学。如吖嗪\n吖啶\nādìng\n[acridine] 一种无色晶状微碱性三环化合物c13h9n,存在于煤焦油的粗蒽馏分中,是制造染料和药物(如吖啶黄素和奎吖因)的重要母体化合物\n吖1\nyā ㄧㄚˉ\n(1)\n喊叫天~地。\n(2)\n形容喊叫的声音高声叫~~。\n郑码jui,u5416,gbkdfb9\n笔画数6,部首口,笔顺编号251432\n吖2\nā ㄚˉ\n叹词,相当于呵”。\n郑码jui,u5416,gbkdfb9\n笔画数6,部首口,笔顺编号251432"
}

词典例子:

{
"ci": "总计",
"explanation": "1.总共计算。\n2.犹统计。"}

成语例子:

{
"derivation": "清·嬴宗季女《六月霜·恤纬》劝夫人省可闲愁绪,足食丰衣无所虑,何况俺爷贵胄都时誉。”",
"example": "无",
"explanation": "丰衣足食。形容生活富裕。",
"pinyin": "zú shí fēng yī",

"word": "足食丰衣",

"abbreviation": "zsfy"

}

歇后语例子:

{
"riddle": "正月十五云遮月",
"answer": "不露脸"
},
{
"riddle": "正月十五贴门神",
"answer": "晚了半月"
},
{
"riddle": "正月十五贴春联",
"answer": "晚了半月了"
},
{
"riddle": "正月十五卖元宵",
"answer": "抱成团"
},
{
"riddle": "正月十五看花灯",
"answer": "走着瞧"
},
{
"riddle": "正月十五赶庙会",
"answer": "随大流"
}

我把这份数据放到了Elasticsearch里,并且通过ES的Python接口elasticsearch-py提供后端检索服务,现在可以通过AINLP公众号对话接口检索了,感兴趣的同学可以一试,包括:

汉字检索:

词语检索:

成语检索:

歇后语检索:

感兴趣的同学可以关注AINLP公众号,直接公众号对话测试:


    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存