查看原文
其他

史上最大规模1.4亿中文知识图谱开源下载

大邓 大邓和他的Python 2022-07-09

知识就是力量,知识图谱是人工智能新时代的产物,简单地说知识图谱就是通过关联关系将知识组成网状的结构,然后我们的人工智能可以通过这个图谱来认识其代表的这一个现实事件,这个事件可以是现实,也可以是虚构的。

本次ownthink开源了史上最大规模的中文知识图谱,数据是以

  • 实体、属性、值

  • 实体、关系、实体

混合的形式组织,采用csv数据格式,ownthink_v2.csv下载链接见文末。

ownthink_v2.csv文件8.57G,直接读取肯定会很慢很卡。

先读取前5条数据看看样子

下面的代码是可迭代读取方式

  1. import pandas as pd


  2. chunks = pd.read_csv('ownthink_v2.csv', iterator=True)

  3. chunk = chunks.get_chunk(5)

  4. print(type(chunk))

  5. chunk

  1. <class 'pandas.core.frame.DataFrame'>

分块读取

  1. import pandas as pd


  2. max_times = 10

  3. readers = pd.read_csv('ownthink_v2.csv', chunksize=5)

  4. for reader in readers:

  5. reader

  6. #做一些查询

到现在我也不知道有多少行,实在是太大了。

如果想获取某个实体的属性和值,可以使用pd.read_csv的chunksize分批读取,这里我每批次读取5条数据,总共就显示50行就结束程序

  1. import pandas as pd


  2. max_times = 10


  3. readers = pd.read_csv('ownthink_v2.csv', chunksize=5)


  4. for reader in readers:

  5. if max_times>0:

  6. print(reader)

  7. max_times-=1

  8. else:

  9. break

Run

  1. 实体 属性 值

  2. 0 胶饴 描述 别名: 饴糖、畅糖、畅、软糖。

  3. 1 词条 描述 词条(拼音:cí tiáo)也叫词目,是辞书学用语,指收列的词语及其释文。

  4. 2 词条 标签 文化

  5. 3 红色食品 描述 红色食品是指食品为红色、橙红色或棕红色的食品。

  6. 4 红色食品 中文名 红色食品

  7. 实体 属性 值

  8. 5 红色食品 是否含防腐剂 否

  9. 6 红色食品 主要食用功效 预防感冒,缓解疲劳

  10. 7 红色食品 适宜人群 全部人群

  11. 8 红色食品 用途 增强表皮细胞再生和防止皮肤衰老

  12. 9 红色食品 标签 非科学

  13. 实体 属性 值

  14. 10 红色食品 标签 生活

  15. 11 大龙湫 描述 雁荡山景区分散,东起羊角洞,西至锯板岭;南起筋竹溪,北至六坪山。

  16. 12 大龙湫 中文名称 大龙湫

  17. 13 大龙湫 外文名称 big dragon autrum

  18. 14 大龙湫 地理位置 浙江省温州市雁荡山景区

  19. 实体 属性 值

  20. 15 大龙湫 开放时间 08:00~18:00

  21. 16 大龙湫 门票价格 50元

  22. 17 大龙湫 著名景点 芙蓉峰

  23. 18 大龙湫 著名景点 剪刀峰

  24. 19 大龙湫 著名景点 连云嶂

  25. 实体 属性 值

  26. 20 大龙湫 著名景点 经行峡‍

  27. 21 大龙湫 所属国家 中国

  28. 22 大龙湫 所属城市 浙江省温州市

  29. 23 大龙湫 建议游玩时长 2小时

  30. 24 大龙湫 适宜游玩季节 6月-8月

  31. 实体 属性 值

  32. 25 大龙湫 标签 景观景点

  33. 26 大龙湫 标签 旅游

  34. 27 大龙湫 标签 地理

  35. 28 大龙湫 标签 地形地貌

  36. 29 五大夫松 描述 五大夫松位于云步桥北侧的五松亭旁。

  37. 实体 属性 值

  38. 30 五大夫松 中文名称 五大夫松

  39. 31 五大夫松 地理位置 云步桥北侧的五松亭旁

  40. 32 五大夫松 门票价格 无需门票,包含在泰山景区门票内。

  41. 33 五大夫松 建议游玩时长 建议1小时

  42. 34 五大夫松 所属国家 中国

  43. 实体 属性 值

  44. 35 五大夫松 所属城市 山东省泰安市

  45. 36 五大夫松 标签 旅游

  46. 37 五大夫松 标签 地理

  47. 38 五大夫松 标签 地点

  48. 39 五大夫松 标签 历史

  49. 实体 属性 值

  50. 40 灵峰 描述 灵峰为雁荡山的东大门景区,总面积约46平方公里。

  51. 41 灵峰 中文名称 灵峰

  52. 42 灵峰 别名 东大门景区

  53. 43 灵峰 行政区类别 景区

  54. 44 灵峰 所属地区 雁荡山

  55. 实体 属性 值

  56. 45 灵峰 政府驻地 乐清市

  57. 46 灵峰 电话区号 0577

  58. 47 灵峰 邮政区码 325600

  59. 48 灵峰 地理位置 浙江省温州乐清境内

  60. 49 灵峰 面积 46平方公里

数据下载方式:

关注思知机器人回复【数据下载】获取下载链接

百度网盘 https://pan.baidu.com/s/1LZjs9Dsta0yD9NH-1y0sAw 提取码: 3hpp 解压密码是:https://www.ownthink.com/

阿里云下载https://nebula-graph.oss-accelerate.aliyuncs.com/ownthink/kg_v2.tar.gz


近期文章

Python网络爬虫与文本数据分析

代码不到40行的超燃动态排序图

使用Python自动生成事件分析图谱

如何使用Adaboost预测下一次营销活动的效果

使用networkx及matplotlib库实现社会网络分析及可视化

计算社会经济学

Loughran&McDonald金融文本情感分析库

使用分析师报告中含有的情感信息预测上市公司股价变动

日期数据操作第1期 datetime库

日期数据操作第2期 pandas库

【公开视频课】Python语法快速入门

【公开视频课】ython爬虫快速入门

文本数据分析文章汇总(2016-至今)

当文本分析遇到乱码(ง'⌣')ง怎么办?

当pandas遇上数据类型问题

如何理解pandas中的transform函数

一行pandas代码生成哑变量

Python最被低估的库,用好了效率提升10倍!

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存