查看原文
其他

可视化 | 使用 DataMapPlot 绘制数据地图

大邓 大邓和他的Python
2024-09-10

DataMapPlot库可绘制漂亮的数据地图,以便应用于演示文稿、海报和论文中。重点是用尽可能少的工作量生成美观的静态图, 您只需在数据地图中标记点簇。虽然这涉及到大多数美学选择的自动化,但该库提供了多种方法来根据您的需求定制结果图。


一、安装

pip3 install datamapplot



二、准备数据

2.1 读取arxiv.csv.gz

下载 arxiv.csv.gzhttps://textdata.cn/blog/2024-01-21-datamapplot/arxiv.csv.gz)

该数据有 x1x2label 三个字段,其中

  • x1、x2是降维后的特征信息,常见的降维算法有pca、UMAP, t-SNE等
  • label是标注(类别)信息
df = pd.read_csv('arxiv.csv.gz', compression='gzip')
df


2.2 录入logo

使用PIL读取 arxiv_logo.png,并转化为array数组型数据。

https://textdata.cn/blog/2024-01-21-datamapplot/img/arxiv_logo.png


import PIL
import numpy as np

arxiv_logo = np.asarray(PIL.Image.open('arxiv_logo.png'))



三、绘图

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import matplotlib_inline
matplotlib_inline.backend_inline.set_matplotlib_formats('png''svg')
import PIL



df = pd.read_csv('arxiv.csv.gz', compression='gzip')
data_map_coords, labels = np.array(df[['x1''x2']]), df['label']
arxiv_logo = np.asarray(PIL.Image.open('arxiv.png'))
highlight_labels =  ["Clustering",
                     "Manifold learning and dimension reduction",
                     "Active learning",
                     "Topic modelling and text classification"]


datamapplot.create_plot(
    data_map_coords, 
    labels,
    title = "ArXiv ML Landscape",
    sub_title = "A data map of papers from the Machine Learning section of ArXiv",
    highlight_labels = highlight_labels,
    label_font_size = 8,
    highlight_label_keywords = {
        "fontsize"12"fontweight""bold""bbox":{"boxstyle":"circle""pad":0.75}
    },
    logo=arxiv_logo,
)

plt.savefig('arxiv_white.png', dpi=200)

三、Gallery

更多内容,可阅读文档  DataMapPlot:   

https://github.com/TutteInstitute/datamapplot



精选内容

LIST | 社科(经管)可用数据集列表
LIST | 文本分析代码列表
LIST | 社科(经管)文本挖掘文献列表
管理科学学报 | 使用「软余弦相似度」测量业绩说明会「答非所问程度」
数据集  | 人民网政府留言板原始文本(2011-2023.12)
数据集  |  人民日报/经济日报/光明日报 等 7 家新闻数据集
可视化 | 人民日报语料反映七十年文化演变
数据集 | 2024年中国全国5级行政区划(省、市、县、镇、村)
数据集 | 三板上市公司年报2002-2023.12
数据集 | 人民网地方领导留言板原始文本(2011-2023.12)
数据集 | 3571万条专利申请数据集(1985-2022年)
数据集 |  专利转让数据集(1985-2021)
数据集 | 288w政府采购合同公告明细数据(2023.09)
数据集 | 用来练习pandas的招聘数据
代码 | 使用 3571w 专利申请数据集构造面板数据
代码 | 使用「新闻数据集」计算 「经济政策不确定性」指数
数据集 | 国省市三级gov工作报告文本
代码 | 使用「新闻数据」生成概念词频「面板数据」
代码 | 使用 3571w 专利申请数据集构造面板数据
代码 | 使用gov工作报告生成数字化词频「面板数据」
Polars库 | 最强 Pandas 平替来了
cpca库 | 中国省、市区划匹配库
继续滑动看下一个
大邓和他的Python
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存