查看原文
其他

ChatGPT最强的插件更新 | 人人都是数据分析师

Glen Glen 2023-10-10

昨天ChatGPT所属母公司OpenAI,官宣下周会向所有ChatGPT Plus用户开放代码解析器(Code interpreter)功能。好家伙,今早起来看到已经就支持了。之前一直听说用Code interpreter编写代码非常高效,而且可以拿来做数据分析。作为一个前几年就考了数据分析师证书的人,我赶紧去验验货。

AI对数据分析的冲击

前段时间,阿里巴巴旗下研究机构达摩院及新加坡南洋理工大学的研究发现,OpenAI最新发布的大型语言模型GPT-4进行数据分析的成本只有人类资深分析师(平均年薪9万美元)的0.45%,或是菜鸟分析员的0.71%。

研究还发现,用GPT-4分析数据,不仅成本低,而且效率高。无论以分析正确度、流畅性还是洞见来衡量,GPT-4已经击败了低阶人类数据分析师,与资深分析师的表现相差无几。

接下来,带大家一起去体验一下用GPT-4进行数据分析的全流程。


启用Code interpreter

首先,需要是ChatGPT Plus用户,然后通过以下路径开启功能:

Setting > Beta Features > Code interpreter

然后新建聊天时,就可以选择Code interpreter了。

用经典波士顿房价分析验证

采用波士顿房价的数据集,来验证用Code interpreter进行数据分析的流程。这个数据集收录了美国波士顿房地产市场的基本信息,主要是研究影响房价的因素有哪些,比如犯罪率、每栋住址房间数、税率等。

开启Code interpreter后,在对话框中,增加了一个上传按钮,点击后即可上传本地的数据集。

上传后,GPT-4会自动开始分析,并且输出结果:

可以让GPT-4用中文将上述分析再解释一下,并且后续让它都用中文进行交流。

接着,直接问GPT-4,能基于上传的数据文件,做哪些分析,尝试让GPT分步骤给出结果。我使用了以下提示:请思考一下根据目前的数据集,你可以做哪些分析?请一步一步仔细思考,给出合理有信心的答案。

GPT-4回答能支持描述性统计分析、相关性分析、可视化分析、异常值分析、建立预测模型。已经基本涵盖数据分析能支持的方向了。


描述性统计分析

描述性统计分析比较初级的数据分析方法,用于快速了解数据的基本特征,如均值、最大最小值等。我使用了以下提示:那先来试试第一步,描述型统计分析,给我看下你的分析结果。

很快,GPT-4就给出了描述型统计分析的结果了。

而且,可以点击“Show work”,查看Code interpreter使用了哪些代码来实现分析:

我还试着追问GPT-4,让它帮忙分析某个指标跟其他数据指标的详细关系,我使用了以下提示:我想知道,被查尔斯河穿过的房子和没有被穿过的房子,具体在数据表现上有什么差异,包括但不限于以下的分析项目CRIM、ZN、INDUS、PRICE,请尽可能详细分析。

GPT-4在读取命令后,很好地给出了分析结果,简直可以说惊艳!


相关性分析

接着,我们让GPT-4帮忙进行相关性分析。相关性分析主要是用来了解两个或多个变量之间的相关(即它们以固定的比率一起变化)程度,可用于了解影响数据变化的其他数据有哪些,比如影响房价的其他数据指标。我使用了以下提示:下面执行第二步,相关性分析,列出数据集中变量之间的相关性。

给出的数据结果,可读性较差,我继续追问:上面的结果可读性较差,能否用自然语言描述一下各个变量之间的相关关系,以及可能可以作为参考的行动策略?

然后GPT-4就用自然语言给我解释了一下它从数据中,洞察到的相关性分析结果。比如它说:

  • 犯罪率 (CRIM) 与价格 (PRICE) 呈负相关,即犯罪率越高,房价越低。这可能是因为人们通常更愿意住在犯罪率较低的地方,这增加了这些地方的房价。

  • 住宅用地比例 (ZN) 与价格 (PRICE) 呈正相关,即用于住宅的土地越多,房价越高。这可能是因为住宅用地比例较高的地区通常有更好的住宅设施,使得房价提高。

总的来说,相关分析的结论还是比较靠谱的。


预测分析

预测分析主要用来对某个指标的走势做数据预测,这里我们让GPT-4,选择合适的机器学习模型(如线性回归、决策树、随机森林、支持向量机等)来预测房价。我使用了以下提示:接下来,希望你帮忙针对数据集进行预测分析,请一步步思考与展示你的分析过程。

首先GPT-4给出了一个完整的预测分析步骤。

接着,它自动进行上述步骤,首先进行数据预处理,检查是否有缺失、异常值,以及自动选择特征值。

然后,它自动将数据集分成训练集和测试集。

之后,GPT-4自动选择了适合的机器学习模型——线性回归,来进行训练。

最后,它将训练好的模型,进行了说明,包括各个特征的系数。

文字太多,不好读,我继续追问:针对上面的预测分析,给出预测模型的最终公式,并且画出预测模型的散点图。

整个预测分析,执行非常顺畅,可以说是吃着火锅唱着歌,GPT-4就帮你完成数据分析了。而且跟我之前用Python进行分析的结果非常一致,感兴趣的朋友,可以去对比看下。

https://zhuanlan.zhihu.com/p/337536455


结语

2年前,我认为懂数据分析会拥有更强的核心竞争力,应该就不容易被时代淘汰了吧。然而,短短2年,结合AI能力,大家只要上传了数据,AI就能自动帮你分析,数据分析成了可能被AI取代的危险工种……

还好,我及时努力学习了AI,时代不会淘汰保持努力学习的我们,我们需要做的是让AI为我所用。感兴趣的朋友,快去试试吧~

公众号回复【波士顿】,获得本文涉及数据文件。


往期精选

AI杀疯了 | 用Lora画你的初恋小姐姐

青春就是用来失败的 | 训练灌篮高手专属AI绘画模型

AI一键让照片说话,无限且免费!

AI一键换脸,无限且免费!

一键本地部署类GPT大模型,免费!


欢迎加入AI社群

跟我一起疯狂学习AI

求个三连“分享、点赞、在看”~

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存