查看原文
其他

禁忌魔法解封,击穿专业壁垒:ChatGPT code interpreter

爬虫俱乐部 Stata and Python数据分析 2023-10-24

本文作者:罗天尧 新疆大学商学院

本文编辑:陈梦鹭

技术总编:郭泽源


OpenAI在最近开放了内测已久的code interpreter功能,从PS到PR,从py源码解读到单元测试……现均已聚合在GPT4 model,不妨一起来尝鲜!该功能现免费开放给所有Plus会员(存在调用上限)。
01开启“魔法”

登入ChatGPT后,在用户窗打开设置。


开启测试功能code interpreter。


在打开模型引擎,会发现已经可以选中code interpreter功能了。


在此处上传数据集、图片等类型文件。目前已测试的格式类型有xlsx、csv、pdf等,甚至还可以传输zip文件,图片格式有jpg和png等。

02功能探索
1.数据分析
此处借用一位巴铁好兄弟的数据集,他的需求是快速复刻文献中的数据处理流程。
数据传入后,ChatGPT不仅会生成python导入数据的code,还会对数据集生成描述信息。


一键绘图,输出代码。用户还可进一步定制化图片。


同样支持代码转换。


可以看出code interpreter是OpenAI一个不错的尝试。但在具体研究中,使用者还需对代码二次审阅,测试代码的可执行性与正确性。当前阶段的ChatGPT更多的是提供辅助功能,简化模板式代码的编写,但落实的具体功能实现,还需要用户的创造力。

2.文本分析+绘图

在先前的文本分析测试中,GPT已有了不错的表现。那么,他还能实现文本数据可视化吗?
传入一份年报数据。


不得不说,GPT甚至真的在拟人化,考虑到了词频统计的技术要点,但是……显然生成的词云图是不尽人意的。从这里也可以看出,GPT在生成代码的基础上,进一步提升了代码运行能力,但还需要优化更多的第三方库。


让我们继续追问GPT。显然目前他更适合处理英文。


网友测试的英文版pdf文件。


3.描述性统计

由于账号达到测试上限,这里再补充一个网友的数据分析案例:


进行简单的统计操作时,GPT还是游刃有余,且生成的图示较为美观。


4.图像处理

ChatGPT的图像处理能力仍然较弱,做出来的东西过于“丑陋”,甚至不如先前API里的image接口,这里就不展示了。
逊于PS,但力压图像小程序,一些精品实用的功能:格式类型转换、分辨率转换等。下图来源于网络测试者,处理后的图像可以通过临时链接下载。


处理前后对比:


支持滤镜处理:


5.理解能力

对于一些特殊格式(如py文件、do文件等)的文件来说,GPT目前暂无对应的运行环境,但会根据训练的语言模型进行回答。


对Stata文件的交互,我们不妨使用Stata中的chatgpt命令(【命令重磅更新】在Stata中深入使用ChatGPT),一种更为便捷的方法。
03结语

数模推理?GIF制作?高质量OCR?matlibplot高手?代码互译?均已在code interpreter中解锁,待你发现。
虽然离“王炸”还有距离,但OpenAI的此次更新确实足够惊艳。最后,聊些测试中的缺陷,平复一下激动的心:
  1. 依旧无法学习网络最新信息。

  2. 第三方库过少,或许未来可以引入定制化的第三方库或兼容多种编程语言。

  3. 图片处理能力较弱,建议加钱。

  4. 相较于模型本体,code interpreter还需引入更多语言。

END 

重磅福利!为了更好地服务各位同学的研究,爬虫俱乐部将在小鹅通平台上持续提供金融研究所需要的各类指标,包括上市公司十大股东、股价崩盘、投资效率、融资约束、企业避税、分析师跟踪、净资产收益率、资产回报率、国际四大审计、托宾Q值、第一大股东持股比例、账面市值比、沪深A股上市公司研究常用控制变量等一系列深加工数据,基于各交易所信息披露的数据利用Stata在实现数据实时更新的同时还将不断上线更多的数据指标。我们以最前沿的数据处理技术、最好的服务质量、最大的诚意望能助力大家的研究工作!相关数据链接,请大家访问:(https://appbqiqpzi66527.h5.xiaoeknow.com/homepage/10)或扫描二维码:


     最后,我们为大家揭秘雪球网(https://xueqiu.com/)最新所展示的沪深证券和港股关注人数增长Top10。




对我们的推文累计打赏超过1000元,我们即可给您开具发票,发票类别为“咨询费”。用心做事,不负您的支持!







往期推文推荐暑期来啦~⼀起看⼀看近期的天⽓情况‍‍【命令重磅更新】在Stata中深入使用ChatGPT
爬虫俱乐部2023第一期编程训练营开始报名啦!
【爬虫基础】Scrapy爬虫框架迈向交互式编程,ChatGPT更新!一个简单又好玩的Python库——MyQR
replace命令的“加强版”!——如何使用ereplace,结合egen
XML 轻松读取:用 Python 发现数据宝藏

爬虫俱乐部重磅推出cnstata.com.cn

Markdown:让数学公式输入更方便!

处理日期的好手:pendulum
定制属于自己的“贾维斯”——Python调用Chat
学会format,数据格式任你拿捏【Python实战】游客最青睐的城市,你的家乡上榜了吗?

What’ new ? 速通Stata 18

【爬虫实战】Python爬取美食菜谱揭秘网络中心人物,你会是其中之一吗?考研之后,文科生需以“do”躬“do”!焕新升级!轻松获取港股、权证的历史交易数据爬虫俱乐部的精彩答疑---cntraveltime     关于我们 

   微信公众号“Stata and Python数据分析”分享实用的Stata、Python等软件的数据处理知识,欢迎转载、打赏。我们是由李春涛教授领导下的研究生及本科生组成的大数据处理和分析团队。

   武汉字符串数据科技有限公司一直为广大用户提供数据采集和分析的服务工作,如果您有这方面的需求,请发邮件到statatraining@163.com,或者直接联系我们的数据中台总工程司海涛先生,电话:18203668525,wechat: super4ht。海涛先生曾长期在香港大学从事研究工作,现为知名985大学的博士生,爬虫俱乐部网络爬虫技术和正则表达式的课程负责人。



此外,欢迎大家踊跃投稿,介绍一些关于Stata和Python的数据处理和分析技巧。

投稿邮箱:statatraining@163.com投稿要求:1)必须原创,禁止抄袭;2)必须准确,详细,有例子,有截图;注意事项:1)所有投稿都会经过本公众号运营团队成员的审核,审核通过才可录用,一经录用,会在该推文里为作者署名,并有赏金分成。2)邮件请注明投稿,邮件名称为“投稿+推文名称”。3)应广大读者要求,现开通有偿问答服务,如果大家遇到有关数据处理、分析等问题,可以在公众号中提出,只需支付少量赏金,我们会在后期的推文里给予解答。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存