查看原文
其他

ChatGPT所到之处硝烟弥漫,一文看遍各行业对ChatGPT的专业评估——且看AI江湖谁是屠龙刀下冤魂?

走向未来 走向未来 2023-08-31

   

   

上文(武林至尊,ChatGPT;Bard 不出,谁与争锋?且看人工智能江湖的倚天屠龙记)说到,屠龙刀ChatGPT的出现轰动江湖,Google 的倚天剑Bard欲与之争锋。首轮刀剑争锋中,如果用经济指标来衡量:

  • 微软投资了OpenAI 110(100+10)亿美元, 因微软全线产品接入ChatGPT 的消息而导致股价上涨了800亿美元;

  • Google Bard推出欲与 ChatGPT 争锋,但宣传视频的一个失误,导致股价下跌1000亿。

这一上一下就是1800亿美元的波动!虽说刀剑争锋刚刚开始,但由此可见屠龙刀的威力!那屠龙刀 ChatGPT是很什么呢?有什么神奇之处?

图1 编写程序


在隆重介绍屠龙刀之前,先说三个观点:

  1. ChatGPT 热上加热,但大概率,人们高估了短期影响,但低估了长期影响。这如同《倚天屠龙记》,屠龙刀现身江湖只是一个引子,真正的影响确实改朝换代,不仅身在江湖的人士身不由己纷纷陷入,普罗大众也同样被影响。

  2. ChatGPT 这类本身,竞争的结果可能是老大老二,以及中文圈子的老三。至于其他的一窝蜂,其下场未必佳。细分领域占山为王的,倒是存在较多可能。设想一下,一众普通刀剑在屠龙刀、倚天剑和圣火令乱战的碰撞中纷纷断裂掉落,除非远离战场,占山为王,构建自己的堡垒,避免直接的碰撞。

  3. 长期来看,人工智能往前推进了一步,AGI 曙光乍现,而前往 AGI 的大门似乎已经打开,生活中的一切都即将改变,所谓的第四次工业革命就此开启也未可知。以《三体》故事为例,走出地球的人类已经不是人类了,看见了AGI 的人工智能江湖,也已经是另一个江湖了。

       

图2  “老王说”

          回到 ChatGPT。ChatGPT 能够做与语言有关的几乎一切事情,这包括但不限于文本生成、自动摘要、问答、改写、情感分析、表格到文本和文本到表格(如图3)、文本分类、机器翻译、编写程序(如图1,特地使用了相对冷门的飞桨框架,所生成的代码在paddlepaddle 1.8.4版本上测试可运行)、代码注释、基于代码的文档编写、自动构建知识图谱(如图4)。在这些基本任务的基础上,可以用于编写社交博文、写邮件、写诗歌、写剧本、写科技论文等等。甚至有人用 ChatGPT来编曲,结合扩散模型的图像生成来制作绘本、一个人完成动画片的制作、模拟老胡的“老王说”(如图2)等等。ChatGPT 可谓无所不能,难怪爆火出圈,为街头巷尾三百六十行人士闲谈趣聊的“新风尚”。其影响在人工智能江湖之外,更是成为所有投资圈的未来投资方向的“共识”。

图3  文本到表格

 其多才多艺相信大家已经耳熟能详,也正因此, ChatGPT发布仅两个月就有1亿用户参与狂欢,成为有史以来用户增长最快的产品[1]。其传奇之处和花边新闻,咱前一篇文章已经讲了不少,这里在来介绍一些严肃的研究,这包括医疗行业、司法行业、财务领域、物理学科、科技论文写作、MBA等等不同领域。现实世界中几乎没有人能够横跨上述领域,都做到专业的水平。但这些领域的专家们对 ChatGPT 在各自领域的水平进行了评估,得到了专业的结论。

图4 用于实体关系抽取,自动构建知识图谱         

首先是2023年2月9日报道[2],ChatGPT几乎通过了美国医师执业资格考试(US Medical Licensing Exam,USMLE)。研究表明,ChatGPT测试了 2022 年 6 月版考试的 375 道试题,非常接近通过 USMLE 测试,平均正确答案率在52.4%到75%之间。总结结果,可以认为答案的准确程度相当于当年通过考试的人类学习者的最低水平。

图5 ChatGPT几乎通过了美国医师执业资格考试

          其次,宾夕法尼亚大学沃顿商学院的Christian Terwiesch教授仔细评估了 ChatGPT 在MBA 核心课程“运营管理(Operations Management)”的期末考试情况[3]。研究结果表明,ChatGPT 在基本运营管理和流程分析问题(basic operations management and process analysis questions)(包括基于案例研究的问题)方面做得非常出色。不仅答案正确,解释也非常好。但在6年级数学相对简单的计算中有时会出现令人惊讶的错误【注:本次评估后,OpenAI 针对ChatGPT 的数学能力进行了升级,升级后大幅提升了数学水平】。而对于类似需求可变性这样多种产品的流程和具有随机效应的问题上,ChatGPT 表现的无能为力。另外,ChatGPT 在人类专家的提示下能够纠正错误。评估对 ChatGPT 的评估成绩被判定为 B 到 B-之间。【注:随着数学能力的提升,重新评估的话估计已经超过 B 了】

          已是去年底的一篇论文,其标题就耸人听闻《"随着人工智能革命的到来,物理短文即将走入历史"(The Death of the Short-Form Physics Essay in the Coming AI Revolution)》[4]。这片杜伦大学的文章评估了大学物理教学的短论文写作,并认为很难不得出的“基于问题的短论文写作的非监考评估已不再适用”的结论。评估中给定5个开放性问题,要求学生分别写一篇300词的简短论文。ChatGPT生成了50个答案形成10个提交,其成绩与当前模块的成绩平均分非常一致,并且AI 生成的最佳的论文能够在英国高校的论文写作中获得一等奖。论文最后认为“基于仔细的、以证据为基础的考虑,我们教学的方式应当发生深刻的变革。”

          ChatGPT 用在科技文献综述的写作上效果很好,这使得未来科技文献综述成为一件更为简单的事情。通过Google Scholar 上搜索特定主题的文献,并使用 ChatGPT 来概括摘要,同时基于 Prompting 对 ChatGPT 提问有关问题来总结文献综述以及对未来研究方向提供启发。这篇“医疗保健领域的数字孪生”这个主题的综述论文[6]是这个方法的先行实验,论文作者认为这个尝试所展示的例子是一个“美丽而引人注目的例子”,可见其效果卓绝。

          今年春节期间,纽约大学发布了一篇关于医学领域的图灵测试方面的论文[5]。论文的结论是 ChatGPT 对患者问题的回答,与人类提供的回答难以区分(weakly distinguishable),同时认为病人(外行人)倾向于信任ChatGPT 关于较低风险的健康问题的回答。

          ChatGPT已经证明了它能够处理复杂的会计查询并及时提供相关信息,所存在的挑战无非是数据隐私和安全、会计专业人员对变革的抵抗、输出格式符合会计法规和标准等[7]。事实上,微软的 Office 套件正在接入 ChatGPT,会计人员将会更容易使用相关工具来完成工作,而效率也会成百上千倍的提高。

          在司法方面,ChatGPT参加了美国的律师资格考试,在完整的 NCBE MBE 练习考试中实现了 50.3% 的标题正确率(与此相应的是,人类应试者答对了 68% 的问题),大大超过了 25% 的基线猜测率,并且在证据和侵权方面的通过率都很高[8]。同时,ChatGPT 在起草证词和问题解释等方面提供帮助[9],能够通过明尼苏达大学的法学院课程的水平考试并够格获法学学位(ChatGPT获得 C+成绩,相对应的人类学生的平均成绩是 B+)[10],而基于 ChatGPT 的虚拟法律助手也在为律师在法律研究、诉讼等方面提供帮助。[11]

图6 ChatGPT通过明尼苏达大学的法学院课程的水平考试并够格获法学学位

       最新的一篇JAMA 的文章[12]评估了 ChatGPT 对简单的心血管疾病(Cardiovascular disease,CVD)预防问题的回答情况。研究发现,ChatGPT对 25 个问题中的 21 个(84%)的回答在两种情况下都被评为适当,但有 4 个回答包含了不适当的内容。其结论是包括① ChatGPT在这种简单的心血管疾病预防问题中很大程度上能够给出恰当的回答(largely appropriate responses) ,②在围绕常见心血管疾病预防问题方面,类似ChatGPT 这样的交互式人工智能产品有助于加强患者教育,以及增强患者-临床医生之间的沟通来协助临床工作流程的效率。   

从上面的各个领域的专业评估可以看出, ChatGPT真的可以被认为是通用人工智能(Artificial General Intelligence,AGI) 的雏形。我在早先写的一篇文章《NLP奋发五载,AGI初现曙光》(敬请期待,稍后发布)中,把 ChatGPT 称之为 AGI 的曙光。

          回到人工智能江湖,屠龙刀为什么能够掀起血雨腥风?不仅仅是由于一个传说:
武林至尊,宝刀屠龙;
号令天下,莫敢不从!

更因为它的真才实学,是真正的神兵利器,即使深藏其中的武穆遗书并未显露,依然可以“号令天下”。

          而 ChatGPT也是一样,它的出现,有人为之心服口服,有人说它大忽悠,需要警惕。但没有人认为它和之前那些“人工智障”是一样的。不管是开头给出的完成各种任务的示例,以及各个领域的专业评估,都可以看出这一点。有关 自然语言处理相关任务的详细评估[13]也可以看出,ChatGPT 在大多数任务上的零样本学习性能优于LLM,甚至在某些任务上优于微调模型(微调模型会针对该数据集的训练数据进行了微调,再用该数据集的测试数据来测试)。

7 多个自然语言处理任务的评估和对比

          所谓外行看热闹,内行看门道。真正知晓刀剑内幕的,知道神兵利器之内,还有更为惊天动地的秘密——武穆遗书和九阴真经(即使是圣火令,其更关键的也是刻在圣火令上面的乾坤大挪移最高层的心法,三大神器异曲同工,哈哈哈)。在 ChatGPT(InstructGPT) 、Bard(LaMDA、 Sparrow)、文心一言之内,也包含着从专用人工智能走向通用人工智能的秘诀——大模型、思维链与情境学习、知识图谱和人类反馈强化学习。这些隐藏其中的秘诀,咱后面专文一一解析。

          最后,更新一个消息,微软 CEO Satya Nadella透露,ChatGPT 将进入微软的所有产品,不管是浏览器,还是 Office 套件、社交媒体,甚至还包括操作系统[12]AI 控制一切的“氛围”已经弥漫开来!

图8 微软CEO 披露,AI 融入一切 ,甚至包括操作系统         

参考文献   

[1]ChatGPT sets record for fastest-growing user base - analyst note。Reuters. https://www.reuters.com/technology/chatgpt-sets-record-fastest-growing-user-base-analyst-note-2023-02-01/. 2023.

[2]expert reaction to study on ChatGPT almost passing the US Medical Licensing Exam. Science Media Centre.  https://www.sciencemediacentre.org/expert-reaction-to-study-on-chatgpt-almost-passing-the-us-medical-licensing-exam/. 2023.

[3]Christian Terwiesch. Would Chat GPT3 Get a Wharton MBA? A Prediction Based on Its Performance in the Operations Management Course. Mack Institute for Innovation Management at the Wharton School, University of Pennsylvania. https://mackinstitute.wharton.upenn.edu/2023/would-chat-gpt3-get-a-wharton-mba-new-white-paper-by-christian-terwiesch/. 2023.

[4]Will Yeadon, Oto-Obong Inyang, et al. The Death of the Short-Form Physics Essay in the Coming AI Revolution. arXiv:2212.11661. 2022.

[5]Oded Nov, Nina Singh, Devin M. Mann. Putting ChatGPT’s Medical Advice to the (Turing) Test. DOI:10.1101/2023.01.23.23284735. 2023

[6]Aydın, Ö., Karaarslan, E. OpenAI ChatGPT Generated Literature Review: Digital Twin in Healthcare. In Ö. Aydın (Ed.), Emerging Computer Technologies 2 (pp. 22-31). İzmir Akademi Dernegi. 2022.

[7]Alshurafat, Hashem. The Usefulness and Challenges of Chatbots for Accounting Professionals: Application On ChatGPT. Doi:10.2139/ssrn.4345921. 2023

[8]Bommarito, Michael James, et al. GPT Takes the Bar Exam. Doi:10.2139/ssrn.4314839. 2022

[9]AI program earned passing bar exam scores on evidence and torts; can it work in court?. ABAJournal. https://www.abajournal.com/news/article/ai-program-earned-passing-bar-exam-scores-on-evidence-and-torts-can-it-work-in-court. 2023.

[10]ChatGPT passes law school exams despite 'mediocre' performance. Reuters. https://www.reuters.com/legal/transactional/chatgpt-passes-law-school-exams-despite-mediocre-performance-2023-01-25/. 2023.

[11]New GPT-Based Chat App from LawDroid Is A Lawyer’s ‘Copilot’ for Research, Drafting, Brainstorming and More. LawSites. https://www.lawnext.com/2023/01/new-gpt-based-chat-app-from-lawdroid-is-a-lawyers-copilot-for-research-drafting-brainstorming-and-more.html. 2023.

[12] Sarraju A, Bruemmer D, Van Iterson E, et al. Appropriateness of Cardiovascular Disease Prevention Recommendations Obtained From a Popular Online Chat-Based Artificial Intelligence Model. JAMA. doi:10.1001/jama.2023.1044. 2023.
[13] Yejin Bang, Samuel Cahyawijaya, Nayeon Lee, et al. A Multitask, Multilingual, Multimodal Evaluation of ChatGPT on Reasoning, Hallucination, and Interactivity. arXiv:2302.04023
[14] Microsoft thinks AI can beat Google at search. The Verge. https://www.theverge.com/23589994/microsoft-ceo-satya-nadella-bing-chatgpt-google-search-ai. 2023.

         

         

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存