月刊｜AI治理必修第26刊|GPT-4震撼发布:多模态大模型,直接升级ChatGPT、必应,开放API,游戏终结了?

AAIG 阿里巴巴人工智能治理研究中心 2023-11-28

收录于合集 #AI治理必修月刊 35个

AI治理必修-3月(上)第26刊发布！

AAIG的专家们用多学科的专业视角，每月从全球收集和筛选关于算法治理和可持续发展的全球态势。重点关注算力时代的新技术、新风险、新实践、以及对它们新解释。

3月(上)共17篇文章3995字,分【本月洞察、行业动态、前沿技术、产业实践】四个板块展开。

越来越多的划时代成果在最近几个月集中爆发，也预示着，AIGC那席卷全球的浪潮，可能不只是一个喧嚣一时的风口，而是一场空前的生产力革命，而OpenAI无疑是那位最闪亮的弄潮儿。从学术侧，国内外大公司分析、追赶、复刻chatGPT的身影此起彼伏，不乏优秀的开源成果，但始终难以撼动chatGPT的先发优势；从产研侧，围绕chatGPT的各种下游应用也如雨后春笋般爆发，许多都已开始影响一些传统行业的生产模式。而GPT-4的横空出世，又如一颗炸弹震惊全球：多模态的认知理解，更可靠的推理能力，更优秀的创作力，完全可以说，GPT-4已经接近人类想象中，通用人工智能AGI的雏形。

新AI时代，商业与科技变得愈发紧密。OpenAI的成功，说明了最顶尖的科技，本身就蕴含着最庞大的商业可能性。AI技术依托成熟的互联网基建能完成边际成本极低的野蛮扩张，且高度耦合地赋能各行各业，这处处都在说明这是一个“强者恒强，赢者通吃”的市场，因此各大厂也在全力跟进，以防市场份额被不可逆地稀释。而能在未来的商业壁垒中突围而出的，便是更可用、可控、可靠的尖端科技，以及更先进的生产力与生产模式。

自古以来，如果科技可能带来生产力的巨大变革，那么势必将带来国家战略级的博弈，因此AIGC、chatGPT也被多次写入了政府文件。作为后发者，如何更好地拥抱这次变革，将会是接下来很长一段时间的一个核心问题。

点击题目即可查看全文

1. 证监会科技监管局局长姚前：重点发展基于AIGC技术的合成数据产业构建大模型训练数据的监管体系

证监会科技监管局局长建议重点发展基于AIGC技术的合成数据产业，以更高效率、更低成本、更高质量为数据要素市场“增量扩容”，助力人工智能未来发展。他提出建立数据托管机制，对数据托管方进行约束，要求数据托管方按照监管机构的规定对数据来源、处理结果以及使用去向等进行监测，从而使得模型的输入、输出结果符合监管要求。此外，文章还探讨了大模型训练数据的来源与处理流程、合成数据的发展趋势等问题。

1. NeurIPS 2022 | UCLA推出科学问答新基准，大语言模型迎来多模态新挑战！

作者提出了首个标注详细解释的多模态科学问答数据集ScienceQA。它包含21208道来自中小学科学学科的多选题，涵盖三大科学领域和丰富的话题，大部分问题标注有详细的背景知识和解释。它可以评估模型在多模态理解、多步推理和可解释性方面的能力。

2. OpenAI为ChatGPT与Whisper模型推出增强API，成本大降90%

OpenAI推出了ChatGPT和Whisper API，允许开发人员将ChatGPT和Whisper模型构建到他们的应用程序、网站、产品和服务中。ChatGPT API用户可以期待模型改进和选择专用容量。许多企业已经使用了该技术，包括Snapchat、Quizlet、Instacart、Shopify和Speak等。

3. ChatGPT：潜力、前景和局限｜复旦清华周杰、黄民烈、张军平等

ChatGPT作为大型语言模型的代表，具有强大的对话能力，但也存在着可信性、对话式搜索引擎和通用人工智能发展等方面的局限。它正在改变传统人工智能研究方向，为接近通用人工智能提供了一种可能的方式，但需要克服现有的问题。

4. ChatGPT下的知识图谱审视：一次关于必然影响、未来方向的讨论实录与总结

王教授认为KG与ChatGPT各有优劣，KG表达能力强但不够简单，ChatGPT则可以应用于任何数据和任务，但可理解性不如KG。他建议KG圈应该调整思路，探索新的创新，而工业界需要勇气和决心去尝试新的ChatGPT应用，产业链也需要升级和协同。他认为KG表示方式也会随着ChatGPT的到来而改变。

5. CVPR 2023 | 大脑视觉信号被Stable Diffusion复现成图像！"AI读脑术"来了！

研究人员利用Stable Diffusion模型，通过fMRI信号重建出具有真实感的图像，实现了从人类大脑活动中重建视觉信号的挑战。该研究被收录于CVPR2023。尽管仍存在质疑，但这项研究引起了人们对“AI读脑术”的想象和担忧。

6. ChatGPT作者John Shulman：我们成功的秘密武器

1.为什么要关注RLHF；2.用RLHF实现指令跟随模型InstructGPT；3.语言模型的泛化能力；4.AI对齐工作进入第二阶段；5.WebGPT的想法从何而来；6.行为克隆、奖励模型、强化学习和拒绝采样；7.为什么不能使用外部反馈；8.强化学习与AGI的未来

7. 谷歌、MIT提出统一框架MAGE：表征学习超MAE，无监督图像生成超越 Latent Diffusion

MAGE是一种基于图像语义符掩码的自监督学习框架，将图像生成与表征学习统一起来。通过VQGAN编码器将原始图像转换为离散的语义符，再对其进行随机掩码，最后使用基于transformer的encoder-decoder结构对掩码进行重构，实现同时进行生成模型和表征学习训练。MAGE在多个图像生成和图像识别任务上达到或超过SOTA表现。

8. 会看图的「ChatGPT」来了！给张图就能聊天、讲故事、写广告

国产AI模型「元乘象 Chatlmg」支持图片与文字互动，能解读图片内容并回答问题，甚至编故事，具有商业变现潜力。该模型搭载了自研的百亿级别参数多模态大模型，目前支持图文对数据、VQA数据等，将来还将集成图片生成的能力并加入视频、音频等多种模态。

9. 清华朱军团队开源首个基于Transformer的多模态扩散大模型，文图互生、改写全拿下

该团队提出了一个为多模态设计的概率建模框架UniDiffuser和基于transformer的网络架构U-ViT，能够大幅提升文图内容的生产效率。该研究被认为是通用式生成模型的未来发展方向。

10. LeCun狂赞：600刀GPT-3.5平替！斯坦福70亿参数「羊驼」爆火，LLaMA杀疯了

斯坦福大学发布了一款由LLaMA7B微调的模型Alpaca，仅用了52k数据，训练3小时，性能约等于GPT-3.5，成本不到600美元，具有较高的性价比。该模型使用了LLaMA模型和现有的大语言模型相结合的方法，通过自生成指令数据集和微调进行训练，并且使用了分片数据并行和混合精度训练等技术。

11. ChatGLM：千亿基座的对话模型启动内测，单卡版模型已全面开源

清华技术成果转化的公司智谱AI开源了中英双语对话模型ChatGLM-6B，具有62亿参数且支持在单张消费级显卡上进行推理使用。该模型基于General Language Model架构，兼具双语能力且在中文问答和对话方面进行了优化。

12. GPT-4震撼发布：多模态大模型，直接升级ChatGPT、必应，开放API，游戏终结了？

OpenAI发布了多模态预训练大模型GPT-4，实现了强大的识图能力，文字输入限制提升至2.5万字，并且能够生成歌词、创意文本，实现风格变化。GPT-4通过各种专业测试和学术基准，表现与人类水平相当，包括通过模拟律师考试。但仍有局限性，包括产生幻觉、生成错误答案和推理错误等。使用时应谨慎审查输出内容，并使用与特定用例相匹配的协议。

13. GPT-4发布！ChatGPT大升级！太太太太强了！

GPT-4是一个超大的多模态模型，可以接受图像和文字（上限2.5万字）输入，并在各种职业和学术考试上表现和人类相当。此外，OpenAI还发布了ChatGPT Plus，GPT-4的API和技术论文，公开System Card。微软证实必应已经用上了GPT-4，让微软又一次赢得了谷歌之间的数轮科技战役。

1. 2022年度吴文俊人工智能科学技术奖奖励公告

阿里巴巴集团，中国科学院大学，中国科学院计算技术研究所，之江实验室，中国计量大学研究成果《复杂互联网环境下内容治理的关键技术与应用》荣获2022年度吴文俊人工智能科技进步奖二等奖。

2. 蚂蚁集团成立科技伦理顾问委员会，持续推进科技伦理建设

蚂蚁集团科技伦理顾问委员会由7位资深学界、业界专业人士构成，为我们的科技伦理建设工作提供咨询建议与决策参考。未来，顾问委员会将以研讨会、年度评估等形式开展工作，包括参与蚂蚁重要项目沟通评估、评估年度科技伦理建设工作，指导相关课题研究等。