GPT-4来了,中国玩家如何加速迈入AI新纪元
“
过去的一周,人类经历了科技大爆炸。
ChatGPT的余温尚热,强大的多模态大模型GPT-4于美国时间3月14日正式发布,又一次刷新了大家对于AI的认知。
除文本外,GPT-4具备图像识别功能,支持图像和文本输入。文字输入的限制提升至2.5万字,单词处理能力是 ChatGPT 的八倍,同时文本回复的准确性显著提高。
GPT-4在多个专业和学术考试上的表现已达到“人类水平”,通过了美国的模拟律师考试,分数超过90%的考生,而GPT-3.5得分仅为倒数10%。
GPT-4迭代速度和指标上的提升打破了过往AI的历史,让我们离通用人工智能(AGI)更近一步。
3月16日,百度文心一言在万众期待中发布,正式揭开了中国大模型的发展序幕;当日晚间,微软祭出Microsoft 365 Copilot,GPT-4全面介入微软Office体系。
AIGC时代已正式来临。
近期,九合创投联合微软中国举办了AIGC闭门沙龙。一流科技创始人袁进辉、井英科技创始人朱江、行者AI创始人尹学渊、晓多科技创始人江岭等九合被投企业创始人,与九合投资人以及哔哩哔哩科学家曹翔,共同探讨了AI新纪元的机会与挑战。
我们将活动中嘉宾的精彩观点整理成文,主要讨论了以下问题:
ChatGPT背后的驱动因素:人工智能的三次浪潮和Transformer的变革性意义;
未来ChatGPT的发展瓶颈:商业化、成本、合规性、AI思考机制;
每一次AI浪潮都始于算法突破,相比算力的掣肘,国内在算法上更容易突破;
AIGC领域的创业者从一开始就要做好全球化的准备;
AI的本质是拉高了人类能力的下限,而上限则取决于人类对于AI的理解力与开发能力;
AIGC时代的二进路线:从To B到to C。
”
/左右滑动查看更多嘉宾/
王啸是中国互联网行业最早的一批从业者,拥有逾20年的风险投资和创业经验,于2011年创立九合创投。在此之前,王啸被称为“百度七剑客”,曾是百度内部做产品最多的事业部负责人。
王啸
九合创投创始人
谢振亮曾任职于阿里巴巴,领导阿里巴巴搜索部门的开放数据团队,并担任一淘网搜索产品的高级开发专家。在此之前,谢振亮在百度工作,领导百度蜘蛛在搜索引擎部门的发展。
谢振亮
九合创投合伙人
清华大学计算机系博士、博士后,曾在微软亚洲研究院从事大规模机器学习平台研发。于2017年创立一流科技,打造分布式深度学习框架OneFlow,致力于成为领先的人工智能基础设施供应商。
袁进辉
一流科技创始人
上海交大本科、硕士,连续成功创业者。井英科技专注用生成式AI技术引领创意产业变革,致力于成为全球最大的商业短视频AI创作平台。
朱江
井英科技创始人
博士。行者AI致力于打造游戏行业从研发到营销的一站式AI赋能平台。先后推出了AI虚拟玩家、AI美术资产生产、AI音乐资产生成、AI全球合规性审查、AI防拉人等一系列产品。
尹学渊
行者AI创始人
自然语言处理和机器学习专家,曾任百度资深算法工程师。晓多在NLP和机器学习领域有超过十年的理论和工程实践积累,业务涵盖智能机器人、智能管理等板块,累计服务38000余家客户。
江岭
晓多科技创始人
人机交互技术专家,哔哩哔哩科学家,曾任微软研究院研究员,联想研究院总监,小小牛创意科技CEO。清华大学学士,多伦多大学博士,剑桥大学Fellow。
曹翔
哔哩哔哩科学家
01
•
人工智能三次浪潮、Transformer与GPT
ChatGPT成为现象级产品,有哪些驱动因素?
一流科技袁进辉:ChatGPT的爆火,一方面是产品形式的创新,背后最大的驱动还是技术上的突破。在人工智能方向,首先从计算机识别图片的初级感知产生突破。更高级的智能认知更加挑战,有人预测可能还需要20年才能取得突破,但ChatGPT一面世,这件事提前发生了。
ChatGPT的对话十分流畅,尽管会存在一定的错误,但它对语言细节的把握炉火纯青,甚至还具备推理、常识、创造的能力,在这些方面已经超过了大部分普通人。在技术突破的背景下,也诞生了足够的商业想象空间。
哔哩哔哩曹翔:GPT是通过大模型让AI具有极强的泛化学习能力,在无监督的情况下,凭借海量语料的预训练实现了对语言与语义的理解。ChatGPT实际上是通过人类的反馈(强化学习)把GPT这样一个聪明的“社恐”变成了“社牛”。
以前,GPT能够和技术人员交流,让技术人觉得特别惊艳。而现在,ChatGPT可以和普通人交流,所有人都意识到了它的厉害。因此真正的拐点其实可能是几年前的GPT,然后经过一段时间的积累,进化到今天大家认识的ChatGPT。
晓多科技江岭:从事AI行业近20年,我们过去经历了至少三次范式的改变,从基于规则到浅层机器学习,到深度学习、自监督+微调模式,再到现在大模型预训练,技术的发展越来越快。尤其是最近不到六年的时间里,Transformer的出现,使得预训练技术快速发展,AI的长程记忆力变得更强。
2018年GPT-1就具备了一定的零样本解决问题的能力,但被Google Bert的光芒掩盖了,没有引起业界重视,但OpenAI一直在零样本的方向上努力;2019年GPT-2出现,OpenAI注意到其零样本能力的进步;2020年的GPT-3出现了in-context learning的能力;2022年,在GPT-3基础上加了人类反馈强化学习的ChatGPT突然出现在公众视野,突破了人们的原有认知。
GPT不仅可以在预训练任务上有很好的表现,支撑多样化的目标任务,并且涌现出了二阶能力(没有专门训练的能力),超出人们的想象。接下来几年,以往业务层面未被利用的大量红利将会发挥巨大作用。
九合创投王啸:Transformer是人工智能技术突破的“关键角色”,抛弃了传统的CNN和RNN,引入自注意力机制,为大模型的发展奠定了基础。
Transformers可以被看做一个黑盒,这个黑盒由编码器和解码器两部分组成,每部分都包含了多层相同的模块,模块化结构使得Transformer更易于扩展和调整。
这些特点意味着如果有合适的硬件条件,可以训练一些真正的大模型。GPT就是将一个具有良好扩展性的模型与巨大的数据集相结合,从而产生了惊人的突破。
与以往的神经网络相比,Transformers与生物智能更加接近。有研究发现,Transformer模型的架构和人脑海马结构非常相似。人脑有860亿神经元,每个神经元平均与1000个其他神经元连接,共100万亿突触,而ChatGPT有1000亿参数。
进入深度学习时代后,摩尔定律已被打破。随着人工智能水平达到新的高度,智能提升速度越来越快,同时,作为制约因素的数据获取和算力成本呈下降趋势,智能水平正处于加速提升的周期。GPT-4是通往AGI的重要一步,但Transformer不会是演化的终点。
未来ChatGPT的发展会遇到什么瓶颈或阻碍?
井英科技朱江: 比较大的挑战还是在商业层面,如今大模型的发展从商业模式的角度究竟是可以持续稳定地获取收入,还是借助资本力量进行运作,趋势还不是非常清晰。未来Open AI如何探索出更好的收费方式可能是个比较重要的命题。
一流科技袁进辉:成本也是一个重要问题,现在ChatGPT推理一次的成本需要几美分(OpenAI最新的定价是0.2美分),如果应用于搜索产品,需要仔细思考成本如何下降。
哔哩哔哩曹翔:除了成本之外,我们面临的挑战还在于无法真正理解AI的思考方式,即AI如何从非常底层的数学模型,突变到可以和跟人类进行交流,就像我们并不完全理解人脑的机制。
这是一把双刃剑,一方面,我们没有理论去预测模型的能力上限,甚至它可能比我们想象的还要聪明。另外一方面,我们也没有特别有效的方式,从机制上确保它的安全,百分之百控制AI的行为,我们需要对此进行更多的考虑。
行者AI尹学渊:现在的算法不可追溯,导致整个结果的不可控。此外合规性,即伦理问题,如何避免恶意利用,让ChatGPT可控。一方面可以针对算法、数据集进行筛选和调优。另外一方面,在全球化的背景下,可以针对每一个国家或地区针对性的做内容合规性审查,就像行者AI的游戏安全产品一样,很多游戏出海的公司都会接入,以保证在当地不出问题。未来ChatGPT如果应用在各行业各业,这个处理我觉得是短时间内最容易的。
02
•
算力的局限和算法的突破
在AIGC的时代,大模型是否会存在“卡脖子”的问题?
一流科技袁进辉:从算力角度来看, ChatGPT这类应用需要很大的算力,而国内目前还买不到最高端的GPU(A100和H100),只能买到低配的A800和H800,购买还要经过审批。
另一方面是复刻的问题,虽然现在我们了解ChatGPT的基本原理,但在模型层面依然有很多细节缺失,OpenAI并没有公开算法与模型的组合要素。如果国内的科研人员与创业者想复现ChatGPT,要经历同样的工作量。这就像茅台很多酿酒工艺都是保密的,别人难以复制出相同的品质。
我预计国内的互联网巨头应该能在一年左右做出相似水平的产品,到时所谓的“卡脖子”就不存在了。
九合创投谢振亮:突破“卡脖子”只是一个时间问题,比光刻机要容易很多。至少生产要素都是匹配的,可能需要一些know-how和摸索,之后肯定会做出七八分的产品,不会完全做不出来。
另外从创业公司的角度来说,解决问题不一定使用最好的模型,仍然能解决很多问题。因为客户讲究生产效率,所以回归到本质,能给客户带来什么,能在原来产品基础上改变到什么程度,这些是比较关键的。
一流科技是国内最早做大模型深度学习框架的先行者,如何看待AIGC趋势下的底层机会?
一流科技袁进辉:机器学习一个最基本的理论是AI模型的复杂度一定要与数据复杂度进行匹配。当使用越来越多数据的时候,模型的复杂度一定要跟上。跟不上的话,这个模型就是欠拟合的。
ChatGPT之所以成为迄今为止最成功的NLP语言模型,除了在产品形态上的创新,最大的驱动因素还是因为AI模型在一定程度上解码了人类语言交互中的内部规律。在人工智能的发展浪潮中,从计算机识别图片的初级感知,到更高级的智能认知,以及更加具有挑战性的智能预测,每一代AI的技术瓶颈需要研发团队耗费多年的时间来突破。
所以从根本上大模型一定会发展,国内最好的技术突破路径应该是从算法层面进行追赶。实际上,每一波AI浪潮都始于算法突破。
03
•
从B端到C端的“狂飙”路径
在由AI大模型掀起的新一波浪潮中,创业路径会如何发展?
九合创投王啸:AIGC作为一个新的应用场景,本质上是代表了AI产生内容的能力提升、硬件入口改变、算力的极大提高,以及用户需求的不断变化。AIGC可能只是一个阶段性的名词,实际是利用强大的人工智能替代内容生产力,将低效与高昂的服务成本逐渐替代为极低AI模型调用成本,提升优质内容的生产效率,并创造新的社会财富。
在整个AI生态产业链中,从底层的算力、算法、数据到基础模型,再到具体的应用场景,各个环节都充斥着新的机会。
AIGC应用层的机会将首先出现在To B的专业服务领域,用AI替代传统创作、信息理解等基础劳动,降低人力成本。AI将在有明确落地场景和需求的行业,实现产品化落地,通过特定的训练集和场景来优化和迭代模型,形成壁垒。
这一点在九合的被投企业上已经有比较好的呈现。
伴随使用AI的边际成本逐步下降,或者找到C端愿意付费且能覆盖成本的刚需场景。海量用户的C端产品是所有应用中的最大机会,爆发点何时来临值得期待。
对照之前的互联网时代,中国AIGC公司是先国内发展,还是直接国际化?
井英科技朱江:从产品的设计开始就应该是面向全球的。至于具体的商业路径上,可以选择先国内后海外,或者先海外后国内。但这一定不是两套不同的产品,当下人和机器的分工与协作方式在发生变化,AI本身是跨语言、跨国界的,而且可能越来越起到主导的作用。
所以,AIGC领域的创业者从一开始就要做好全球化的准备。
哔哩哔哩曹翔:全球化还是本土化的问题,要case by case来看。从两个维度看,一个是产品的类型,如果做工具类产品,比如全世界的画师可能需求都差不多,做全球化的产品是相对容易的,但是如果说To C的服务类或者社区类产品,跟文化地域就非常相关。另外一个就是内容的模态,比如图片类的相对比较客观普适,而语言类的产品天然就跟文化息息相关,不同语言可能蕴含不同的思维方式,所以针对不同国家的国情还是会有比较大的差别。
未来在各自所在的领域,下一步会有什么样的变革?
井英科技朱江:井英能根据客户诉求,通过AI创作脚本,并用数字人加算法生成视频广告,代替拍摄环节,支持50几种主流语言,覆盖上万个不同的场景,生产效率比传统方式提升了十倍以上,同时能高效控制成本。
未来,在AIGC短视频之外,各个领域的商业内容都将被AI重塑,包含图片、文字、音乐、游戏等。
非常看好未来AR和VR领域的内容生成,不管从用户的体验还是商业影响,都非常可期。井英希望在视频领域积累能力和资源,未来在下一个时代,VR/AR眼镜或其他设备成熟之时,能进一步赋能和替代新类型的商业内容。
哔哩哔哩曹翔:在内容创作领域,除了大家都能看到的提高效率降低门槛以外,还有一个很有意思的点在于AI生成的内容也带有随机性的灵感创作的成分。人类大脑对于产生随机性其实并不擅长,而传统的分析式AI依据固定输入来输出固定结果,无法在内容创作领域为人类提供启发。
但是今天AIGC基于无监督自学习的领域知识,加上随机种子和联想能力,让人类也有可能从AI的作品中获得高价值的灵感。AI将在内容创作领域与人类相辅相成,逐步替代低价值、高成本的内容创作,提升内容创作领域的生产力与生产效率,最终实现与高价值创造者相互依存与启发的状态。
行者AI尹学渊:行者AI脱胎于游戏公司龙渊的团队,从事AI研发近10年,已实现了AI在游戏行业的落地,并拥有可观的收入规模。我们是典型的AIGC应用层创新企业,在游戏研发过程以及上线后的发行运营中,借助AI的力量提升效率,打造新一代游戏全产业链AI赋能平台。
游戏作为一个复杂的系统工程,包含了2D、3D、音乐音效、玩法等多方面的综合场景,我认为是下一代AIGC技术应用最多的场景之一。AI帮助游戏行业降低成本,就可以大幅提高效率从而增加试错的空间和机会。
目前AIGC与各行业仍处于混动状态,未来中国AIGC创业者的机会将是基于各种细分赛道进行二次定向开发,衍生出各种各样的平台或工具类应用,来替代人工劳动力。通过针对细分赛道的定向开发、帮助付费用户实现降本增效、扩大自身商业边界与AI模型的应用边界才是正途。在应用层不断扩展边界的同时,不能忽视AI模型的护城河价值,只有逐步构建属于自己的护城河,才能在行业中站稳脚跟。
AI的本质是拉高了人类能力的下限,而上限则取决于人类对于AI的理解力与开发能力,这是人工智能未来发展的大趋势。
九合创投谢振亮:未来ChatGPT大模型的迭代会逐渐改变搜素引擎的商业化模式。如果未来ChatGPT能够突破使用边际成本的界限,那么每一个生活在现实世界中的人类都可以拥有一个7*24小时在线的人工智能助理。在AI私人助理的帮助下,每个人对于接受信息与处理信息的方式都会被改变。届时人机交互将会开启下一个新的互联网时代,现实与虚拟世界的边界进一步融合。