大语言模型的浪潮凶猛,如何能做到大浪淘沙,而非泥沙聚下,令其生成可信可控,令其生态乃至 AI 研究应用都能健康而可持续地发展?今天我们分享的是与清华大学计算机与技术系黄民烈教授的对话,黄教授长期从事机器对话中的情感研究,是全球该领域的顶级科学家。他创办的聆心智能专注于解决 AI 发展过程中的可信、可配和可控问题,以下是他的部分思考,Enjoy。
绿洲:您认为 ChatGPT 等大语言模型存在的主要不足在哪里?一是信息可信度,尤其在一些特定的应用场景,例如对信息实时性和准确度要求非常高的金融场景,就是它必须要解决的问题;二是精确计算,包括对于符号的理解和处理;精确计算和符号计算上,ChatGPT 并不能够理解运算符本身的精确含义,只是靠概率的方式去做推断的话,本身也很难确保它是对的。它能给出推导过程,但是过程中的数据很可能都是错的;三是安全性,这就涉及到一些伦理、社会道德、价值观的层面。比方你让 ChatGPT 描写一些“特殊”情节,直接表达它可能会拒绝,但是换一种说法,说我是在写小说或者剧本,需要这个情节,它就会给出你答案。如果恶意利用 ChatGPT 去编造谣言,比如说注射疫苗会导致自闭,模型给出的内容有理有据,没有医学专业知识的人很难判断真伪,如果传播到网络上,就会导致很大的信息危害。如果 AIGC 进一步发展,大家都用模型来制造信息,“谣言”类数据如果被大量发布到网络,人们又通过爬虫把数据抓上来做成训练模型,那必然会导致数据污染,产生负面迭代。恶意使用大规模语言模型,会造成十分恶劣的影响。我今天看到一个例子,佛教徒引诱女施主发生关系,大语言模型可以生成类似的 PUA 文本,就是模型被恶意使用的典型例子。如果落到不法之徒手中,更是不堪设想。这更说明模型的使用需要有规范和约束。绿洲:LLM 在所有场景中的可信可控的要求都很高么?从聆心的角度,是如何让对话做到可信可控的?黄教授:针对不同的应用,例如医疗场景知识的准确性,对犯错的容忍度是极低的;如果是偏情感社交,反而会允许更多的犯错空间;再比如营销文案创作,因为没有标准答案,所以容忍度就很高。我们要做的是一方面改进大模型内生的能力,一方面充分利用大模型本身的优势和劣势,去有针对性地设计产品和方向。从聆心的角度,在安全方面,我们会使用诱导性攻击,看它会什么时候会出错。跟写代码一样,看它有什么 bug,然后进行修复。通过攻击找到漏洞,并使用相应数据重新训练再修复。我们也会设计特定的类别体系,或者攻击手段,有定向性地收集一些数据,使得模型在处理这类数据的时候能够更好地应对。聆心让模型去学习特定的属性细分,比如价值观、社会属性和个人属性,打成几个维度,让模型在特定的维度下,应该有怎样的说话风格,如何体现自己的价值观、个性风格和社会属性。我们的产品用了底层的属性标注,再让它学到大语言模型中去。我们做的是预训练之后的那部分能力,预训练的数据量很大,时间要求很高,不能支持你去做特别精细的处理。就如同 GPT-3 出来之后引入 SFT 和 RLHF ,就是在补齐后面那一阶段的能力。聆心也是类似的过程。黄教授:目前我们主攻带有情感属性,同时能提供功能性的模型。比如智能助理,新一代的助理不是纯粹简单听你的命令,而是会建立一个长期、牢固的信任关系,在这个关系下,帮助你完成相应的功能。ChatGPT 现在还处在接收指令并执行的阶段,但不能解决情感和社交问题。我认为情感社交加上信息功能,合二为一才是新一代智能助理的概念。人和机器是共生关系,是一个伙伴,能建立长期稳固的信任和情感连接。绿洲:情感是人类最复杂能力之一,如果 AI 有了情感,是否会演变成人类担忧的 AI 威胁?黄教授:AI 的自我意识指的是自发情感,我们现在做的是让机器人可以理解人类的情感,并依据理解做出相应的决策和行为,支持或者疏导人类的情感,去产生“同理心”的表达,并不是机器自主的情感。机器自主情感的那部分是未来有趣的研究方向,可能会涉及“人工心理”或者“人工情感”,机器自己去发展情感和精神状态,这是更难的研究了。绿洲:AIGC 浪潮下,这个“人工智能的 iPhone ”时代,对国内的科技公司而言,是怎样的一个时代呢?黄教授:(笑)也好,也不好。说好,AIGC 的确是个风口,意味着更多的关注、会有更多的资本和资源的投入;不好的地方是容易陷入恶性竞争和重复投入,最后变成资源浪费的局面。但最终还是大浪淘沙,真正有实力的会留存下来。当前整个节奏太快,人才疯抢,会产生通货膨胀等等负面的问题。黄教授:聆心本身是清华的班底,对底层的技术都很了解,团队人才搭建上相对简单。但是对于一些创业公司而言,面临的问题就会更大一些,可能需要到社会上去高薪挖人,如果遇到没有底线的公司,高价恶意竞争的话,整个生态从长远来讲是会受到影响的。绿洲:您觉得 AIGC 具备商业价值的落地场景有哪些?黄教授:游戏、金融、教育等行业都会产生正向促进。比如游戏公司的素材创建,很显然会降低游戏创作成本;金融行业会产生新一代的金融助手。教育行业而言,传统的教育指导老师角色可能会被颠覆,学习的模式也会发生改变。从更大的角度去看,也会面临新的” AI 社交“。什么是“AI 社交”,比如我们不愿意和人聊天,反而更愿意和 AI 去聊天,AI 的能力进化到让你觉得对人的需求没有那么大了,就会产生新的社交形式。我们也观察到,年轻的一代很善于在虚拟世界交流,他们崇拜数字偶像、数字 IP 、数字人,对于 AI 互动以及相关的新兴事物的接受度都很高。ChatGPT 相当于做了一次全民 AI 科普,未来人和人的社交一定会存在,不可能完全被替代,但是人和 AI 的社交可能会占很大一部分,因此这也是聆心目前在看的大方向。我认为未来情感和社交等人类最基础的需求,是存在很大的市场空间的。绿洲:国内外很多公司都在思考虚拟人情感对话的领域,从技术层面看,聆心如何去做竞争?黄教授:核心是选择适合自己的场景和优势。ChatGPT 的专业能力,如果要产生价值,让用户付费买单,还是需要很多优化。无论是教育还是任何的一个场景,都需要深入优化。这些深入的优化就是现在的创业者应该去补齐的那部分,可能是最后1公里,也可能是最后3公里,都和你场景里的应用特点有关。要尽快找到产品和市场的契合点,切入之后有数据让自己更好。现阶段,数据跑起来,产品跑起来是核心。从聆心的角度而言,首先要打造一个市场领先的底座;然后提供标准化的产品,比如给数字人提供大脑,我们提供一整套的解决方案,让对方自己能实现配置和定制化;再往后是深入切入一个行业深耕,建立起商业场景,数据和模型的闭环。这就是当下我们思考的基本步骤和路线。绿洲:阿里巴巴的"通义千问"官宣内测,大厂抢跑的竞争格局之下,如何才能让企业脱颖而出?黄教授:阿里的我还没试过,猜测和其他大厂的发布八九不离十,可以预见大厂现阶段的能力水平都不相上下,和 ChatGPT 也都有一大截的差距。物以稀为贵,多了就不贵了。现在如何去评估和使用这些模型,反而变得更重要了。企业脱颖而出关键是模型发布后的可持续发展路径,以及如何去实现商业的变现,最主要是找准自己的应用场景和整体站位。目前公司基本是几大类:一类是直接提供大模型,一类是做应用,同时有底层的能力;第三类是直接做应用。大部分公司如果能找好自己的场景,并结合数据,能和模型本身的能力迭代,这个公司就会相对有竞争力。我觉得最终市场上是不会有所谓的底层模型公司的,市场上目前大部分的公司并不是为了实现 AGI 这个梦想而存在,只是追逐短期的商业利益。对聆心而言,因为我们定位是个性化,融合情感,可信可控可配,本身也不是跟大厂去竞争,所以不会有很大压力。那些做底层 OpenAI 的公司,可能会面临更大的竞争压力。黄教授:我们一直关注这方面的进展,国内外都推出了一堆开源模型,号称做到了 ChatGPT 差不多的水平,然而仔细去看,其实还差得挺远的。这些内容只相当于做到了 ChatGTP 比较容易的一部分。你的能力体现在大部分模型都做不了的时候,你能做什么?我觉得这也是没有深入研究而对公众产生的信息误导。从我们的研究来看,在一些难的范例上,现在的开源模型是很差的。绿洲:你觉得 OpenAI 为何不去考虑情感场景下的范例?是因为在它商业化的占比太小?还是因为做通用很难顾及?黄教授:也不能说这部分商业化太小。Google、Facebook 的研究,包括 Bard,Manychat,Blender,几个大厂最早关于这块的研究其实都是从情感和社交角度去做的,空间并不小。ChatGTP 做成了一个任务助理,颠覆了之前 AI 助手的概念,OpenAI 在一个任务里可以完成各种各样的开放任务,ChatGPT 确实又是生产力工具,更容易被大家所接受,这就是它一下爆出来的原因。ChatGPT 并没有优化情感和共情等部分,它的定位很清晰,就是机器人属性,而且 OpenAI 甚至有意规避这些问题。但这些可能恰恰是 ChatGPT 本身具有的特殊能力,这反而让聆心看到的一些新的机会,我们希望去打造更独特的那一部分,而不是单纯只去看开源的内容。我们还要保持对 ChatGPT 能力和结论的存疑,因为数据本身的使用存在偏见,那结论也是带有偏见的。微软最近出了一篇论文说做到了和 ChatGPT 相当的水平,但实际上他们用的范例都是简单的范例。绿洲:Maithra Raghu (Samaya AI), Matei Zaharia (Databricks), Eric Schmidt (Schmidt Futures) 最近发布了一篇文章 < Does One Large Model Rule Them All? >,表示未来很难有一家独大的大模型,对此您怎么看?黄教授:领域的专有模型肯定会出来,目前大家有些狂热,觉得可能一个大语言模型,或者一个底座,或者更直白一点:一个 OpenAI 以后就什么事都能干了。这个想法很快就会被证伪,最后大家会发现,还是要做领域优化。比如做一个医疗领域的大模型,是否少量的数据就够呢?还是需要大量的领域数据来训练?知识的准确性如何才能保证?一个通用模型是否真的能够适应所有的商业场景?我觉得不是的,一定有领域适配的问题。只不过我们可能比之前用更低的成本、更快的速度去适配了。也不排除有些领域,比如医疗,依然是需要很多脏活累活的。绿洲:聆心在牵头代表清华打造中文大模型的安全评估框架,初衷是什么呢?黄教授:可以预想,开源模型会越来越多,越来越流行,每个人都可以开源。那你如何去评估这些模型本身的安全性?再进一步,如何评估这些模型的能力?每个人都说自己的模型牛,那评估标准是什么?它们是否存在或者会产生风险?这是相当重要且紧迫的问题。我们在做的就是去定义和构造一些数据集,定义一些标准和评测方法,让大家在一个相对公平的基础上去做公平的比较,这对于整个领域的发展和推动也是重要的一环。最近我们也会写一篇这方面的论文。黄教授:真正的 AGI 有几个层次。第一层是实现高度的个性化和定制化,允许用户去定制,去配置 AGI 的一些特定属性和行为。大语言模型要实现个性化,首先通过少量的配置,让大语言模型表现出不同的行为和特征,以适应不同的用户;另一方面是大语言模型能够动态地去学习和适配用户的行为特点。这是两端的个性化:一个是用户侧,一个是系统侧。大语言模型要有一定的个性,才能说它成为了一个“特定的人”,去适应用户的特点和行为;第二层是拟人化特征,即社交情感属性,将功能属性和社交情感属性很好地融合;第三层是 AI 要知道去学会外部工具或者插件的使用,它知道如何去利用工具补足自己的短板。人类在不知道的时候,就需要寻求外部资源。比如你们和我聊天,突然问我,你知道量子力学的基本原理是什么?我可能不知道,那我也不能胡说啊;或者你们问我可控核聚变未来 5 年能不能实现,那肯定也不能胡说。这时候我可能就会去网上搜索,或者找更专业的大咖去讲解一下。但是如果你现在去问 ChatGPT 同样的问题,它一定和你胡说对不对?简而言之,要实现 AGI,模型得知道自己知道什么,自己不知道什么,不知道的用什么合适的行为去处理,这就是其中的智慧。参赞生命力
绿洲资本是中国新一代风险投资机构,致力于发现中国未来十年最有生命力的企业家,并与他们共同成长,创造长期价值。 “参赞生命力”是绿洲的愿景和使命。这种生命力(Vitality),既是时代结构性变革的方向,亦是企业家坚韧和进化的力量。
绿洲资本专注于早期和成长期投资,单笔投资300万到3000万美金,重点投资机器人、人工智能、科技服务等领域,助力中国科技驱动的新服务升级。