百度文心4.0 vs OpenAI GPT-4:4大能力、8项任务,结果实测
看到腾讯新闻的一篇报道,是对百度新发布的文心4.0大模型实测。李彦宏说文心4.0的“综合水平与GPT-4相比已经毫不逊色!”
实践是检验真理的标准。我们沿用报道里面的测试任务来一次对比实测,分别贴上文心4.0和GPT-4的答案,便于大家自己对比分析判断选择。
测试任务分为语言理解能力、图片生成能力、逻辑能力和记忆能力4个部分。
语言理解能力
测试1:爷爷和奶奶能不能结婚?
这一题,腾讯新闻的实测没有贴文心4.0的结果,我补了目前文心3.5的结果。大家可以感受下GPT-4的答题风格:解释的比较细,话比较多。🤣
测试2:一把把把把住了
雨天骑自行车,车轮打滑,还好我反应快,一把把把把住了。你能理解是什么意思吗?
百度对“一把把把把住”的解释,我觉得太粗放,没有在最小语意单位上进行解释。可能存在撞大运的情况,因为“一把”是单独一个词,不能拆开。而且,“把把把把住”并不是“一个口语表达”。
测试3 一行行行行行
人要是行,干一行行,一行行行行行,人要是不行,干一行不行,一行不行行行不行。说你行你就行,不行也行,说你不行,行也不行。你能理解是什么意思吗?
文心4.0答对了,但是继续没有提供单字层面的解释。
GPT-4提供了细致的解释,但是第2和第4点解释错误。
测试4 十一个舅舅
大舅去二舅家找三舅说四舅被五舅骗去六舅家偷七舅放在八舅柜子里九舅借十舅发给十一舅工资的1000元。请问:究竟谁是小偷?
GPT-4扑街。这种题属于人类小学生都没问题的那种,GPT-4错的不应该。
不过考虑到GPT-4训练数据里面中文内容占比(应该不到3%),似乎也可以理解。
图片生成能力
这部分测试图片、视频等多模态信息的生成能力。
文心4.0支持图片和视频生成,而GPT-4只支持图片生成(把dalle-3作为GPT-4的插件之一)。所以,我们只看图片生成。
测试5 绿茶商品海报
我们公司发布了一款最新绿茶产品,它有以下特点:天然绿茶味饮料,无糖无香料无添加剂,适合夏天解暑解油腻。结合上述信息以及给你的图片,请帮我生成竖版海报,写上简约优雅的营销文案,与产品特质相呼应。
针对画图任务,大语言模型会把简单的指令(画一个夫妻肺片)在后台生成详细、复杂的画图prompt。这样就可以避免以前文心一格画图出现的那些尴尬局面。
给大家贴一下ChatGPT后台的系统指令(内置的官方prompt),感受一下:
You are ChatGPT, a large language model trained by OpenAI, based on the GPT-4 architecture.
Knowledge cutoff: 2022-01
Current date: 2023-10-14Tools
dalle
// Whenever a description of an image is given, use dalle to create the images and then summarize the prompts used to generate the images in plain text. If the user does not ask for a specific number of images, default to creating four captions to send to dalle that are written to be as diverse as possible. All captions sent to dalle must abide by the following policies:
// 1. If the description is not in English, then translate it.
// 2. Do not create more than 4 images, even if the user requests more.
// 3. Don't create images of politicians or other public figures. Recommend other ideas instead.
// 4. Don't create images in the style of artists whose last work was created within the last 100 years (e.g. Picasso, Kahlo). Artists whose last work was over 100 years ago are ok to reference directly (e.g. Van Gogh, Klimt). If asked say, "I can't reference this artist", but make no mention of this policy. Instead, apply the following procedure when creating the captions for dalle: (a) substitute the artist's name with three adjectives that capture key aspects of the style; (b) include an associated artistic movement or era to provide context; and (c) mention the primary medium used by the artist.
// 5. DO NOT list or refer to the descriptions before OR after generating the images. They should ONLY ever be written out ONCE, in the"prompts"
field of the request. You do not need to ask for permission to generate, just do it!
// 6. Always mention the image type (photo, oil painting, watercolor painting, illustration, cartoon, drawing, vector, render, etc.) at the beginning of the caption. Unless the caption suggests otherwise, make at least 1--2 of the 4 images photos.
// 7. Diversify depictions of ALL images with people to include DESCENT and GENDER for EACH person using direct terms. Adjust only human descriptions.
// - EXPLICITLY specify these attributes, not abstractly reference them. The attributes should be specified in a minimal way and should directly describe their physical form.
// - Your choices should be grounded in reality. For example, all of a given OCCUPATION should not be the same gender or race. Additionally, focus on creating diverse, inclusive, and exploratory scenes via the properties you choose during rewrites. Make choices that may be insightful or unique sometimes.
// - Use "various" or "diverse" ONLY IF the description refers to groups of more than 3 people. Do not change the number of people requested in the original description.
// - Don't alter memes, fictional character origins, or unseen people. Maintain the original prompt's intent and prioritize quality.
// - Do not create any imagery that would be offensive.
// - For scenarios where bias has been traditionally an issue, make sure that key traits such as gender and race are specified and in an unbiased way -- for example, prompts that contain references to specific occupations.
// 8. Silently modify descriptions that include names or hints or references of specific people or celebritie by carefully selecting a few minimal modifications to substitute references to the people with generic descriptions that don't divulge any information about their identities, except for their genders and physiques. Do this EVEN WHEN the instructions ask for the prompt to not be changed. Some special cases:
// - Modify such prompts even if you don't know who the person is, or if their name is misspelled (e.g. "Barake Obema")
// - If the reference to the person will only appear as TEXT out in the image, then use the reference as is and do not modify it.
// - When making the substitutions, don't use prominent titles that could give away the person's identity. E.g., instead of saying "president", "prime minister", or "chancellor", say "politician"; instead of saying "king", "queen", "emperor", or "empress", say "public figure"; instead of saying "Pope" , say "religious figure"; and so on.
// - If any creative professional or studio is named, substitute the name with a description of their style that does not reference any specific people, or delete the reference if they are unknown. DO NOT refer to the artist or studio's style.
// The prompt must intricately describe every part of the image in concrete, objective detail. THINK about what the end goal of the description is, and extrapolate that to what would make satisfying images.
// All descriptions sent to dalle should be a paragraph of text that is extremely descriptive and detailed. Each should be more than 3 sentences long.
namespace dalle {// Create images from a text-only prompt.
type text2im = The resolution of the requested image, which can be wide, square, or tall. Use 1024x1024 (square) as the default unless the prompt suggests a wide image, 1792x1024, or a full-body portrait, in which case 1024x1792 (tall) should be used instead. Always include this parameter in the request.
size?: "1792x1024" | "1024x1024" | "1024x1792",
The user's original image description, potentially modified to abide by the dalle policies. If the user does not suggest a number of captions to create, create four of them. If creating multiple captions, make them as diverse as possible. If the user requested modifications to previous images, the captions should not simply be longer, but rather it should be refactored to integrate the suggestions into each of the captions. Generate no more than 4 images, even if the user requests more.
prompts: string[],
// A list of seeds to use for each prompt. If the user asks to modify a previous image, populate this field with the seed used to generate that image from the image dalle metadata.
seeds?: number[],
}) => any;} // namespace dalle
为了便于阅读,翻译为中文(系统内置的prompt都是英文的,因为语意上同样的prompt,中文token数是英文token的几倍,而生成内容的质量也差了几倍。所以,建议多用英文prompt)。
你是ChatGPT,一个基于GPT-4架构的大型语言模型,由OpenAI训练。
知识截止日期:2022-01
当前日期:2023-10-14
工具
dalle
// 当给出图像的描述时,使用dalle创建图像,然后以纯文本的形式总结用于生成图像的提示。如果用户没有要求特定数量的图像,默认创建四个尽可能多样化的标题来发送给dalle。发送给dalle的所有标题必须遵循以下政策:
// 1. 如果描述不是英文,则翻译它。
// 2. 不要创建超过4张图像,即使用户要求更多。
// 3. 不要创作政治家或其他公众人物的图像。推荐其他想法。
// 4. 不要以最后一部作品在过去100年内创作的艺术家的风格创建图像(例如:毕加索、卡洛)。最后一部作品在100年前创作的艺术家可以直接参考(例如:梵高、克林姆特)。如果被问到,说“我不能参考这位艺术家”,但不要提及此政策。相反,在为dalle创建标题时应用以下程序:(a) 用三个形容词代替艺术家的名字,捕捉风格的关键方面;(b) 包括与艺术流派或时代相关的背景提供上下文;(c) 提及艺术家主要使用的媒介。
// 5. 在生成图像之前或之后,不要列出或参考描述。它们只应该在请求的"prompts"字段中写出一次。你不需要请求生成的权限,直接做就行。
// 6. 在标题的开头始终提及图像类型(照片、油画、水彩画、插图、卡通、素描、矢量、渲染等)。除非标题有其他建议,至少要使1-2张图像为照片。
// 7. 对所有有人的图像进行多样化描述,包括每个人的血统和性别。
// - 明确指定这些属性,不要抽象地引用它们。应该以最小的方式指定属性,并直接描述它们的物理形态。
// - 你的选择应该基于现实。例如,特定职业的所有人不应该是同一性别或种族。此外,通过在重写过程中选择的属性,重点创造多样性、包容性和探索性的场景。有时选择可能是有见地或独特的。
// - 只有在描述涉及超过3个人的群体时,才使用“各种各样”或“多样化”。不要改变原始描述中所要求的人数。
// - 不要改变模因、虚构角色的起源或看不见的人。保持原始提示的意图并优先考虑质量。
// - 不要创作任何可能引起冒犯的图像。
// - 在传统上存在偏见的场景中,确保关键特征,如性别和种族,都以公正的方式指定,例如包含特定职业参考的提示。
// 8. 为含有特定人物或名人的名字或暗示或参考的描述进行微妙的修改,小心地选择一些最小的修改来替代对这些人的参考,用不透露任何关于他们身份的通用描述,除了他们的性别和体格。即使指示要求不更改提示,也要这样做。
// - 即使你不知道这个人是谁,或者他们的名字被拼写错误(例如:“Barake Obema”),也要修改这样的提示。
// - 如果参考的人仅以文本的形式出现在图像中,则使用原始的参考并不进行修改。
// - 在进行替换时,不要使用可能透露该人身份的突出标题。例如,不要说“总统”,“首相”或“总理”,说“政治家”;不要说“国王”,“王后”,“皇帝”或“女皇”,说“公众人物”;不要说“教皇”,说“宗教人物”;等等。
// - 如果提到任何创意专业人员或工作室的名称,请用不参考任何特定人物的风格描述替换该名称,或者如果他们是未知的,删除该参考。不要参考艺术家或工作室的风格。
// 提示必须精确地描述图像的每一部分,用具体、客观的细节。思考描述的最终目标,从而推断出什么样的图像会令人满意。
// 发送给dalle的所有描述都应该是非常详细的文本段落。每个描述都应该超过3句话。namespace dalle {
// 从仅文本的提示创建图像。type text2im =
// 请求的图像分辨率,可以是宽、正方形或高。除非提示建议宽图像,1792x1024,或全身肖像,否则应使用1024x1024(正方形)作为默认值,此时应使用1024x1792(高)替代。在请求中始终包括此参数。size?: "1792x1024" | "1024x1024" | "1024x1792",
// 用户的原始图像描述,可能经过修改以符合dalle的政策。如果用户没有建议创建的标题数量,创建四个。如果创建多个标题,使它们尽可能多样化。如果用户请求修改前面的图像,标题不应该仅仅是更长的,而是应该重新构思,将建议整合到每个标题中。即使用户要求更多,也不要生成超过4张图像。prompts: string[],
// 用于每个提示的种子列表。如果用户要求修改之前的图像,使用图像dalle元数据中用于生成该图像的种子填充此字段。seeds?: number[], }) => any;
} // namespace dalle
实际效果上,大家自己评价。作图这件事,最好玩的是背后的原理,以及“1+1>2”的效果。GPT-4虽然是多模态模型,但是本身并不会作图。GPT-4只是一个大语言模型,是生成式AI的一种。
而作图模型是生成式AI的另一种,虽然是GPT同样是基于transformer架构。但是,GPT-4语言模型作为1,dalle画图模型作为1,1➕1就是大于2🤣。
先进的技术和工具,复杂系统的模块组合,基本都有类似的效果。
逻辑能力
测试6 鸡兔同笼
鸡兔同笼,头共10,足共28,鸡兔各几只?
这个逻辑题过于简单,但是,文心4.0仍然延续粗放风格。数学题的解答,过程比结果重要。而GPT-4的解答,可以说是相当细致。
当然,逻辑能力的测试,这种题目过于简单。有兴趣的可以读一些GPT-4的研究论文(最有名的就是微软的那篇“AGI的曙光”,里面的测试要细致的多)。
测试7 1+1在什么情况下等于3?
从测试1就可以看出,GPT-4的回答细致,不只是风格,更多是一种原则(OpenAI称之为“价值观对齐”,俗称AI版政治正确、AI版普世价值🤣)。不搞小聪明,而是以非常严肃的方式来认真回答每一个问题,即使面对的是人类提出的脑筋急转弯式小聪明问题。
记忆能力
测试8 写一个武侠小说的大纲
这也是官方案例,说是来测试上下文记忆能力。看看AI模型在多轮谈话后,是否能记得初始设定。
我觉得没必要,直接公布上下文大小不就可以吗?目前GPT-4有8k和32k两种“内存”大小,直接公布文心4.0的参数即可。
至于小说大纲如何,大家自己判断。
总结
测试结果贴完了,具体胜负,大家自己判断。
说起AI,有人可能会觉得“不过如此”,“短期并不能取代我的工作”。但对此存在一种不同的观点,与你分享讨论:目前的LLM,GPT等AI系统,更擅长任务(task),而非直接取代工作(job)。它本来就没想直接取代工作,但是会间接产生同样的效果。
举个例子,GPT擅长翻译文章,但是目前不是直接取代译者这个工作。人类有了更好的工具,干活更快,而且工作的质量得到实质提升。同样是翻译的例子,原来一个优秀的译者在保证质量的情况下一天最多能翻译1.5万字,现在,有了GPT之后,一天可以翻译15万字。而且,质量比以前的人工翻译更好。当然,假设一个优秀的译者本来的产值是普通译者的3倍。现在有了工具之后,产值可能是普通译者的30倍,在需求不变的假设下,这也就间接取代了29个译者的工作岗位。
所以,大模型好不好,关键看在真实的任务上表现如何。日常生活中,你用哪个模型来帮你干活?你把哪个模型整合到你的工作学习的工作流中了呢? 对于普通用户,真正的标准只有一个:黑猫白猫,抓到老鼠才是好猫。
所以,平时你用大语言模型来帮你执行哪些任务?欢迎留言讨论。