AINLPer

其他

斯坦福 | 曼宁教授长文梳理:NLP的四个时代,横跨70年,指出模型发展前景!

点击上方“AINLPer“,设为星标更多干货,第一时间送达引言 今天给大家分享的这篇文章,斯坦福曼宁教授于2021年10月份完稿的(比ChatGPT还要早上一年),最近才发布到期刊上的。由于原文比较长,所以作者结合自己的理解做了一些整理,感兴趣的可以阅读一下原文。「本篇文章主要概述了整个自然语言处理的发展过程,介绍近年NLP的发展以及相关神经网络模型技术,最后给出了未来语言模型的发展方向」。文章是2021年底完稿的,结合目前的语言模型的发展趋势,可以发现曼宁教授的预测太准了,和他两年前的预测基本一致!感兴趣可以翻到最后,他的预测今天照样适用。https://www.amacad.org/publication/human-language-understanding-reasoning伟大的人类语言 在过去的十年里面,人们在自然语言处理方面取得了巨大的进步。其中主要做法是:对简单的神经网络进行拓展构建大型语言模型框架,然后利用海量的数据进行训练。由此产生的预训练语言模型如:Bert、GPT、LLaMa等,此类模型可以提供通用的语言理解和文本生成能力,可以轻松适应许多理解、写作和推理任务。此类模型触摸到了真正人工智能的门槛,这也会引领在语言之外的领域构建强大的基础模型。 当科学家考虑人工智能时,大多会想到重建人脑的能力。但现代人类的智能远不止单个大脑的智能。「人类语言是非常强大的,并且已经改变了我们的物种,因为它提供了一种将人类大脑联系在一起的方式」。一个人可能并不比我们的近亲黑猩猩或倭黑猩猩聪明多少,因为类人猿已被证明拥有人类智慧的标志性技能,例如使用工具和制定计划,此外他们短期记忆力要比我们好。对于人类何时发明了语言,这或许永远是个谜!但在地球生命漫长的进化史中,人类最近才发展出了语言,人类、猿类、猴子的共同祖先可以追溯到大约
2023年9月3日
其他

Less is More! 上交清源 && 里海 | 利用200条数据微调模型,怒超MiniGPT-4!

对于大型语言模型的微调对齐,并不是说微调数据越多越好。这一结论在Zhou等人发表的关于LIMA的论文中指出,他们选择750条数据集对LLaMA-65B进行微调得到LIMA模型,其性能非常好,甚至接近
2023年8月30日
其他

质量>数量!数据对大型语言模型(LLM)整个生命周期的影响!

点击上方“AINLPer“,设为星标更多干货,第一时间送达引言 自去年底ChatGPT发布以来,大型语言模型(LLM)的性能极大的吸引了人们的注意力。在此过程中,我们逐渐的开始思考当前LLM发展过程。相比传统的自然语言模型,LLMs为什么能做到如此令人印象深刻的效果?针对该问题,尽管人们争论不断,但一项特别有影响力的进步是执行对齐的能力,这是毋庸置疑的。通俗来说,不管是通过指令信息还是检索信息,「人类已经明白如何训练LLM,使其不仅能够准确预测出下一个单词,而且输出的文本还能满足人们的目标」。 今天给大家分享的这篇文章将主要「研究对齐的作用与影响,以及对齐和预训练之间的相互作用」。比如,最近的
2023年8月29日
其他

卡内基梅隆 && 清华 | Prompt2Model:利用大模型Prompt,实现专有NLP模型生成!

除了训练数据之外,还必须选择合适的模型来进行微调。本文将其视为一个检索问题,其中每个模型都由用户生成的描述和元数据(例如受欢迎程度或支持的任务)表示。本文模型检索器的参考实现在Hugging
2023年8月28日
其他

远超GPT-4!微调Code Llama,WizardCoder 代码能力达到 惊人的73.2%!

COT(思维链)在起作用,这非常棒。还有人表示,WizardCoder-Python-34B-V1.0
2023年8月27日
其他

重磅!Meta官方发布:Code Llama,3个版本,支持10万Token,接近GPT-4,可商用!

位。论文地址:https://ai.meta.com/research/publications/code-llama-open-foundation-models-for-code/GitHub
2023年8月25日
其他

All In One!Meta发布SeamlessM4T,支持100种语言,35种语音、开源、在线体验!

点击上方“AINLPer“,设为星标更多干货,第一时间送达引言 多语言识别翻译的研究一直都是学术界研究的重点。目前全球有几千种语言,在全球化背景下不同语言人群之间的交流越来越密切,然而学习一门外语的成本是非常大的。前两年的研究主要集中在一对一、一对多的研究,然而当面对这么多的语言时,既需要「考虑模型准确率,还需要考虑语种的识别」。最近,随着人工智能大型自然语言模型的发展,利用统一模型实现多语种识别翻译来实现不同语种之间交流逐渐的变成了可能。 最近「Meta刚刚发布的SeamlessM4T」,它在近「100种语言」中实现了最先进的结果,并在自动语音识别、语音转文本、语音转语音、文本转语音和文本转语音等方面实现了多任务支持——「全部集中在一个模型中」!Paper:https://ai.meta.com/research/publications/seamless-m4t/Code:https://github.com/facebookresearch/seamless_communicationDemo:https://huggingface.co/spaces/facebook/seamless_m4tSeamlessM4T 构建通用语言翻译器是非常具有挑战性,因为现有的语音到语音和语音到文本系统仅涵盖世界语言的一小部分。SeamlessM4T
2023年8月23日
其他

纯干货!Prompt链式方法总结,灵活驾驭各种大模型!

点击上方“AINLPer“,设为星标更多干货,第一时间送达引言 之前,写了一篇关于大型语言模型Prompt应用的文章[纯干货!最全Prompt工程方法总结,与ChatGPT、GPT-4等LLMs的交互更高效!],其中主要是让大家能够更加全面的了解Prompt工程,以及如何应用Prompt来引导大型语言模型LLMs完成任务。但是之前的文章主要介绍应用单个Prompt来完成特定的任务。然而,当面对复杂任务的时,单一的Prompt是不够的,我们需要将Prompt链接在一起才能完成。今天这篇文章主要集中在Prompt链式方法介绍用于实现复杂任务生成,其中主要包括:顺序Prompt链、并行Prompt链、抽样Prompt链、树状Prompt链、循环Prompt链。顺序Prompt方法 按顺序的方法是链接Prompt最常见的方法。其关键思想是:当单个提示中提供的任务变得太长或太复杂并且包含许多不同的指令,则响应可能无法捕获所需的细节和粒度。在这种情况下,可以将该任务分解为多个子任务。一个子任务的响应会成为另外一个子任务的Prompt,按照顺序走下去直到任务完成。如下图所示: 下面是一个关于故事生成的示例。在这里想要生成一个长故事,其中包含由一组信息(人物、故事节奏和地点)引导的对话。现在,可以将所有这些信息填充到一个提示中,但这可能会淡化我们希望对话框包含的关键细节。 此外,一开始的时候我们不想编写所有的细节,而是希望模型替我们生成。我们想要提供的只是我们想要的故事内容的简短摘要,这也是我们唯一的Prompt。下图总结了生成最终对话框所涉及的链。首先,人类输入故事摘要,该摘要将成为生成角色列表的提示,然后该列表将成为生成故事节拍的提示,依此类推,直到我们进入对话生成阶段。 相比单个Prompt,按照顺序进行链接Prompt的另外一个好处是:可以对各个链接Prompt节点进行人工检查。当响应结果不满足设想的标准,可以让模型重新生成。通过节点阶段分析,使得对复杂的生成人工智能任务进行评估和质量控制变得容易。并行Prompt方法 当子任务相互依赖时,需要顺序Prompt链。但是当它们独立时,我们可以并行运行它们,然后将结果进行组合。如下图所示: 假设我们正在构建一个应用程序,该应用程序可以生成一周的创意食谱,然后生成供用户购买的食材购物清单。在这种情况下,给定用户输入,例如进餐次数或天数,我们可以并行运行食谱生成步骤。提示可能类似于以下内容:Prompt={“帮我生成一份快捷简单的7天菜谱,并以Json的形式输出,其中key为“食材成分”和“制作说明””} 接下来,将在所有菜谱中重复生成食谱。一旦完成,我们可以将每顿饭的食材合并成一个用户可以立即使用的购物清单。Prompt={“根据“食材成分”将食材合并成一个单一的购物清单,不要重复。”}抽样Prompt方法 如果一项任务涉及逻辑推理,例如数学问答,则可能有不止一种方法来解决给定问题。在这种情况下,我们希望鼓励模型在探索不同的解决方案时更具创造性。但提高模型创造力(即提高“temperature”)也意味着模型得到错误答案的可能性也会提高。 解决方案是,可以重复多次向模型Prompt相同的问题,然后选择大多数人的回答。具体如下图所示: 让我们看一下Wang等人的论文中的一个例子。他们引入了自我一致性的概念。Wei等人提出的思想链提示的概念,其中模型的Prompt方法是鼓励模型在给出最终响应之前进行推理步骤(参考论文链接:https://arxiv.org/pdf/2203.11171.pdf)。然而,在这些设置中,通常鼓励模型进行“贪婪解码”,这意味着偏向正确且安全的路径。这可以通过调整“temperature”值等设置来完成。 凭借自我一致性,我们可以通过从多个路径进行采样来构建思想链方法。我们还通过将设置调整为更具“创意”,再次使用“temperature”等设置,使路径更加多样化,然后我们对所有答案进行多数投票。 下图说明了自我一致性的概念。它展示了一个比较使用贪婪解码方法的单个解决方案的结果和使用更多样化的解码方法的多代采样解决方案的结果的示例。前者没有得到正确的答案,而后者却得到了正确的答案。树状Prompt链 树状Prompt链,其实就时思维树(ToT)。在之前的链式模式的基础上,当问题更加复杂并且需要更细粒度的推理步骤时,将步骤分解成多个部分会很有帮助。在每一步中,我们鼓励模型探索不同的解决方案,投票选出最佳解决方案,然后继续下一步。这在故事写作等创意应用中也很有用。相比将模型限制在单一路径,让模型探索不同的故事想法更有趣,从而提高最终输出的质量。 让我们用Yao等人的一个具体例子来介绍思想树的概念(参考论文链接:https://arxiv.org/pdf/2305.10601.pdf)。下图说明了这个概念与直接输入输出提示、思维链和思维链自我一致性的区别。在每一步,模型都会生成几个不同的解决方案。然后使用单独的提示来评估这些解决方案并投票选出最佳解决方案。重复该过程直到完成最后一步。 这是论文中展示的创意写作任务的示例之一。下图显示了初始输入,其中包含四个看似不相关的句子的列表
2023年8月21日
其他

OpenAI公布「官方爬虫」:GPT-5靠它训练,有需要可以屏蔽

阻止它,但有些人认为允许它这样做没有任何好处,不像搜索引擎爬虫会带来流量。一个值得关注的问题是,受版权保护的内容会在未注明出处的情况下被使用。ChatGPT
2023年8月8日
其他

UC 伯克利 | Dynalang多模态模型:利用语言预测未来

点击上方“AINLPer“,设为星标更多干货,第一时间送达|转自机器之心当前,人与智能体(比如机器人)的交互是非常直接的,你告诉它「拿一块蓝色的积木」,它就会帮你拿过来。但现实世界的很多信息并非那么直接,比如「扳手可以用来拧紧螺母」、「我们的牛奶喝完了」。这些信息不能直接拿来当成指令,但却蕴含着丰富的世界信息。智能体很难了解这些语言在世界上的含义。图源:谷歌机器人团队论文「Interactive
2023年8月6日
其他

主打一个中英文自由切换!中文版 开源Llama2 多模态大模型,完全可商用!

开发团队负责人史业民表示,「放眼全球,目前如何让『模型听世界、看世界』仍然没有可靠的开源模型可用。我们希望能够尽微薄之力,让中国大模型生态距离国际领先标准再近一些。」语音到文本多模态开源对话模型
2023年8月4日
其他

清华等提出新框架:ToolLLM,增强大模型API调用能力,性能堪比ChatGPT!

相媲美。论文地址:https://arxiv.org/pdf/2307.16789.pdf项目地址:https://github.com/OpenBMB/ToolBenchToolLLaMA
2023年8月2日
其他

阿里 & 蚂蚁| 提出组合式的多概念定制生成方法,图片质量飞升!

作为现有的多定制概念生成方法仍存在两个挑战:首先,他们需要为每一种多个概念的组合都学习单独的模型,这可能会受到以下影响:1)无法利用已有的模型,比如一个新的需要定制的多概念组包含三种概念
2023年8月2日
自由知乎 自由微博
其他

最新!斯坦福 多模态医疗模型:Med-Flamingo,支持Few-shot问答,模型开源!

点击上方“AINLPer“,设为星标更多干货,第一时间送达引言 就医学而言,它涉及各个方面知识,需要整合各种信息。医学生成视觉语言模型(VLM)朝这个方向迈出了第一步,并有望带来更多的临床应用。然而,现有模型通常需要基于大量的下游数据集进行微调,这对于医学领域来说是一个相当大的限制。因为在许多医疗应用中数据稀缺,所以需要模型能够从Few-shot进行学习。Paper:https://arxiv.org/pdf/2307.15189.pdfCode:https://github.com/snap-stanford/med-flamingo 为此,斯坦福提出了Med-Flamingo,一种适用于医学领域的多模态少样本学习器。该学习器基于OpenFlamingo-9B,对出版物和教科书中成对和交错的医学图像-文本数据进行预训练,解锁了Med-Flamingo小样本生成医学视觉问答(VQA)能力,实验结果显示Med-Flamingo在临床医生的评分中将生成医学VQA的性能提高了20%。背景介绍 面对大量的任务,大型预训练模型(或基础模型)通过仅提供一些带标签的示例作为上下文就能表现出了卓越的能力。这也被称为上下文学习(In-Context
2023年8月1日
其他

纯干货!最全Prompt工程方法总结,与ChatGPT、GPT-4等LLMs的交互更高效!

点击上方“AINLPer“,设为星标更多干货,第一时间送达引言 随着生成式人工智能(尤其是ChatGPT、GPT-4)的爆炸性普及,对于人工智能领域的人们来说,写Prompt已经成为了一项越来越重要的技能。然而,当您在实操过程中会发现,并不是乍看起来那么简单的语法任务。当体验完ChatGPT、GPT-4等大模型的新鲜感之后,写Prompt需要个人练习和思考才能快速掌握该技能。因此,根据实际应用场景创建最有效的Prompt(Prompt工程)已经成为LLMs领域内外令人垂涎的专业知识。这也催生出了Prompt工程师的岗位。 本篇文章,将带你全面了解Prompt工程,其中包括:如何在提示中提供对回答影响最大的信息;什么是人物角色、正面和负面提示、零样本提示等;如何迭代利用Prompt来使用ChatGPT、GPT-4等大语言模型(LLMs);如何与LLMs模型进行合作完成任务。简单Prompt工程策略 Prompt工程能够让我们根据具体应用场景高效的使用LLMs。它包括制作清晰而具体的请求指令,以从语言模型中获取所需的响应。通过仔细地构建Prompt,我们可以引导ChatGPT、GPT-4输出准确有用的响应。在ChatGPT的Prompt构建过程中,有几个基本原则需要了解: 首先,在Prompt的开头提供明确的说明,这有助于为模型设置上下文任务。同时,指定预期答案的格式类型也是有益的。此外,您可以通过在提示符中加入系统消息或角色扮演技术来增强交互。下面是一个使用上述技术的示例提示符:将该提示与以下提示进行比较:直观地看,前者将获得更多有用的结果。 您可以通过迭代地改进和实验提示来提高模型响应的质量和相关性,从而创建更有成效的对话。不要害怕直接在ChatGPT上测试潜在的提示。基础Prompt工程策略 上一节主要展示了简单的Prompt工程,下面将会更详细地探讨一些基本的提示工程注意事项。「Prompt关键词对于Prompt工程来说至关重要」。在某些场景下,它是引导出LLMs生成所需答案的关键输入。换种方式来说,以ChatGPT、GPT-4等LLMs能够理解的方式表达问题是非常重要的。例如,如果用户不是某个领域的专家并且不知道表达问题的正确术语,ChatGPT、GPT-4等LLMs给出的答案可能并不及预期。这类似于在不知道正确关键字的情况下在网络上盲目搜索。 对于Prompt来说,附加相关信息可以带来更好的效果,但是过于冗长的附加信息并不一定是最佳的策略。Prompt关键词虽然至关重要,「但最好不要将其视为一种单独的技术,而是将其视为连接其它关键技术的纽带」。「简洁的Prompt对于LLMs输出的清晰度和精确性非常重要」。精心设计的提示应该是简洁明了的,即为ChatGPT、GPT-4等LLMs提供足够的信息来理解用户的意图,但又不会过于冗长。然而,过于简洁的Prompt也会存在问题,因为这样会导致LLMs的输入存在歧义和误解。Prompt的简介和附加关联信息是存在矛盾的,在实际应用过程中需要多加练习是掌握该项技能最好的方法。「在Prompt中添加角色分配和目标设置」。例如,如果有人想要让ChatGPT、GPT-4等LLMs为一本关于机器学习的书写一个引言,明确指出LLMs的角色为机器学习领域的专家,该图书的主要受众是机器学习入门的新手,这肯定会产生比较好的输出结果。在Prompt不管是写:“你是一名机器学习领域的资深专家,请您为机器学习这本书写一篇引言,该书的主要受众是机器学习入门的新手”,还是写“作者:机器学习领域资深专家,受众:机器学习入门新手”,这样都可以在给定的场景进行尝试。并且你会发现,大部分情况下给LLMs分配角色,生成的效果相对较好。 目标与角色密切相关。在Prompt中明确引导交互的目标不仅是一个好主意,而且是必要的。「正负提示是指导模型输出的另一套框架方法」。积极的提示(“这样做”)鼓励模型包含特定类型的输出并生成特定类型的响应。另一方面,负面提示(“不要这样做”)会阻止模型包含特定类型的输出并生成特定类型的响应。使用正面和负面提示可以极大地影响模型输出的方向和质量。例如以下提示:❝“您将担任一名在东京拥有10年经验的房地产经纪人。您的目标是用一段文字总结港区排名前5的小区。目标受众是没有经验的购房者。”❞ 上述提示的框架本质上是积极的,让我们添加一些措辞来阻止某些输出。针对内容指导的负面提示的一个示例可以是在上面的示例中添加以下内容:❝“请不要包含距离最近地铁站超过徒步10分小区。”❞ 这个额外的约束应该有助于ChatGPT、GPT-4等LLMs理解它应该具体生成哪些输出。高级Prompt工程策略 上一节主要介绍了与LLM交互的基础Prompt策略,本节主要介绍一系列更高级的Prompt工程策略,它们能够让您以更复杂的方式与ChatGPT、GPT-4等LLMs进行交互,同时也是Prompt工程师经常用的策略。输入/输出Prompt 输入/输出Prompt策略涉及定义用户向LLM提供的输入以及LLM作为响应生成的输出
2023年7月25日
其他

ICML2023 & 新加坡国立 | 一项关于 Transformer参数设置 的深度研究

点击上方“AINLPer“,设为星标更多干货,第一时间送达引言 今年是Transformer的六周年生日,目前原文引用量已超四万,在应用方面,几乎所有的模型架构都有它的影子,并遵从着Transformer的基础配置(宽度设置为768,深度设置为12)。但您有没有质疑过:Transformer的配置是怎么来的?Transformer的配置能够适合所有的应用场景吗?难道就不能改变吗?今天给大家分享的这篇国际顶会(ICML
2023年7月24日
其他

ACL2023 & Amzon | 知识图谱(KG)检索新框架:DiFaR,无需实体链接!

点击上方“AINLPer“,设为星标更多干货,第一时间送达引言 不论是传统语言模型还是现在飞速发展大语言模型,当面对快速更新迭代的背景知识时都存在一定的局限性。知识图谱(KG)作为大模型的信息补充,可以帮助其更好地理解语言提升模型性能。今天给大家分享的这篇文章,「从知识图谱检索机制出发,分析传统知识图谱检索的局限性,提出了直接事实检索(DiFaR)框架」,实验结果表明,该方法大大优于传统知识图谱KG的pipeline检索方法。Paper:https://arxiv.org/pdf/2305.12416.pdf现有KG的局限性 知识图谱(KG)是由一系列(头实体、关系、尾实体)三元组表示的事实组成,它可以存储大量的知识。在自然语言处理过程中,常用的语言模型由于是基于先验知识训练得到的,模型参数往往是固定的,其所具备的先验知识会存在不完整、不准确和时效性低的问题,当应对热点知识、对话生成等场景时存在一定的局限性。为了弥补语言模型的短板,一个有效的方法是采用KG来增强语言模型的能力。 然而,尽管KG应用广泛,但是现有的图谱检索机制在许多情况下过于复杂。为了从知识图谱中检索事实知识,现有方法主要依赖于三个连续的步骤:跨度检测、实体消歧和关系分类,如上图1a所示。例如,给定输入文本:“Where
2023年7月5日
其他

微软 & 麻省理工 | 实验结果表明:代码自修复能力仅存在GPT-4!GPT-3.5不具备该能力

点击上方“AINLPer“,设为星标更多干货,第一时间送达
2023年6月27日
其他

怒超 GPT-4!LONGMEM:提升大语言模型(LLMs)长文本处理能力,最高可达64k

点击上方“AINLPer“,设为星标更多干货,第一时间送达引言 对于长文本处理,大型语言模型(LLMs)仍然存在短板,即使目前最强GPT-4最多也就支持32k个Token。为了能够提升LLM长文本处理水平,今天大家介绍了一种名为LONGMEM的方法架构,该方法将长文本序列分块并利用存储器进行处理且无需对模型进行重训练,最高可支持64k个Token,有效的提高了模型长文本处理能力,相比GPT-4多了一倍。Paper:https://arxiv.org/pdf/2306.07174v1.pdfCode:https://github.com/Victorwz/LongMem背景介绍 大型语言模型(LLM)已经在自然语言处理领域取得了革命性的进展,在各种理解和生成任务中取得了卓越的成就。大多数LLMs通过在大型语料库上进行自监督训练,从固定长度的局部上下文中获取知识,显示出了优秀能力,如Zero-shot
2023年6月14日
其他

潜力发掘!INSTRUCTEVAL:一个专用于的大型语言模型(LLMs)的全面评估方法

点击上方“AINLPer“,设为星标更多干货,第一时间送达引言 指令调优大型语言模型(LLMs)彻底改变了自然语言处理,不仅如此它们还可以解决数学、计算机编码、生物医学和法律等领域的复杂任务。例如:GPT-4、LLaMA、chatGLM等。虽然此类模型具有很强的下游任务适应能力,但由于模型的黑盒性质对于模型整体能力的评估仍然存在挑战。为此,今天给大家分享的这篇文章:提出了一个「专门针对指令调优大型语言模型的全面评估方法INSTRUCTEVAL」,该评估方法可以从问题解决、写作和人类价值对齐等三个方面对模型进行全面评估。Paper:https://arxiv.org/abs/2306.04757Code:https://github.com/declare-lab/instruct-eval背景介绍 指令调优大型语言模型(如
2023年6月13日
其他

ACL2023 & 复旦 | 模块化Prompt多任务预训练,可快速适应下游任务(含源码)

Learning通常需要针对每个下游任务进行全参数微调,这就需要大量的计算资源,尤其当面对上百亿的大模型的时候。 随着时间推移,近期有很多工作致力于有效的prompt
2023年6月12日
其他

Amazon | 深入研究LLMs与AutoGPT的结合:揭示出GPT-4惊人的人类决策能力!

点击上方“AINLPer“,设为星标更多干货,第一时间送达引言 心理学研究过人们当面对不同意见时的处理方式。当人们往往比较侧重于具有权威的意见,从而忽略忽略极少数的个别意见;并且人们还会比较侧重于自己而忽略其他人的意见。今天给大家分享的这篇文章,作者针对决策任务,对Auto-GPT代理进行了全面的基准研究,探索了大型语言模型(LLM)在决策任务中的应用。「实验结果表明GPT4有了类似于人类的能力,可以从不同的意见中提取有用信息,进行思考和批判然后提高自己的结果」。Paper:https://arxiv.org/pdf/2306.02224.pdfCode:https://github.com/younghuman/LLMAgent背景介绍 最近,将大型语言模型(LLM)应用于自主代理(autonomous
2023年6月6日
其他

近乎完美!最强算术语言模型: Goar-7B,干翻GPT-4,怒越PaLM-540B!24G可训练

点击上方“AINLPer“,设为星标更多干货,第一时间送达引言 前两天,OpenAI对step-by-step数学推理问题发表了最新的研究,指出了「过程监督优于结果监督」的结论,旨在提升GPT-4的数学推理能力。今天给大家分享的这边篇文章就是基于该理论(「好像比OpenAI要早」),旨在提升模型大数计算能力,基于LLaMA预训练了Goat模型,Goar-7B在Zero-shot上的准确效果,堪比、甚至超越PaLM-540B模型的Few-shot结果;在大数计算方面远超GPT-4。Paper:https://arxiv.org/pdf/2305.14201.pdfCode:https://github.com/liutiedong/goat背景介绍 大型语言模型(LLM)在广泛的自然语言处理(NLP)任务中表现出卓越的性能。并且当今最值得注意的是OpenAI的GPT-4,它在此类任务中取得了最先进的性能。然而,令人惊讶的是,如此强大的语言模型仍然难以处理基本的算术任务。「GPT-4在算术任务中的性能,尤其是大数的乘法和除法,目前还远未达到最佳状态,准确度水平趋向于零」。 在本文介绍了一种微调的语言模型:Goat。不同于以往对算术计算的研究,该模型在
2023年6月5日
其他

DTG:一种简单有效的Prompt方法,激发大模型思考判断能力!

尽管我们已经长大成人,但内心深处的孩童永远都存在。愿你在繁忙的生活中也能保持对生活中的美好事物的敏感和热爱。愿你永远保持年轻的心态,享受生活中的每一个美好瞬间。六一快乐,六月加油💪。
2023年6月1日
其他

QLoRA:一种高效LLMs微调方法,48G内存可调LLaMA-65B (开源)

点击上方“AINLPer“,设为星标更多干货,第一时间送达引言 QLoRA是一种「高效的微调方法」,可以在保持完整的16位微调任务性能的情况下,将内存使用降低到足以「在单个48GB
2023年5月25日
其他

刚刚!斯坦福发布 AlpacaFarm (羊驼农场),可将RLHF人工成本降低45倍!(开源)

点击上方“AINLPer“,设为星标更多干货,第一时间送达引言 主流的大型语言模型训练都离不开RLHF(人工反馈强化学习),其主要思想是使用人类专家提供的反馈示例来指导模型的学习过程,它可以加速强化学习过程,提高大模型的性能,但「目前RLHF这个过程既复杂又昂贵」。 针对RLHF这个问题,学术界目前主要有两种解决方法:「1)避开RLHF」,比如Meta最近研究的“Meta最新模型:LIMA-65B,没有RLHF,模型效果远胜Alpaca!!”,验证了精心制作的少量标注数据同样能达到不错的效果。2)「简化RLHF」,就是今天给大家分享的这篇文章:斯坦福发布了一个名为AlpacaFarm(羊驼农场)的模拟器,旨在降低训练语言模型的成本,且比人工成本低45倍,并表现出与人类反馈的高度一致性,同时也为RLHF的研究开辟了新的道路。Paper:https://tatsu-lab.github.io/alpaca_farm_paper.pdfCode:https://github.com/tatsu-lab/alpaca_farm背景介绍 大型语言模型
2023年5月24日
其他

Meta最新模型:LIMA-65B,没有RLHF,模型效果远胜Alpaca!!

点击上方“AINLPer“,设为星标更多干货,第一时间送达引言 大型语言模型的训练分为两个阶段:(1)无监督地从原始文本中进行预训练以学习通用表示;(2)进行大规模指令调优和强化学习,以更好地对齐特定任务和用户偏好。今天给大家分享的这篇文章是Meta发布的最新研究成果:即,在没有任何RLHF的情况下,使用1000个精心筛选的提示和响应「对LLaMA-65B进行微调得到了LIMA模型」,实验表明该模型展现出了非常强大的性能,最后作者指出「几乎所有大型语言模型的知识都是在预训练期间学习的,仅需要有限的指导调整数据来教模型产生高质量的输出」。https://arxiv.org/pdf/2305.11206.pdf背景介绍 通过大量的数据对语言模型进行预训练,使它们能够学习通用的表示形式并成功的预测出下一个表示,通过迁移可以适配任何语言理解和生成任务。为了实现这种转移,目前已经提出了各种对齐语言模型的方法,主要集中在通过大规模的数据集(上百万)进行指令调优,以及基于人工反馈的强化学习(RLHF)。现有的对齐方法需要大量计算和专业数据才能实现类似ChatGPT的性能。但是「本文证明了,只要有一个强大的预训练语言模型,只需在1000个精心筛选的训练示例上进行微调,就可以实现相当强的性能」。 本文认为对齐是一个简单的过程。为了验证这个假设,精选了1000个近似真实用户提示和高质量回复样本。其中,考虑到数据的质量和多样性,从社区论坛中选择了750个最佳的问题和回答,如Stack
2023年5月22日
其他

强!ACL2023 | 中科院,针对NL2Code任务,调研了27个大模型,并指出5个重要挑战

点击上方“AINLPer“,设为星标更多干货,第一时间送达|原创不易,转载请注明出处!引言 对于NL2Code任务相信大家都不陌生。它主要目的就是将自然语言转换成可执行代码来提高开发人员的工作效率,终极目标就是干翻所有程序员,最近,随着大模型的出现,距离这一天又稍稍进了一步。基于该背景,分享中科院在ACL2023国际顶会上一篇文章:他们调研了NL2Code领域中的「27个大型语言模型以及相关评价指标」,分析了「LLMs的成功在于模型参数、数据质量和专家调优」,并指出了「NL2Code领域研究的5个机遇挑战」,最后作者建立了一个分享网站来跟踪LLMs在NL2Code任务上的最新进展。https://nl2code.github.io背景介绍 新手程序员,甚至是那些没有任何编程经验的程序员,是否有可能仅仅通过用自然语言描述他们的需求来创建软件?实现这一设想将对我们的生活、教育、经济和劳动力市场产生前所未有的影响。自然语言-代码(NL2Code)因其广阔的应用场景,是一项重要的研究任务,在学术界和工业界都引起了广泛的兴趣。 关于NL2Code的发展,其实和自然语言理解的发展类似,一开始,基本都是基于专家规则进行算法设计,但是此类方法需要对不同编程语言进行设计,泛化性差;随着技术发展,人们逐步开始使用静态语言模型,并使用向量空间来描述文字,此类方法在初期一般向量空间比较稀疏,不能建立长期的依赖关系;再后来,就用到了我们比较熟悉的神经网络,例如CNN、RNN、LSTM,此类方法通过标记数据进行训练来构建自然语言(NL)和代码(Code)之间的关系,但实际效果对NL2Code任务的能力有限;现在,在ChatGPT风靡全球的背景下,越来越多的大型语言模型(LLMs)如雨后春笋一样出现,通过语言指令,它们可以在零样本状况下生成代码,并在NL2Code任务上中取到了惊人的成绩。具有标志性的一个LLM模型就是Codex,它拥有120亿个参数,在Python编程任务上测试,可解决72.31%的问题,并且该模型已经商用可在实践中提高开发人员的工作效率。NL2Code任务与27个LLMs 对于NL2Code任务,其主要目的是基于给定自然语言问题描述生成所需要的代码。以下是一个关于Python编程问题的示例。其中灰色块部分表示问题描述,绿色块部分表示模型生成代码,黄色块部分表示测试样例。 针对NL2Code任务对27个具有代表性的LLMs进行了全面调研,下表总结了每个模型的详细信息,其中主要包括:模型架构、模型大小、模型层数(L)、注意力头数量(A)、隐藏维度(H)、模型参数是否开放(P)等五个方面。 为了更好地可视化,下图按时间顺序展示了这些模型,绘制了最大的模型大小。观察到的一个趋势是,随着研究领域的发展,这些大型语言模型的规模也在不断扩大。此外,只有解码器的架构更适合于规模较大的预训练模型。27个LLMs评估 上面总结了NL2Code现有的大型语言模型(LLMs),但是这些模型在架构、模型规模等方面各不相同,无法进行统一的评估。为此,作者在HumanEval基准上进行了Zero-shot统一评估,其中HumanEval基准由164个手写的Python编程问题组成,对于每个编程问题都提供了测试用例,以评估生成代码正确性。使用pass@k作为评估指标,即通过k次尝试可以正确回答的问题的比例。下表显示根据模型大小进行分组,在该测试集上的测试结果。 从上表可以看出,这些LLM在该数据集上的性能差异很大,尽管模型参数相似但效果差异也是很大。可以发现Codex
2023年5月17日
其他

5月份,最值得关注的十篇顶级论文,了解大语言模型(LLMs)的最新进展

点击上方“AINLPer“,设为星标更多干货,第一时间送达引言 了解自然语言处理的最新进展对NLP爱好者来说至关重要。今天给大家整理了十篇最近发布的文章,这些论文深入研究了自然语言处理的各个方面,其中「主要包括生成式搜索引擎、大模型检索增强、代码prompt研究、模型记忆探测、模型学习效率提升、LLMs毒性分析等」。需要论文原文的小伙伴可后台回复联系作者。生成式搜索引擎 生成式搜索引擎的目的是直接生成用户查询内容和联机引用。这类模型的一个关键特征是可验证性,这意味着它们应该提供全面而准确的引用。在一项研究中,「研究人员对四种流行的生成式搜索引擎——BingChat、NeevaAI、Perplexity
2023年5月11日
其他

硬核!一文了解大型语言模型的上下文学习能力(ICL),非常详细

与Prompt关系紧密,如果你需要让ChatGPT按照主题对文章进行分类,你要做的就是给它几个正确分类的样例,它就能依据你的样例进行分类给你预期的结果。为此最近也有研究开始探索操纵prompt
2023年5月10日
其他

无需调参!实验证明:三种Prompt方法,可大幅提升大型语言模型(LLMs)推理能力

点击上方“AINLPer“,设为星标更多干货,第一时间送达引言 大型语言模型(LLM)在各种任务场景中表现都很优秀,并且对于日常范围内问题的回答也相当出色。但「推理的任务一直是此类模型的硬伤」,一个比较有意思的推理研究领域为:Theory
2023年5月8日
其他

最新发布!MPT-7B:一个可用于商业用途的开源模型,模型效果堪比LLaMA-7B(可线上体验)

点击上方“AINLPer“,设为星标更多干货,第一时间送达引言 MPT-7B模型是一个基于Transformer在1T文本/代码Token上训练得到的,且不包含任何预训练。「该模型开源,可用于商业用途,并且与LLaMA-7B模型效果相近」。MPT-7B基于MosaicML平台进行训练,零人工干预,耗时9.5天,共计花费20万美元。任何人都可以基于MPT模型进行训练、微调和部署,除此之外,「它们还发布了三个微调模型:MPT-7B-Instruct、MPT-7B-Chat和MPT-7B-StoryWriter-65k+」
2023年5月6日
其他

ICLR2023 Top 5% | In-context Learning(上下文学习)的可解释性,及实验论证

(2010)“分析层次”的框架中,旨在通过识别基于Transformer的ICL实现的回归问题的算法类型,在计算层面解释ICL。「ICL在无噪声数据集上匹配普通最小二乘预测」,下图是ICL
2023年5月5日
其他

How?大型语言模型(LLMs)落地对话系统,该从哪些方面入手?

涵盖各种不道德、有问题、有偏见和有害的情况,包含鼓励亲社会行为的回应,这些回应基于常识性社会规则(即,经验法则,RoTs)。PROSOCIALDIALOG
2023年5月4日
其他

全网最全!中文命名实体识别(NER)数据集大盘点(含下载)

点击上方“AINLPer“,设为星标更多干货,第一时间送达引言 命名实体识别是自然语言处理研究的重要方向之一,目的是识别文本中的命名实体并将其归纳到相应的实体类型中。那么做命名实体识别就少不了数据集,经过一周的时间,终于把所有的能找到的数据集做了一下汇总,同时也分享给大家。说全网最全可能有点夸张,但真的完全尽力了。下载方式放在最后了,有需要可自取,觉得有用帮忙点个赞吧。文娱NER--Youku文娱NER数据集主要是基于youku视频相关标题制作的,该数据集包括包括了3大类(娱乐明星名、影视名、音乐名)、9小类实体类别(例如:动漫、电影、影视、综艺等),其中训练集8001条、验证集1000条、测试集1001条。该数据集由阿里巴巴达摩院和新加坡科技设计大学联合提供。最近Github更新时间是2022年。电商NER--Taobao电商NER数据集主要基于Taobao电商数据制作的一个命名实体数据集,该数据集包括了4大类(商品名称、商品型号、人名、地名)、9小类实体类别(电脑、汽车、日用品等)。该数据集由阿里巴巴达摩院和新加坡科技设计大学联合提供。其中,训练数据集6000条,验证数据集998条,测试数据集1000条。最近Github更新时间是2022年。简历
2023年4月24日
其他

收藏!大型语言模型(LLMs)大盘点,含源码及Demo地址

详细见其博客地址:https://huggingface.co/blog/stackllama推荐阅读[1]Google最新TiDE架构,比Transformer快10倍[2]MiniGPT-4
2023年4月23日
其他

最新发布!中文通用开源指令数据集(COIG):更大,更多样,质量更高,开源~

条指令」。为了进一步提高指令语料库的质量,作者将翻译指令数据集过程分为自动翻译、人工验证、人工校正三个阶段。具体:「首先,在自动翻译阶段」,将指令与实例的输入和输出连接起来,并将它们送入
2023年4月18日
其他

首发!MiniGPT-4 发布,代码模型开源,支持在线体验,好用再下载!!

点击上方“AINLPer“,设为星标更多干货,第一时间送达引言 相比ChatGPT,GPT-4展示出了非凡的多模态能力,它可以利用手写文本生成网站并且还能够识别出图片中的幽默元素。这些优秀的能力在以前的视觉语言模型中很难实现。对于GPT-4惊人的多模态生成能力,其主要原因是使用了更先进的大型语言模型
2023年4月17日
其他

又一个!以中国神兽 “凤凰” 命名的大型自然语言模型(LLM),中文效果媲美百度“文心一言”

“奇美拉”。奇美拉是希腊神话中类似的混合生物,由来自利基亚和小亚细亚的不同动物部分组成。凤凰和奇美拉分别代表了东方和西方文化的传说生物。将它们放在一个动物园里,以期望东西方人民之间共同协作,来平民化
2023年4月16日
其他

再谈 Transformer,有图片描述,通俗易懂,郑重承若:绝不含任何公式推导!

encoding 通过词嵌入技术,我们将句子中的每个单词都转换成了向量,下一步就是将所有这些向量都变成一个向量来处理。将一堆向量变成一个向量的最常见方法就是进行分量相加。例如,如果向量(长度为2)为
2023年4月13日
其他

爆火!OpenAGI:一个开源的通用人工智能(AGI)研究平台(Github 一天300星!)

发展的潜力,使人工智能能够解决各种各样的问题和任务」。目前该领域的研究已经做了一些初步尝试,但仍有几个显着的问题需要解决:1)「可扩展性」:一些现有的工作采用固定数量的模型,例如
2023年4月12日
其他

硬干货!!如何看懂ChatGPT里的RLHF公式以及相关实现

的方法里重点复习一下td-lambda的思想和推导过程,不仅非常核心且推导过程会在下面的Generalized
2023年4月11日
其他

Baize:一个以中国神兽(白泽)命名的大型自然语言模型(LLM),可单卡GPU运行

点击下方“AINLPer“,关注我吧更多干货,第一时间送达引言 近年来,随着来自然语言处理(NLP)技术的快速发展,出现了强大的聊天对话模型。目前最火、最强的对话模型要属OpenAI发布的ChatGPT和GPT-4了,它们可以在各种领域背景下,展现出非凡的对话能力,在虚拟助理、智能客服、信息咨询等应用方面具有很大的潜力。
2023年4月9日
其他

追赶GPT-4!微软发布最新研究成果:利用GPT-4追赶GPT-4(中文适用 & 含数据)

点击下方“AINLPer“,关注我吧更多干货,第一时间送达引言 今天,阿里的大型语言模型(通义千问)开始公测,算上之前清华的ChatGLM和百度的文心一言,这应该是国内公布的第三个大型语言模型了吧。面对这个风口,国内如此,相信国外同样如此。但,尽管很多的公司/机构在不断地推出自己的大型语言模型(LLMs),但都无法撼动Chat-GPT、GPT-4的地位。「如何追赶Chat-GPT/GPT-4呢?微软昨天(4月6日)刚刚公布的一篇文章的研究成果或许能给你一些启发」。论文及数据连接放在最后。背景介绍 大型语言模型
2023年4月7日
其他

谷歌、MIT等最新研究成果!其中,麻省理工(MIT)的研究:可能重塑你对LLMs的理解!

点击下方“AINLPer“,关注我吧更多干货,第一时间送达引言 今天给大家整理分享的7篇paper,是谷歌、微软、麻省理工、Meta等知名国际公司/机构在上个月最新公布的文章,基本上代表着最近这段时间关于大型语言模型(LLMs)的研究动态。其中主要包括:视频字幕生成,基于LLMs多模态模型、LLMs算术能力提升、LLMs上下文学习,稀疏LLMs训练等,其中「麻省理工(MIT)的提出的量化模型解释了随着模型扩展而突然出现的新功能,该量化模型有可能重塑我们对LLMs的理解」。本文所有论文获取放到最后,有需要可自行下载。Vid2Seq字幕生成 本篇文章是「Google」与「DeepMind」今年3月份公布的一篇文章。在本文中,「作者介绍了Vid2Seq,这是一种前沿的多模态、单阶段、密集事件字幕模型」,可以在有叙述的视频上进行预训练(叙述视频是一种丰富且随时可用的资源)。Vid2Seq体系结构使用特殊的时间标记增强了语言模型,使其能够同时预测同一输出序列中的事件边界和文本描述。由于这样的统一模型需要大量的训练数据,而这些数据在当前的带注释的数据集中是没有的,作者通过巧妙地重新定义转录语音的句子边界为伪事件边界,并使用转录语音句子作为伪事件标题,证明了利用未标记的叙述视频进行密集视频字幕的可能性。 由此产生的Vid2Seq模型在YT-Temporal-1B数据集上进行了预训练,在各种密集视频字幕基准测试中超过了最先进的水平,包括YouCook2、ViTT和ActivityNet字幕。此外,Vid2Seq在视频段落字幕、视频剪辑字幕和少样本设置方面展示了出色的泛化能力。随着作者将他们的代码公开访问,「Vid2Seq将彻底改变视频字幕领域,为更先进和更高效的模型铺平道路」。https://arxiv.org/pdf/2302.14115.pdfPaLM-E多模态模型 本篇文章是「Google」在今年3月份公布的一篇文章,它改变语言模型只是针对文本处理的固有想法。而是将语言模型应用到实际应用程序中,例如机器人操作等,从而提出了PaLM-E多模态模型,「该模型将来自现实世界的连续传感器数据(如视觉和状态估计输入)直接纳入语言模型,在文字和感知之间建立联系」。将这些编码端到端与预训练的大型语言模型一起训练,作者证明了他们的方法在各种具体任务中的有效性,包括机器人操作规划、视觉问答和图片说明。 「PaLM-E是一种单一的大型多模态模型,它可以处理基于多种观察模式的具体推理任务」。PaLM-E不仅展示了跨语言、视觉和视觉语言领域的多样化联合训练的力量,而且还具有很强的迁移能力。最大的模型
2023年4月6日
其他

冲鸭~~!十分钟部署清华ChatGLM-6B,实测效果还可以~~(Linux版)

只应用CPU,无显卡的时候使用执行完以上命令之后,等待模型加载完成,通过IP+端口就可以访问服务啦!截图如下:资料获取,后台回复:chatglm6B推荐阅读[1]
2023年3月31日
其他

含源码!分享7篇NLP文章,已有研究选择:利用ChatGPT实现零样本信息提取(中文)

点击下方“AINLPer“,关注我吧更多干货,第一时间送达引言 今天分享的七篇文章主要包括基于ChatGPT的信息抽取,知识图谱问答、基础推理(UR)对QA的影响,基于大模型的上下文学习、会话问答、语义解析提升图谱QA以及摘要生成。并且所有文章都有源码下载。具体文章及源码下载方式回复:20230327基于ChatGPT的信息抽取 零样本信息提取
2023年3月27日
其他

围观!看ChatGPT如何"爆锤"BRET,实验结果却令人极为诧异......

点击下方卡片,关注‘’AINLPer‘’更多干货,第一时间送达引言 ChatGPT引起了极大的关注,它对于人们的问题可以给出流畅且高质量的回答。通过主观体验可以发现:与现有的Fine-tuned
2023年3月22日
其他

收藏!ChatGPT等大语言模型(LLMs)测试数据集--整理分享

点击下方卡片,关注‘’AINLPer‘’更多干货,第一时间送达引言 随着大语言模型(LLMs)的快速发展,如何量化地评估模型能力,就需要用到一些公认地数据集进行评测。基于之前分享地一篇文章ChatGPT输出不稳定!|
2023年3月21日
其他

Language Is Not ALL You Need && 知识图谱的两种应用

引言 最近的研究成果表示,大型的自然语言模型不仅能应用到自然语言处理,还可以应用到图像等方向。为此今天给大家分享的第一篇叫做「Language
2023年3月20日