AINLPer

斯坦福 | 曼宁教授长文梳理：NLP的四个时代，横跨70年，指出模型发展前景！

点击上方“AINLPer“，设为星标更多干货，第一时间送达引言今天给大家分享的这篇文章，斯坦福曼宁教授于2021年10月份完稿的(比ChatGPT还要早上一年)，最近才发布到期刊上的。由于原文比较长，所以作者结合自己的理解做了一些整理，感兴趣的可以阅读一下原文。「本篇文章主要概述了整个自然语言处理的发展过程，介绍近年NLP的发展以及相关神经网络模型技术，最后给出了未来语言模型的发展方向」。文章是2021年底完稿的，结合目前的语言模型的发展趋势，可以发现曼宁教授的预测太准了，和他两年前的预测基本一致！感兴趣可以翻到最后，他的预测今天照样适用。https://www.amacad.org/publication/human-language-understanding-reasoning伟大的人类语言在过去的十年里面，人们在自然语言处理方面取得了巨大的进步。其中主要做法是：对简单的神经网络进行拓展构建大型语言模型框架，然后利用海量的数据进行训练。由此产生的预训练语言模型如：Bert、GPT、LLaMa等，此类模型可以提供通用的语言理解和文本生成能力，可以轻松适应许多理解、写作和推理任务。此类模型触摸到了真正人工智能的门槛，这也会引领在语言之外的领域构建强大的基础模型。当科学家考虑人工智能时，大多会想到重建人脑的能力。但现代人类的智能远不止单个大脑的智能。「人类语言是非常强大的，并且已经改变了我们的物种，因为它提供了一种将人类大脑联系在一起的方式」。一个人可能并不比我们的近亲黑猩猩或倭黑猩猩聪明多少，因为类人猿已被证明拥有人类智慧的标志性技能，例如使用工具和制定计划，此外他们短期记忆力要比我们好。对于人类何时发明了语言，这或许永远是个谜！但在地球生命漫长的进化史中，人类最近才发展出了语言，人类、猿类、猴子的共同祖先可以追溯到大约

2023年9月3日

其他

Less is More! 上交清源 && 里海 | 利用200条数据微调模型，怒超MiniGPT-4！

对于大型语言模型的微调对齐，并不是说微调数据越多越好。这一结论在Zhou等人发表的关于LIMA的论文中指出，他们选择750条数据集对LLaMA-65B进行微调得到LIMA模型，其性能非常好，甚至接近

2023年8月30日

其他

质量>数量！数据对大型语言模型（LLM）整个生命周期的影响！

点击上方“AINLPer“，设为星标更多干货，第一时间送达引言自去年底ChatGPT发布以来，大型语言模型(LLM)的性能极大的吸引了人们的注意力。在此过程中，我们逐渐的开始思考当前LLM发展过程。相比传统的自然语言模型，LLMs为什么能做到如此令人印象深刻的效果？针对该问题，尽管人们争论不断，但一项特别有影响力的进步是执行对齐的能力，这是毋庸置疑的。通俗来说，不管是通过指令信息还是检索信息，「人类已经明白如何训练LLM，使其不仅能够准确预测出下一个单词，而且输出的文本还能满足人们的目标」。今天给大家分享的这篇文章将主要「研究对齐的作用与影响，以及对齐和预训练之间的相互作用」。比如，最近的

2023年8月29日

其他

卡内基梅隆 && 清华 | Prompt2Model：利用大模型Prompt，实现专有NLP模型生成！

除了训练数据之外，还必须选择合适的模型来进行微调。本文将其视为一个检索问题，其中每个模型都由用户生成的描述和元数据（例如受欢迎程度或支持的任务）表示。本文模型检索器的参考实现在Hugging

2023年8月28日

其他

远超GPT-4！微调Code Llama，WizardCoder 代码能力达到惊人的73.2%！

COT（思维链）在起作用，这非常棒。还有人表示，WizardCoder-Python-34B-V1.0

2023年8月27日

其他

重磅！Meta官方发布：Code Llama，3个版本，支持10万Token，接近GPT-4，可商用！

位。论文地址：https://ai.meta.com/research/publications/code-llama-open-foundation-models-for-code/GitHub

2023年8月25日

其他

All In One！Meta发布SeamlessM4T，支持100种语言，35种语音、开源、在线体验！

点击上方“AINLPer“，设为星标更多干货，第一时间送达引言多语言识别翻译的研究一直都是学术界研究的重点。目前全球有几千种语言，在全球化背景下不同语言人群之间的交流越来越密切，然而学习一门外语的成本是非常大的。前两年的研究主要集中在一对一、一对多的研究，然而当面对这么多的语言时，既需要「考虑模型准确率，还需要考虑语种的识别」。最近，随着人工智能大型自然语言模型的发展，利用统一模型实现多语种识别翻译来实现不同语种之间交流逐渐的变成了可能。最近「Meta刚刚发布的SeamlessM4T」，它在近「100种语言」中实现了最先进的结果，并在自动语音识别、语音转文本、语音转语音、文本转语音和文本转语音等方面实现了多任务支持——「全部集中在一个模型中」!Paper：https://ai.meta.com/research/publications/seamless-m4t/Code：https://github.com/facebookresearch/seamless_communicationDemo：https://huggingface.co/spaces/facebook/seamless_m4tSeamlessM4T 构建通用语言翻译器是非常具有挑战性，因为现有的语音到语音和语音到文本系统仅涵盖世界语言的一小部分。SeamlessM4T

2023年8月23日

其他

纯干货！Prompt链式方法总结，灵活驾驭各种大模型！

点击上方“AINLPer“，设为星标更多干货，第一时间送达引言之前，写了一篇关于大型语言模型Prompt应用的文章[纯干货！最全Prompt工程方法总结，与ChatGPT、GPT-4等LLMs的交互更高效！]，其中主要是让大家能够更加全面的了解Prompt工程，以及如何应用Prompt来引导大型语言模型LLMs完成任务。但是之前的文章主要介绍应用单个Prompt来完成特定的任务。然而，当面对复杂任务的时，单一的Prompt是不够的，我们需要将Prompt链接在一起才能完成。今天这篇文章主要集中在Prompt链式方法介绍用于实现复杂任务生成，其中主要包括：顺序Prompt链、并行Prompt链、抽样Prompt链、树状Prompt链、循环Prompt链。顺序Prompt方法按顺序的方法是链接Prompt最常见的方法。其关键思想是：当单个提示中提供的任务变得太长或太复杂并且包含许多不同的指令，则响应可能无法捕获所需的细节和粒度。在这种情况下，可以将该任务分解为多个子任务。一个子任务的响应会成为另外一个子任务的Prompt，按照顺序走下去直到任务完成。如下图所示：下面是一个关于故事生成的示例。在这里想要生成一个长故事，其中包含由一组信息（人物、故事节奏和地点）引导的对话。现在，可以将所有这些信息填充到一个提示中，但这可能会淡化我们希望对话框包含的关键细节。此外，一开始的时候我们不想编写所有的细节，而是希望模型替我们生成。我们想要提供的只是我们想要的故事内容的简短摘要，这也是我们唯一的Prompt。下图总结了生成最终对话框所涉及的链。首先，人类输入故事摘要，该摘要将成为生成角色列表的提示，然后该列表将成为生成故事节拍的提示，依此类推，直到我们进入对话生成阶段。相比单个Prompt，按照顺序进行链接Prompt的另外一个好处是：可以对各个链接Prompt节点进行人工检查。当响应结果不满足设想的标准，可以让模型重新生成。通过节点阶段分析，使得对复杂的生成人工智能任务进行评估和质量控制变得容易。并行Prompt方法当子任务相互依赖时，需要顺序Prompt链。但是当它们独立时，我们可以并行运行它们，然后将结果进行组合。如下图所示：假设我们正在构建一个应用程序，该应用程序可以生成一周的创意食谱，然后生成供用户购买的食材购物清单。在这种情况下，给定用户输入，例如进餐次数或天数，我们可以并行运行食谱生成步骤。提示可能类似于以下内容：Prompt={“帮我生成一份快捷简单的7天菜谱，并以Json的形式输出，其中key为“食材成分”和“制作说明””} 接下来，将在所有菜谱中重复生成食谱。一旦完成，我们可以将每顿饭的食材合并成一个用户可以立即使用的购物清单。Prompt={“根据“食材成分”将食材合并成一个单一的购物清单，不要重复。”}抽样Prompt方法如果一项任务涉及逻辑推理，例如数学问答，则可能有不止一种方法来解决给定问题。在这种情况下，我们希望鼓励模型在探索不同的解决方案时更具创造性。但提高模型创造力（即提高“temperature”）也意味着模型得到错误答案的可能性也会提高。解决方案是，可以重复多次向模型Prompt相同的问题，然后选择大多数人的回答。具体如下图所示：让我们看一下Wang等人的论文中的一个例子。他们引入了自我一致性的概念。Wei等人提出的思想链提示的概念，其中模型的Prompt方法是鼓励模型在给出最终响应之前进行推理步骤（参考论文链接：https://arxiv.org/pdf/2203.11171.pdf）。然而，在这些设置中，通常鼓励模型进行“贪婪解码”，这意味着偏向正确且安全的路径。这可以通过调整“temperature”值等设置来完成。凭借自我一致性，我们可以通过从多个路径进行采样来构建思想链方法。我们还通过将设置调整为更具“创意”，再次使用“temperature”等设置，使路径更加多样化，然后我们对所有答案进行多数投票。下图说明了自我一致性的概念。它展示了一个比较使用贪婪解码方法的单个解决方案的结果和使用更多样化的解码方法的多代采样解决方案的结果的示例。前者没有得到正确的答案，而后者却得到了正确的答案。树状Prompt链树状Prompt链，其实就时思维树（ToT）。在之前的链式模式的基础上，当问题更加复杂并且需要更细粒度的推理步骤时，将步骤分解成多个部分会很有帮助。在每一步中，我们鼓励模型探索不同的解决方案，投票选出最佳解决方案，然后继续下一步。这在故事写作等创意应用中也很有用。相比将模型限制在单一路径，让模型探索不同的故事想法更有趣，从而提高最终输出的质量。让我们用Yao等人的一个具体例子来介绍思想树的概念(参考论文链接：https://arxiv.org/pdf/2305.10601.pdf)。下图说明了这个概念与直接输入输出提示、思维链和思维链自我一致性的区别。在每一步，模型都会生成几个不同的解决方案。然后使用单独的提示来评估这些解决方案并投票选出最佳解决方案。重复该过程直到完成最后一步。这是论文中展示的创意写作任务的示例之一。下图显示了初始输入，其中包含四个看似不相关的句子的列表

2023年8月21日

其他

OpenAI公布「官方爬虫」：GPT-5靠它训练，有需要可以屏蔽

阻止它，但有些人认为允许它这样做没有任何好处，不像搜索引擎爬虫会带来流量。一个值得关注的问题是，受版权保护的内容会在未注明出处的情况下被使用。ChatGPT

2023年8月8日

其他

UC 伯克利 | Dynalang多模态模型：利用语言预测未来

点击上方“AINLPer“，设为星标更多干货，第一时间送达|转自机器之心当前，人与智能体（比如机器人）的交互是非常直接的，你告诉它「拿一块蓝色的积木」，它就会帮你拿过来。但现实世界的很多信息并非那么直接，比如「扳手可以用来拧紧螺母」、「我们的牛奶喝完了」。这些信息不能直接拿来当成指令，但却蕴含着丰富的世界信息。智能体很难了解这些语言在世界上的含义。图源：谷歌机器人团队论文「Interactive

2023年8月6日

其他

主打一个中英文自由切换！中文版开源Llama2 多模态大模型，完全可商用！

开发团队负责人史业民表示，「放眼全球，目前如何让『模型听世界、看世界』仍然没有可靠的开源模型可用。我们希望能够尽微薄之力，让中国大模型生态距离国际领先标准再近一些。」语音到文本多模态开源对话模型

2023年8月4日

其他

清华等提出新框架：ToolLLM，增强大模型API调用能力，性能堪比ChatGPT！

相媲美。论文地址：https://arxiv.org/pdf/2307.16789.pdf项目地址：https://github.com/OpenBMB/ToolBenchToolLLaMA

2023年8月2日

其他

阿里 & 蚂蚁| 提出组合式的多概念定制生成方法，图片质量飞升！

作为现有的多定制概念生成方法仍存在两个挑战：首先，他们需要为每一种多个概念的组合都学习单独的模型，这可能会受到以下影响：1）无法利用已有的模型，比如一个新的需要定制的多概念组包含三种概念

2023年8月2日

其他

最新！斯坦福多模态医疗模型：Med-Flamingo，支持Few-shot问答，模型开源！

点击上方“AINLPer“，设为星标更多干货，第一时间送达引言就医学而言，它涉及各个方面知识，需要整合各种信息。医学生成视觉语言模型（VLM）朝这个方向迈出了第一步，并有望带来更多的临床应用。然而，现有模型通常需要基于大量的下游数据集进行微调，这对于医学领域来说是一个相当大的限制。因为在许多医疗应用中数据稀缺，所以需要模型能够从Few-shot进行学习。Paper：https://arxiv.org/pdf/2307.15189.pdfCode：https://github.com/snap-stanford/med-flamingo 为此，斯坦福提出了Med-Flamingo，一种适用于医学领域的多模态少样本学习器。该学习器基于OpenFlamingo-9B，对出版物和教科书中成对和交错的医学图像-文本数据进行预训练，解锁了Med-Flamingo小样本生成医学视觉问答(VQA)能力，实验结果显示Med-Flamingo在临床医生的评分中将生成医学VQA的性能提高了20%。背景介绍面对大量的任务，大型预训练模型（或基础模型）通过仅提供一些带标签的示例作为上下文就能表现出了卓越的能力。这也被称为上下文学习（In-Context

2023年8月1日

其他

纯干货！最全Prompt工程方法总结，与ChatGPT、GPT-4等LLMs的交互更高效！

点击上方“AINLPer“，设为星标更多干货，第一时间送达引言随着生成式人工智能（尤其是ChatGPT、GPT-4）的爆炸性普及，对于人工智能领域的人们来说，写Prompt已经成为了一项越来越重要的技能。然而，当您在实操过程中会发现，并不是乍看起来那么简单的语法任务。当体验完ChatGPT、GPT-4等大模型的新鲜感之后，写Prompt需要个人练习和思考才能快速掌握该技能。因此，根据实际应用场景创建最有效的Prompt（Prompt工程）已经成为LLMs领域内外令人垂涎的专业知识。这也催生出了Prompt工程师的岗位。本篇文章，将带你全面了解Prompt工程，其中包括：如何在提示中提供对回答影响最大的信息；什么是人物角色、正面和负面提示、零样本提示等；如何迭代利用Prompt来使用ChatGPT、GPT-4等大语言模型(LLMs)；如何与LLMs模型进行合作完成任务。简单Prompt工程策略 Prompt工程能够让我们根据具体应用场景高效的使用LLMs。它包括制作清晰而具体的请求指令，以从语言模型中获取所需的响应。通过仔细地构建Prompt，我们可以引导ChatGPT、GPT-4输出准确有用的响应。在ChatGPT的Prompt构建过程中，有几个基本原则需要了解：首先，在Prompt的开头提供明确的说明，这有助于为模型设置上下文任务。同时，指定预期答案的格式类型也是有益的。此外，您可以通过在提示符中加入系统消息或角色扮演技术来增强交互。下面是一个使用上述技术的示例提示符:将该提示与以下提示进行比较:直观地看，前者将获得更多有用的结果。您可以通过迭代地改进和实验提示来提高模型响应的质量和相关性，从而创建更有成效的对话。不要害怕直接在ChatGPT上测试潜在的提示。基础Prompt工程策略上一节主要展示了简单的Prompt工程，下面将会更详细地探讨一些基本的提示工程注意事项。「Prompt关键词对于Prompt工程来说至关重要」。在某些场景下，它是引导出LLMs生成所需答案的关键输入。换种方式来说，以ChatGPT、GPT-4等LLMs能够理解的方式表达问题是非常重要的。例如，如果用户不是某个领域的专家并且不知道表达问题的正确术语，ChatGPT、GPT-4等LLMs给出的答案可能并不及预期。这类似于在不知道正确关键字的情况下在网络上盲目搜索。对于Prompt来说，附加相关信息可以带来更好的效果，但是过于冗长的附加信息并不一定是最佳的策略。Prompt关键词虽然至关重要，「但最好不要将其视为一种单独的技术，而是将其视为连接其它关键技术的纽带」。「简洁的Prompt对于LLMs输出的清晰度和精确性非常重要」。精心设计的提示应该是简洁明了的，即为ChatGPT、GPT-4等LLMs提供足够的信息来理解用户的意图，但又不会过于冗长。然而，过于简洁的Prompt也会存在问题，因为这样会导致LLMs的输入存在歧义和误解。Prompt的简介和附加关联信息是存在矛盾的，在实际应用过程中需要多加练习是掌握该项技能最好的方法。「在Prompt中添加角色分配和目标设置」。例如，如果有人想要让ChatGPT、GPT-4等LLMs为一本关于机器学习的书写一个引言，明确指出LLMs的角色为机器学习领域的专家，该图书的主要受众是机器学习入门的新手，这肯定会产生比较好的输出结果。在Prompt不管是写：“你是一名机器学习领域的资深专家，请您为机器学习这本书写一篇引言，该书的主要受众是机器学习入门的新手”，还是写“作者：机器学习领域资深专家，受众：机器学习入门新手”，这样都可以在给定的场景进行尝试。并且你会发现，大部分情况下给LLMs分配角色，生成的效果相对较好。目标与角色密切相关。在Prompt中明确引导交互的目标不仅是一个好主意，而且是必要的。「正负提示是指导模型输出的另一套框架方法」。积极的提示（“这样做”）鼓励模型包含特定类型的输出并生成特定类型的响应。另一方面，负面提示（“不要这样做”）会阻止模型包含特定类型的输出并生成特定类型的响应。使用正面和负面提示可以极大地影响模型输出的方向和质量。例如以下提示：❝“您将担任一名在东京拥有10年经验的房地产经纪人。您的目标是用一段文字总结港区排名前5的小区。目标受众是没有经验的购房者。”❞ 上述提示的框架本质上是积极的，让我们添加一些措辞来阻止某些输出。针对内容指导的负面提示的一个示例可以是在上面的示例中添加以下内容：❝“请不要包含距离最近地铁站超过徒步10分小区。”❞ 这个额外的约束应该有助于ChatGPT、GPT-4等LLMs理解它应该具体生成哪些输出。高级Prompt工程策略上一节主要介绍了与LLM交互的基础Prompt策略，本节主要介绍一系列更高级的Prompt工程策略，它们能够让您以更复杂的方式与ChatGPT、GPT-4等LLMs进行交互，同时也是Prompt工程师经常用的策略。输入/输出Prompt 输入/输出Prompt策略涉及定义用户向LLM提供的输入以及LLM作为响应生成的输出

2023年7月25日

其他

ICML2023 & 新加坡国立 | 一项关于 Transformer参数设置的深度研究

点击上方“AINLPer“，设为星标更多干货，第一时间送达引言今年是Transformer的六周年生日，目前原文引用量已超四万，在应用方面，几乎所有的模型架构都有它的影子，并遵从着Transformer的基础配置（宽度设置为768，深度设置为12）。但您有没有质疑过：Transformer的配置是怎么来的？Transformer的配置能够适合所有的应用场景吗？难道就不能改变吗？今天给大家分享的这篇国际顶会(ICML

2023年7月24日

其他

ACL2023 & Amzon | 知识图谱（KG）检索新框架：DiFaR，无需实体链接！

点击上方“AINLPer“，设为星标更多干货，第一时间送达引言不论是传统语言模型还是现在飞速发展大语言模型，当面对快速更新迭代的背景知识时都存在一定的局限性。知识图谱（KG）作为大模型的信息补充，可以帮助其更好地理解语言提升模型性能。今天给大家分享的这篇文章，「从知识图谱检索机制出发，分析传统知识图谱检索的局限性，提出了直接事实检索(DiFaR)框架」，实验结果表明，该方法大大优于传统知识图谱KG的pipeline检索方法。Paper：https://arxiv.org/pdf/2305.12416.pdf现有KG的局限性知识图谱(KG)是由一系列(头实体、关系、尾实体)三元组表示的事实组成，它可以存储大量的知识。在自然语言处理过程中，常用的语言模型由于是基于先验知识训练得到的，模型参数往往是固定的，其所具备的先验知识会存在不完整、不准确和时效性低的问题，当应对热点知识、对话生成等场景时存在一定的局限性。为了弥补语言模型的短板，一个有效的方法是采用KG来增强语言模型的能力。然而，尽管KG应用广泛，但是现有的图谱检索机制在许多情况下过于复杂。为了从知识图谱中检索事实知识，现有方法主要依赖于三个连续的步骤：跨度检测、实体消歧和关系分类，如上图1a所示。例如，给定输入文本：“Where

2023年7月5日

其他

微软 & 麻省理工 | 实验结果表明：代码自修复能力仅存在GPT-4！GPT-3.5不具备该能力

点击上方“AINLPer“，设为星标更多干货，第一时间送达

2023年6月27日

其他

怒超 GPT-4！LONGMEM：提升大语言模型（LLMs）长文本处理能力，最高可达64k

点击上方“AINLPer“，设为星标更多干货，第一时间送达引言对于长文本处理，大型语言模型(LLMs)仍然存在短板，即使目前最强GPT-4最多也就支持32k个Token。为了能够提升LLM长文本处理水平，今天大家介绍了一种名为LONGMEM的方法架构，该方法将长文本序列分块并利用存储器进行处理且无需对模型进行重训练，最高可支持64k个Token，有效的提高了模型长文本处理能力，相比GPT-4多了一倍。Paper：https://arxiv.org/pdf/2306.07174v1.pdfCode：https://github.com/Victorwz/LongMem背景介绍大型语言模型（LLM）已经在自然语言处理领域取得了革命性的进展，在各种理解和生成任务中取得了卓越的成就。大多数LLMs通过在大型语料库上进行自监督训练，从固定长度的局部上下文中获取知识，显示出了优秀能力，如Zero-shot

2023年6月14日

其他

潜力发掘！INSTRUCTEVAL：一个专用于的大型语言模型(LLMs)的全面评估方法

点击上方“AINLPer“，设为星标更多干货，第一时间送达引言指令调优大型语言模型（LLMs）彻底改变了自然语言处理，不仅如此它们还可以解决数学、计算机编码、生物医学和法律等领域的复杂任务。例如：GPT-4、LLaMA、chatGLM等。虽然此类模型具有很强的下游任务适应能力，但由于模型的黑盒性质对于模型整体能力的评估仍然存在挑战。为此，今天给大家分享的这篇文章：提出了一个「专门针对指令调优大型语言模型的全面评估方法INSTRUCTEVAL」，该评估方法可以从问题解决、写作和人类价值对齐等三个方面对模型进行全面评估。Paper：https://arxiv.org/abs/2306.04757Code：https://github.com/declare-lab/instruct-eval背景介绍指令调优大型语言模型（如

2023年6月13日

其他

ACL2023 & 复旦 | 模块化Prompt多任务预训练，可快速适应下游任务（含源码）

Learning通常需要针对每个下游任务进行全参数微调，这就需要大量的计算资源，尤其当面对上百亿的大模型的时候。随着时间推移，近期有很多工作致力于有效的prompt

2023年6月12日

其他

Amazon | 深入研究LLMs与AutoGPT的结合：揭示出GPT-4惊人的人类决策能力！

点击上方“AINLPer“，设为星标更多干货，第一时间送达引言心理学研究过人们当面对不同意见时的处理方式。当人们往往比较侧重于具有权威的意见，从而忽略忽略极少数的个别意见;并且人们还会比较侧重于自己而忽略其他人的意见。今天给大家分享的这篇文章，作者针对决策任务，对Auto-GPT代理进行了全面的基准研究，探索了大型语言模型（LLM）在决策任务中的应用。「实验结果表明GPT4有了类似于人类的能力，可以从不同的意见中提取有用信息，进行思考和批判然后提高自己的结果」。Paper：https://arxiv.org/pdf/2306.02224.pdfCode：https://github.com/younghuman/LLMAgent背景介绍最近，将大型语言模型（LLM）应用于自主代理（autonomous

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

“四川大学姜涛与爱人程月玲”，你们现在还好吗？

半年狂赚63亿了，微众银行董事长，还要卷员工

为了这部描述从“反右”到“文革”的禁片，田壮壮付出了十年不能拍片的代价

关于字节基建

AINLPer