大模型技术及趋势总结
前言
本篇文章旨在希望大家对大模型的本质、技术和发展趋势有简单的了解。由于近期大模型技术发展很快,这里对大模型的技术、本质及未来趋势进行总结和探讨时,水平有限,疏漏在所难免,请大家谅解。
前言
本篇文章旨在希望大家对大模型的本质、技术和发展趋势有简单的了解。由于近期大模型技术发展很快,这里对大模型的技术、本质及未来趋势进行总结和探讨时,水平有限,疏漏在所难免,请大家谅解。01 引言
在今年的敏捷团队建设中,我通过Suite执行器实现了一键自动化单元测试。Juint除了Suite执行器还有哪些执行器呢?由此我的Runner探索之旅开始了!
大模型将成为通用人工智能的重要途径。在这个由0和1编织的数字时代,人工智能的腾飞已不是科技梦想,而是日益切实的现实。其中,大模型作为人工智能的核心力量,正以前所未有的方式重塑着我们的生活、学习和工作。无论是智能语音助手、自动驾驶汽车,还是医疗诊断系统,大模型都是幕后英雄,让这些看似不可思议的事情变为可能。
02
人工智能的发展历史
理解,首先 MCube 会依据模板缓存状态判断是否需要网络获取最新模板,当获取到模板后进行模板加载,加载阶段会将产物转换为视图树的结构,转换完成后将通过表达式引擎解析表达式并取得正确的值,通过事件解析引擎解析用户自定义事件并完成事件的绑定,完成解析赋值以及事件绑定后进行视图的渲染,最终将
1. 1950s-1970s:AI的诞生和早期发展
◦1960年代,早期的AI研究集中在逻辑推理和问题解决上。
2. 1980s:专家系统的兴起
◦专家系统的成功应用,如MYCIN在医学诊断领域的应用。
◦反向传播算法的提出,极大地推动了神经网络的研究。
◦互联网的普及带来了海量数据,为机器学习提供了丰富的训练素材。
5. 2010s:深度学习革命
◦2012年,AlexNet在ImageNet竞赛中的胜利,标志着深度学习在图像识别领域的突破。
图片来源 https://blog.csdn.net/Ares_song/article/details/106880658
◦Transformer模型在自然语言处理任务中取得了革命性的成果,如BERT、GPT等模型。
7. 2020s:大模型和多模态学习
03
大模型的本质
理解,首先 MCube 会依据模板缓存状态判断是否需要网络获取最新模板,当获取到模板后进行模板加载,加载阶段会将产物转换为视图树的结构,转换完成后将通过表达式引擎解析表达式并取得正确的值,通过事件解析引擎解析用户自定义事件并完成事件的绑定,完成解析赋值以及事件绑定后进行视图的渲染,最终将
大模型是能够从海量数据中学习、利用这些数据进行推理,并使用这些推理来回答用户的问题或是执行特定的任务。大模型(如ChatGPT、LLM等)在人工智能领域中被广泛应用,其核心理念和工作原理可以总结为以下几个方面:
1. LLM的组成 - 两个文件
大模型由以下两个关键部分构成:一个是 参数集,另一个是 执行代码。
2. LLM的神经网络究竟在“想”什么 - 预测下一个单词
•模拟了人类语言生成的方式,使得模型能够生成连贯和符合语境的句子,如生成完整的句子“cat sat on a mat”
模型根据它所获得的大量训练数据,生成“合理的延续”,即生成符合人类语言习惯的文本。
注:Transformer架构为这个神经网络提供了动力。
3. 神经网络“真正”的工作方式仍然是个谜
尽管我们可以将数十亿个参数输入到网络中,并通过反复微调训练这些参数,从而获得更好的预测效果,但我们并不完全理解这些参数在网络中是如何准确协作的,以及为什么它们能够生成如此准确的回答。科学上,这种现象被称为涌现。
我们知道,这些参数构建并维护了某种形式的知识数据库。然而,这种数据库有时表现得既奇怪又不完美。例如,一个大型语言模型(LLM)可能会正确回答“谁是小明的母亲?”这个问题,但如果你问它“X的儿子是谁?”,它可能会回答“我不知道”。这种现象通常被称为递归诅咒。
4. 训练大模型的步骤
•收集大量互联网文本数据。
•准备强大的计算资源,如GPU集群。
•准备高质量的训练数据,如问答对。
•在这些数据上调整模型参数,优化性能。
图片来源 A Busy Person's Introduction to Large Language Models(https://www.openculture.com/2023/12/a-busy-persons-introduction-to-large-language-models-llms.html)
5. 模型性能提升
◦参数量:模型的规模通常与其参数量成正比。参数是模型学习到的知识的载体,参数越多,模型能够捕捉的信息和模式就越丰富,从而能够处理更复杂的任务。
◦学习能力:大模型通常拥有更强的学习能力。它们能够从大量数据中学习到更深层次的特征和规律,这使得它们在诸如自然语言处理、图像识别等任务上表现更佳。
◦泛化能力:大模型往往有更好的泛化能力,即在面对未见过的数据时,也能做出准确的预测和判断。
◦功能扩展:为AI模型提供各种工具,可以使其功能得到显著扩展。例如,集成搜索引擎可以让模型访问互联网信息,增强其回答问题的能力。
◦多任务处理:工具的集成使得AI模型能够同时处理多种任务。例如,集成计算器功能可以让模型执行数学计算,集成编程接口则可以让模型编写代码。
◦灵活性和适应性:拥有多种工具的AI模型更加灵活和适应性强,能够根据任务需求快速调整其行为和策略。类似于人类通过使用工具解决各种任务。
04
面临的问题
理解,首先 MCube 会依据模板缓存状态判断是否需要网络获取最新模板,当获取到模板后进行模板加载,加载阶段会将产物转换为视图树的结构,转换完成后将通过表达式引擎解析表达式并取得正确的值,通过事件解析引擎解析用户自定义事件并完成事件的绑定,完成解析赋值以及事件绑定后进行视图的渲染,最终将
幻觉
幻觉问题指的是大模型在生成文本时可能会产生与现实世界事实不一致的内容。这种现象可以分为几种类型:
1. 事实性幻觉(Factuality Hallucination):模型生成的内容与可验证的现实世界事实不一致。大模型可能生成听起来合理但实际上错误的信息,例如,生成一篇关于一个不存在的历史事件的文章,模型可能生成一篇关于“拿破仑在月球上宣布法国胜利”的文章,尽管这在现实中从未发生过。
2. 忠实性幻觉(Faithfulness Hallucination):模型生成的内容与用户的指令或上下文不一致。例如在一个关于健康饮食的讨论中,模型可能突然开始讨论健身运动,尽管这与用户的问题不直接相关。
•使用的数据集存在错误信息或偏见。
•模型过度依赖训练数据中的模式,可能导致错误的关联。
•预训练阶段的架构缺陷,如基于前一个token预测下一个token的方式可能阻碍模型捕获复杂的上下文关系。
•对齐阶段的能力错位,即模型的内在能力与标注数据中描述的功能之间可能存在错位。
安全性问题
•加强数据的采集和清洗过程,确保数据质量和安全性。
•对模型进行加固,提高其抗攻击能力。
•采用加密存储和差分隐私技术来保护数据隐私。
05
相关技术
理解,首先 MCube 会依据模板缓存状态判断是否需要网络获取最新模板,当获取到模板后进行模板加载,加载阶段会将产物转换为视图树的结构,转换完成后将通过表达式引擎解析表达式并取得正确的值,通过事件解析引擎解析用户自定义事件并完成事件的绑定,完成解析赋值以及事件绑定后进行视图的渲染,最终将
Prompt Engineering (提示词工程)
是什么
大多数的prompt具有以下的形式:由「指令」(instruction)和「内容」(content)两部分构成。其中,指令部分为我们需要大模型做的事,如“判断下列句子的情感”,而内容则为真正的句子,如“我今天很高兴”。注意,并不是所有的prompt都必须是这样的形式,如比较简短的prompt:“中国的首都在哪里”、“模仿百年孤独的开头写一段话”等这种言简意赅的prompt就只有指令、内容为空。
Prompt的不同分类
Prompt千变万化、不可名状,其主要由以下几种常见形式构成:
•Multimodal prompt:多模态prompt。顾名思义,输入不再是单一模态的prompt,而是包含了众多模态的信息。如同时输入文本和图像与多模态大模型进行交互,现在的4o就能做到。
Prompt技巧(后续章节详解)
Prompt或许并不是人类与大模型进行交互的唯一和最好的方式,但一定是当下使用最多的方式。
RAG(Retrieval-Augmented Generation)
什么是RAG
RAG(Retrieval-Augmented Generation)技术是一种结合检索和生成的方法,用于提升大语言模型(LLM)在知识密集型任务中的性能。通过一个两阶段的过程提升LLMs的输出质量:
•生成(Generation)阶段,将检索到的文档与原始查询,形成提示模板,一起输入到生成模型中,产生最终的回答。
RAG解决什么问题
•知识的局限性:LLM的知识仅限于其训练数据,对于实时性、非公开或离线数据的获取存在困难。
•幻觉问题:基于概率的输出可能导致模型生成不准确的信息。
RAG工作原理
1. 索引 Indexing:处理外部知识源,将知识源分割为chunk,编码为向量,存储在向量数据库 Vetor-DataBase 中。
2. 检索 Retrieval: 接受用户问题,将问题编码为向量,用这些向量去向量数据库中找到最相关的文档库 top-k chunks。
RAG的优势
•知识丰富:RAG能够访问和利用大量的外部知识,提供更全面的回答。
•上下文相关性:通过检索到的信息,RAG能够生成与用户查询高度相关的响应。
•灵活性:适用于问答系统、内容创作等多种应用场景。
RAG 的应用场景
•问答系统:RAG可以用于问答系统,其中检索模型可以根据用户的问题从大规模的文本数据库或者互联网中检索相关答案,生成模型则可以将检索到的信息转化为自然语言的回答。
•文本摘要:RAG可以用于文本摘要任务,其中检索模型可以检索与原文相关的摘要信息,生成模型则可以基于检索到的信息生成更准确和完整的摘要。
•对话系统:RAG可以应用于对话系统,其中检索模型可以检索与对话历史相关的信息,生成模型则可以基于检索到的信息生成更连贯和准确的回复。
•事实核查:RAG 可以帮助识别和生成基于证据的解释,以验证陈述的真实性。
Agent智能体
为什么出现LLM Agent
1. 复杂任务需求:传统的 AI 系统在处理复杂任务时往往需要大量的领域知识和手工调试。LLM Agent 通过预训练模型和少量的微调,可以更好地适应各种复杂任务。
2. 人机交互提升:随着用户对于智能助手和对话系统的需求不断增加,LLM Agent 可以提供更自然、更流畅的交互体验。
LLM Agent是什么
LLM充当 Agent 大脑的角色,并由几个关键组件组成:规划(Planning)、记忆(Memory)、工具(Tool Use)
•规划
◦子目标拆解:复杂任务不是一次性就能解决的,需要拆分成多个并行或串行的子任务来进行求解,任务规划的目标是找到一条最优的、能够解决问题的路线。
•记忆
◦短期记忆:所有的上下文学习(提示词工程)都是利用模型的短期记忆来学习。
LLM Agent 的优势
1. 高效性:LLM Agent 可以快速理解和处理自然语言指令,减少了任务处理的时间和复杂度。
2. 灵活性:通过少量的微调,LLM Agent 可以适应不同的应用场景,从而具有很高的灵活性。
3. 用户体验提升:得益于强大的自然语言处理能力,LLM Agent 能够提供更加自然和智能的交互体验,提升用户满意度。
LLM Agent 的应用
•自动化客服:LLM Agent可以提供24/7的客户服务,自动回答用户的查询,提高服务效率和用户满意度。
•内容创作:从博客文章到营销文案,LLM Agent可以帮助内容创作者生成初稿或提供写作灵感。
•数据分析与摘要:LLM Agent可以从大量文本数据中提取关键信息,生成报告摘要,帮助决策者快速获取信息。
•教育和培训:在教育领域,LLM Agent可以提供个性化的学习材料,辅助语言学习,或者作为智能辅导员。
多模态
多模态定义
为什么需要多模态
多模态的作用和特点
1.信息整合:能够将不同类型的信息整合在一起,提高理解和分析的准确性。
2. 增强表现力:通过结合多种数据源,模型可以表现出更强的感知和认知能力。
1. 源数据处理:能够同时处理图像、文字、声音等多种数据类型。
多模态模型的应用案例
1. 医疗诊断:通过结合病人的影像数据(如X光片)、文字数据(病历)和生理数据(心电图),多模态模型可以提供更准确的诊断结果。
2. 自动驾驶:多模态模型可以结合摄像头图像、雷达数据和GPS信息,帮助自动驾驶汽车更好地理解周围环境,提高安全性。
多模态大模型是人工智能领域的重要进展,它们通过整合多种类型的数据,显著提升了模型的表现力和鲁棒性。这不仅使得人工智能系统能够更好地理解复杂的现实世界,也为未来的技术发展带来了无限可能。无论是在医疗、交通还是日常生活中,多模态大模型正逐步改变我们的生活方式。
06
应用实例(简单列举)
理解,首先 MCube 会依据模板缓存状态判断是否需要网络获取最新模板,当获取到模板后进行模板加载,加载阶段会将产物转换为视图树的结构,转换完成后将通过表达式引擎解析表达式并取得正确的值,通过事件解析引擎解析用户自定义事件并完成事件的绑定,完成解析赋值以及事件绑定后进行视图的渲染,最终将
斯坦福小镇
文生图 图生图 图生视频
LLM OS
上古卷轴破解
(图片来源 https://scrollprize.org/firstletters)
未来
随着AI技术的不断发现和进步,AI与人类的协同关系将不断演进和深化。我们期待着在未来,AI能够成为我们最得力的助手和伙伴,共同迎接更加智能和高效的未来。我们可以预见以下几个趋势:
pfinder实现原理揭秘大模型应用之路:从提示词到通用人工智能(AGI)
京东Apple Vision Pro版 Is Coming!