智源研究院

其他

FlagEval 7月榜丨新增29个模型评测结果

10上榜模型得分情况：开源大语言模型在原有29个模型评测结果基础之上，更新5个模型，共33个模型，基于中文+英文双语的主观评测分数为榜单排名标准，以下为Top

7月19日下午 12:01

其他

无编码器多模态大模型EVE：原生多模态新方案

GPT-4o(OpenAI)、Gemini(Google)、Phi-3V(Microsoft)、Claude-3V(Anthropic)，以及Grok-1.5V(xAI)等。与此同时，国内的

7月17日下午 12:01

其他

智源打造基于Triton的大模型算子库，助力AI芯片软硬件生态建设

2024年大模型进入了新的发展阶段，AI全领域开启了更为迅猛的量变积累。一方面，模型突破了模态的隔离，文本、语音、视觉等各种形式之间产生的丰富的结合，大大增加了模态的多样性。同时，模型参数量从百亿、千亿级膨胀到万亿级，训练数据量从TB级达到PB级，上下文令牌数量也从几千增长到百万级，计算规模空前庞大。此外，算法结构的创新也带来了MoE、模型量化、定制算子等更加复杂的计算需求。而在硬件设备的层面，由英伟达主导的CUDA生态以SIMT编程模型和CUDA编程语言为核心，从高性能算子库、开发工具链和GPU驱动等各个层次全面协同，建立了一套完整的体系，并长期占据着高性能计算的领先地位。虽然有生态竞争者——诸如OpenCL和ROCm等——在试图挑战和替代CUDA，但是无论在推广程度、使用体验还是计算性能方面都存在一定差距。新兴的各种AI芯片硬件架构不一、指令集不一、各自有自己的AI编译器，算子库也各自实现，整体呈现十分割裂且难以强大的生态。哪怕有部分AI芯片厂商不断模仿、跟进和对齐CUDA，然而受限于芯片架构的差异和底层的封闭属性，厂商的生态适配仍旧面临开发难度大、任务重以及各自为战的难点。算力需求增长而资源供应紧张的局面下，多元芯片的开源共建无疑是撼动CUDA地位、打造全新格局的机遇。而作为软硬件衔接的关键环节，编译技术这一层次则成为构建统一生态的入口。为降低大模型新算法的开发门槛、加速芯片架构的创新，智源研究院在今年的智源大会上发布了使用Triton语言实现的算子库FlagGems，以大模型的计算需求为导向，面向多元芯片，借助Triton编译器的开源和轻量级优势，提供了一套易适配、高性能的算子实现，以推动基于Triton的统一、开源的软硬件生态。1算子库技术选型在编译技术的多条路线中，统一的中间语言、统一的算子接口、统一的开源算子库都经过了一定的探索和实践。◎

7月9日下午 2:00

其他

Aquila-Med LLM：开创性的全流程开源医疗语言模型

论文链接：https://arxiv.org/pdf/2406.12182开源链接：https://huggingface.co/BAAI/AquilaMed-RLhttp://open.flopsera.com/flopsera-open/details/AquilaMed_SFThttp://open.flopsera.com/flopsera-open/details/AquilaMed_DPO近年来，闭源大语言模型（LLMs）和开源社区在通用领域取得了显著进展，甚至在某些方面超越了人类。然而，在专业领域，特别是医学领域，语言模型的表现仍然不足。为了支持语言模型在行业领域的发展，智源研究院提出了IndustryCorpus行业数据集，并在今年的智源大会上发布了1.0版本，其中就包含了医疗模型的训练数据，同时也提出了从通用模型到行业模型的训练范式。为了验证我们的训练范式和数据集的有效性，智源研究院基于上述数据和范式训练了Aquila-Med，一种基于Aquila的大规模双语医疗语言模型，也是第一个全流程开源持续预训练、监督微调（SFT）以及强化学习（RLHF）技术的医疗语言模型。IndustryCorpus

6月21日下午 4:01

其他

2024北京智源大会开幕，智源推出大模型全家桶及全栈开源技术基座新版图，大模型先锋集结共探AGI之路

2024年6月14日，第六届“北京智源大会”在中关村展示中心开幕。北京智源大会是智源研究院主办的“AI内行顶级盛会”，以“全球视野、思想碰撞、前沿引领”为特色，汇聚海内外研究者分享研究成果、探寻前沿知识、交流实践经验。2024北京智源大会邀请到了图灵奖得主姚期智，OpenAI、Meta、DeepMind、斯坦福、UC

6月14日下午 1:00

其他

重磅！2024 智源大会完整日程公布——全球大模型先锋集结

北京智源人工智能研究院理事长，中国互联网协会人工智能工委会主任委员，北京大学教授14:55-15:05介绍“北京人工智能数据运营平台”林咏华丨智源研究院副院长兼总工程师15:05-15:10

6月12日下午 6:36

其他

Hinton、Bengio等签署共识：北京AI安全国际对话收官，搭建中外AI安全合作平台

3月10-11日，我国首个AI安全高端闭门论坛——“北京AI安全国际对话”在北京颐和园成功举办。本次对话由智源研究院发起，智源学术顾问委员会主任张宏江与图灵奖得主Yoshua

3月19日上午 8:30

其他

FlagEval 2月榜｜新增多个MoE模型及InternLM2系列模型评测结果

发布，是首个在多项评测基准上超越Llama2-70B的MoE模型，开启大模型MoE实践新风向，同时也催生了一系列MoE模型“百花齐放”。SOLARC-MOE-10.7Bx6：由韩国Markr

2月5日下午 6:00

其他

王仲远博士加入智源研究院，接任院长一职

2024年2月1日，中国北京，北京智源人工智能研究院（以下简称“智源研究院”）今日宣布，智源研究院理事会任命王仲远博士接任智源研究院院长，全面负责研究院各项工作。黄铁军作为智源研究院理事长，不再兼任院长。黄铁军于2018年11月起担任智源研究院首任院长，并于2023年6月接任智源研究院理事长，他将继续领导智源的整体战略布局和创新生态构建。王仲远博士，38岁，长期从事人工智能前沿技术研究与实践，曾在快手、美团、Facebook、微软亚洲研究院等知名企业与研究机构担任重要技术及管理职务。他拥有前瞻的视野，扎实的研究能力，富有成效的技术落地，实际的产品业务应用，以及丰富的团队管理经验。图

2月1日下午 12:00

其他

新一代通用向量模型BGE-M3：一站式支持多语言、长文本和多种检索方式

Highlight:BGE-M3支持超过100种语言的语义表示及检索任务，多语言、跨语言能力全面领先（Multi-Lingual）BGE-M3最高支持8192长度的输入文本，高效实现句子、段落、篇章、文档等不同粒度的检索任务（Multi-Granularity）BGE-M3同时集成了稠密检索、稀疏检索、多向量检索三大能力，一站式支撑不同语义检索场景（Multi-Functionality）模型概述语义向量模型（Embedding

1月30日上午 10:30

其他

TACO：开源最大规模、面向复杂任务的代码生成训练数据集与评测基准

研究背景代码能力是基础模型的核心能力之一，对于提升基础模型的推理、规划等关键技能至关重要。随着大型语言模型和代码生成模型的迅速发展，主流的代码评测基准已经显现出它们的局限性，难以全面反映模型在真实场景下的表现和潜力。1.

2023年12月25日

其他

Emu2：新一代生成式多模态模型

根据少量演示和简单指令完成听、说、读、写、画等多模态任务是人类的基本能力。对于AI系统而言，如何利用多模态环境下的各种信息、实现少样本多模态理解与生成是有待攻克的「技术高地」。2023年12月21日，智源研究院开源发布新一代多模态基础模型Emu2，通过大规模自回归生成式多模态预训练，显著推动多模态上下文学习能力的突破。Emu2在少样本多模态理解任务上大幅超越Flamingo-80B、IDEFICS-80B等主流多模态预训练大模型，在包括VQAv2、OKVQA、MSVD、MM-Vet、TouchStone在内的多项少样本理解、视觉问答、主体驱动图像生成等任务上取得最优性能。Emu2是目前最大的开源生成式多模态模型，基于Emu2微调的Emu2-Chat和Emu2-Gen模型分别是目前开源的性能最强的视觉理解模型和能力最广的视觉生成模型。Emu2-Chat可以精准理解图文指令，实现更好的信息感知、意图理解和决策规划。Emu2-Gen可接受图像、文本、位置交错的序列作为输入，实现灵活、可控、高质量的图像和视频生成。相较2023年7月发布的第一代「多模态to多模态」Emu模型，Emu2使用了更简单的建模框架，训练了从编码器语义空间重建图像的解码器、并把模型规模化到37B参数实现模型能力和通用性上的突破。此外仍延续采用大量图、文、视频的序列，建立基于统一自回归建模的多模态预训练框架，将图像、视频等模态的token序列直接和文本token序列交错在一起输入到模型中训练。↓

2023年12月21日

其他

FlagEval 12月榜｜新增大模型鲁棒性评测，加入Qwen-72B、DeepSeek-34B等开源模型

Highlight:新增大语言模型鲁棒性评测结果，考察模型对于输入文本的抗干扰能力；加入Qwen-72B/1.8B、DeepSeek-34B等模型评测结果，Qwen-72B-Chat模型主观评测准确率高达83.6%。大语言模型鲁棒性评测北京航空航天大学作为

2023年12月20日

其他

LM-Cocktail模型治理策略，像调鸡尾酒一样调制“多技能”语言大模型

近日，智源研究院信息检索与知识计算组发布LM-Cocktail模型治理策略，旨在为大模型开发者提供一个低成本持续提升模型性能的方式：通过少量样例计算融合权重，借助模型融合技术融合微调模型和原模型的优势，实现“模型资源”的高效利用。融合多个LLM：既能提升目标任务性能，又能保持通用能力收集和构建目标任务数据集并对大语言模型（LLM）进行微调，可以提高其在目标任务的性能表现。然而，这种方式通常会导致除目标任务以外的一般任务的性能明显下降，损害LLM原本具备的通用能力。模型融合技术可以通过融合多个模型提高单模型的性能。受此启发，LM-Cocktail策略进一步通过对目标任务计算不同模型的重要性，赋予不同模型不同的权重，在此基础上进行模型融合，在提升目标任务上性能的同时，保持在通用任务上的强大能力。模型治理新策略：博采众长，持续为大模型增添新技能开源社区的模型逐渐增多，大模型开发者也可能在多次训练中累计了越来越多的模型，每个模型都具有各自的优势，如何选择合适的模型执行任务或进一步微调反而成为一个问题。LM-Cocktail

2023年12月11日

其他

打破异构算力束缚，FlagScale首次实现大模型的异构混合训练，开源70B模型实验版

AIGC浪潮带来了算力需求的高峰，而算力市场供应紧张的局面时日已久，数百亿参数规模的大模型训练需要庞大的计算资源。当前的训练方法仅支持同一种训练芯片构成集群来完成大模型训练，意味着数百亿参数的大模型训练需要上千张同一型号的AI训练加速卡（例如英伟达的GPU或某些国产训练加速卡），这在很多情况下难以满足。在长期的算力积累过程中，企业往往在不同阶段购买同一厂商不同代际的AI加速硬件、或者采购不同厂商的硬件，以满足不同工作负载的需求，同时尽可能地发挥各类设备的最大优势，节省使用成本。但同一个数据中心中，这些不同型号的AI训练卡集群之间往往形成了多个“资源墙”（resource

2023年11月30日

其他

打造生成式人工智能压舱石，智源联合共建单位开源可信中文互联网语料库CCI

pairs），数据规模达3亿对（其中中文1亿，英文2亿）。文本主题丰富，源自海量优质文本数据，涉及搜索、社区问答、百科常识、科技文献等多种主题。由该数据集训练得到的语义向量模型BGE

2023年11月29日

其他

FlagEval 11月榜 | 开源中文语义理解评测集C-SEM，新增ChatGLM3、Yi 等模型评测

Highlight:开源中文语义理解评测基准C-SEM新增近期开源模型&闭源模型评测：ChatGLM3-6B、ChatGLM2-12B（闭源）、Yi-34B、Skywork-12B、LingoWhale-8B01开源评测基准数据集

2023年11月17日

其他

生物神经元高效算法加速大脑仿真，智源联合成果登上Nature Communications

在人工智能领域，随着大型模型如ChatGPT等的崛起，人们对机器在未来具备超越人脑的智能充满信心。要实现这个目标，关键在于研究如何让机器在结构、规模和信号处理机制上逼近人类大脑的机制。这就需要借助更先进的神经元模型和仿真方法。近日，智源研究院院长、北京大学计算机学院黄铁军教授，与北京大学人工智能研究院杜凯助理研究员的研究团队的相关成果在国际著名科学期刊《自然通讯》（Nature

2023年11月5日

其他

更大更强！有请智源 Uni3D 视觉大模型，从「最强2D」升维「最强3D」

计算机视觉是人工智能的眼睛，三维视觉的研究赋予这双眼睛探知真实空间纵深与距离的能力。如何让机器人在复杂场景里更聪明地路径规划，与周边的一切精准交互？三维视觉模型的发展被寄予重望。近日，智源研究院开源发布当前最大三维视觉通用模型Uni3D，这一10亿参数的三维点云表征模型，取得了主流3D视觉能力的全方位性能突破，堪称三维基础模型中的「六边形战士」。值得一提的是，出品

2023年10月19日

其他

FlagEval 10月榜：新增Aquila2-34B、InternLM-20B、Qwen-14B等模型

，北京大学等单位共建的词汇级别语义关系判断、句子级别语义关系判断、多义词理解、修辞手法判断评测数据集，更多维度的评测数据集也在陆续集成中。

2023年10月18日

其他

最强开源中英双语大模型：悟道·天鹰340亿携全家桶登场

最新代码同步，引入更多定制功能，融合最新的分布式训练与推理技术以及主流大模型、支持异构AI硬件，力图构建一个通用、便捷、高效的分布式大模型训练推理框架，满足不同规模和需求的模型训练任务。

2023年10月12日

其他

FlagPerf v1.0 发布，构建开源开放的AI硬件评测生态

针对计算机视觉领域主流的图像识别、目标检测、图像语义分割等任务，选取了一批最经典、工业界最常使用的模型，如ResNet50，MaskRCNN进行测试，并定义了完整的功能、性能指标评估方案。2.3

2023年9月27日

其他

FlagEval 9月榜 | 评测框架多维升级，详解Baichuan2 等7个热门模型主观评测能力分布

，北京大学等单位共建的词汇级别语义关系判断、句子级别语义关系判断、多义词理解、修辞手法判断评测数据集，更多维度的评测数据集也在陆续集成中。悟道·天鹰Aquila系列模型更新悟道·天鹰Aquila

2023年9月18日

其他

持续数据开源，智源发布超3亿对面向中英文语义向量模型训练数据集

等多个知名开源项目集成与此同时，BGE模型回应社区反馈、快速迭代，带来一系列升级更新。MTP数据集链接：https://data.baai.ac.cn/details/BAAI-MTPBGE

2023年9月15日

其他

FlagOpen x 昇腾AI ｜共建AI硬件评测体系，赋能大模型生态创新

软硬件所面临的兼容性差、技术栈异构程度高、应用场景复杂多变等问题。项目地址：https://github.com/FlagOpen/FlagPerf目前已适配涵盖

2023年9月6日

其他

FlagPerf x 昆仑芯｜ AI芯片一体化评测引擎首批适配完成

硬件的一体化评测引擎，开源、开放、灵活、公正、客观。项目地址：https://github.com/FlagOpen/FlagPerfFlagPerf

2023年9月1日

其他

FlagEval 8月榜单：新增通义千问、Llama2等多个模型评测，新增基座模型代码生成能力评测

，北京大学等单位共建的词汇级别语义关系判断、句子级别语义关系判断、多义词理解、修辞手法判断评测数据集，更多维度的评测数据集也在陆续集成中。评测说明：在评测时，FlagEval

2023年8月15日

其他

链接大模型与外部知识，智源开源最强语义向量模型BGE

Model）被广泛应用于搜索、推荐、数据挖掘等重要领域，将自然形式的数据样本（如语言、代码、图片、音视频）转化为向量（即连续的数字序列），并用向量间的“距离”衡量数据样本之间的“相关性”

2023年8月7日

其他

FlagEval 7月榜单：新增 LLaMA、Aquila、GLM等基座模型评测结果

Model）是经过海量数据预训练（Pre-train）得到的，它具备一定的通用能力，相当于一个“潜力未知”的庞大的知识库，具备续写能力（持续预测下一个单词），但人类很难直接与其进行对话交互。2.

2023年7月15日

其他

智源「悟道3.0」Emu模型开源，「多模态-to-多模态」全能高手

相比其他多模态模型更具通用性，能完成任意图生文以及文生图的多模态任务。例如，精准图像认知、少样本图文推理、视频问答、文图生成、上下文图像生成、图像融合、多模态多轮对话等。

2023年7月13日

其他

大模型 2023 高考成绩如何？FlagEval 大模型评测排行榜更新

量级作为当前主流模型，因部署性价比高，广受产业欢迎。“巨无霸”ChatGPT作为标志参照项，在“高考2023评测”等能力对比中依然“一览众山小”。考虑到其在模型参数量、训练数据量方面的巨大差异*，以

2023年6月27日

其他

COIG二期发布：最大规模中文多任务指令集，上新千个中文数据集

高质量的指令数据是语言大模型（LLM）发展的重要“燃料”，而现阶段中文大语言模型数据集仍十分稀缺、现有开源数据集有诸多商用条款限制，成为研究发展掣肘因素。近日，智源研究院发布的国内首个大规模、可商用中文开源指令数据集COIG

智源研究院 -

2023年6月25日

其他

「悟道·视界」视觉大模型系列，6项领先成果技术详解

项目地址https://github.com/baaivision/Painter论文地址https://arxiv.org/abs/2212.02499「视界通用分割模型」代码和论文Github

2023年6月21日

其他

FlagEval 天秤大模型评测体系及开放平台，打造更全面的引领性评测基准

Models》指出了在CNN/DailyMail、XSUM两个传统评测基准上的指标失效情况。如下图所示，人类对模型输出打出的分数高于人类对数据集参考答案打出的分数，因此

2023年6月14日

其他

悟道·天鹰 Aquila + 天秤 FlagEval，打造大模型能力与评测标准双标杆

强大的基础模型能力，以小数据集、小参数量，实现高性能，是目前支持中英双语的、性能最好的开源代码模型，经过了高质量过滤、使用有合规开源许可的训练代码数据进行训练。此外，AquilaCode-7B

智源研究院 -

2023年6月11日

其他

2023北京智源大会开幕，“悟道3.0”大模型系列发布，人工智能顶级专家共话通用人工智能机遇与挑战

6月9日，为期两天的“北京智源大会”在中关村国家自主创新示范区会议中心成功开幕。科技部副部长吴朝晖和北京市副市长于英杰出席开幕式并致辞。北京智源大会是智源研究院主办的年度国际性人工智能高端专业交流活动，定位于“AI内行顶级盛会”，以“国际视野、技术前沿、思想激荡、洞见未来”为特色，已连续举办5届。今年，大会邀请到了图灵奖得主Geoffrey

智源研究院 -

2023年6月10日

其他

开源 AltDiffusion-m18 ，18 种语言文图生成 all in one

种不同的语言。AltCLIP：https://github.com/FlagAI-Open/FlagAI/tree/master/examples/AltCLIP-m18而

智源研究院 -

2023年5月5日

其他

用ChatGPT和强化学习玩转《我的世界》，智源Plan4MC攻克24个复杂任务

在开放式的环境中学习多种任务是通用智能体的重要能力。具有无限生成的复杂世界和大量开放任务，游戏《我的世界》（Minecraft）成为近几年开放式学习研究的重要测试环境。智源研究院和北京大学的团队提出了在无专家数据的情况下高效解决

2023年4月20日

其他

第5届智源大会注册开启，6大看点揭晓

欢迎注册2023智源大会，6大精彩看点即将揭晓五亿年前的寒武纪，渺小的有机物在海洋中蠕动，进化出光感受器，生命由此大爆发。2023年，人工智能新研究、新系统、新产品竞放——我们即将见证另一场有关智能的惊叹演化。6月9日至10日，2023北京智源大会，邀请这一领域的探索者、实践者、以及关心智能科学的每个人，共同拉开未来舞台的帷幕，你准备好了吗？今年大会共同主席为智源研究院理事长张宏江，以及加州大学伯克利分校教授、智源学术顾问委员

2023年3月28日

其他

张宏江：大模型发展机会与挑战

近日，张宏江博士在智源研究院做了主题为《大模型发展机会与挑战》的分享，本文对演讲内容，进行了不改变原意的摘录与编辑。智源研究院是人工智能领域的非营利组织，链接全球人工智能顶尖人才，汇聚学术、产业等各方资源，集中力量办大事，也是中国最早进行大模型研究的引领性科研机构。01ChatGPT：奇点到来1.

智源研究院 -

2023年3月17日

其他

颜水成加入智源，任访问首席科学家

会士。此前曾任智源学者-机器学习方向首席科学家，Sea集团首席科学家。他的研究领域包括计算机视觉、机器学习和多模态分析等。迄今为止，颜教授的

2023年3月16日

其他

FlagOpen大模型技术开源体系，开启大模型时代“新Linux”生态

“大数据+大算力+强算法=大模型”是当前人工智能发展的主要技术路径。语言大模型ChatGPT成为现象级应用，人工智能进入普及应用的新时期。智源研究院2020年搭建大模型攻关团队，2021年6月推出当时规模最大、性能领先多模态大模型“悟道2.0”。为了推动大模型方向的协同创新，在“科技创新2030”新一代人工智能重大科技项目支持下，2023年初，智源研究院联合30多家产学研单位共同承担的旗舰项目“人工智能基础模型支撑平台与评测技术”全面启动。经2个月集中攻关，开发出FlagOpen（飞智）大模型技术开源体系，旨在打造全面支撑大模型技术发展的开源算法体系和一站式基础软件平台，支持协同创新和开放竞争，共建共享大模型时代的“新Linux”开源开放生态。北京市副市长于英杰和科技部高新司副司长梅建平出席工作会并致辞。于英杰副市长指出，大模型的研发是一项体系化工作，涉及数据、算法、算力及训练基础设施等。智源研究院发布的FlagOpen大模型技术开源体系，是智源及上下游生态合作机构联合开展技术攻关的成果展现，为大模型技术创新提供了“北京贡献”。同时，他对于大模型的发展提出了三点期望：一是要抓住大模型发展机会，保持定力，强化基础。要聚焦源头，创新底层技术，大力突破核心关键技术，抢占制高点。二是应用导向，推动大模型应用生态建设。要加快大模型创新应用开发及API服务开放，形成数据飞轮效应，发挥大模型的通用泛化能力，赋智经济社会发展。三是科研机构、企业等要围绕算法及技术研究、数据等加强协同创新，建立开源开放的合作生态。于英杰

智源研究院 -

2023年2月28日

其他

2023 智源邀请100位AI创新者

朋友们，新年好！2023，智源研究院计划邀请

智源研究院 -

2022年12月30日

其他