北京将打造国家数据基础制度先行先试示范区，谋划国家级数据训练基地

数据要素社 2024-01-09

近日，北京市科学技术委员会发布《北京市促进通用人工智能创新发展的若干措施(2023-2025年)(征求意见稿)》，明确将打造“国家数据基础制度先行先试示范区”，谋划国家级数据训练基地，持续探索通用人工智能路径，推动通用人工智能技术创新场景应用。

意见稿提出，加快推动数据要素高水平开放的“国家数据基础制度先行先试示范区”建设，争创国家级数据训练基地，提升北京人工智能数据标注库规模和质量。整合现有开源中文预训练数据集和高质量互联网中文数据并进行合规清洗。同时持续扩展高质量多模态数据来源，建设合规安全的中文、图文对、音频、视频等大模型预训练语料库，通过北京国际大数据交易所社会数据专区进行定向有条件开放。

意见稿重点围绕通用人工智能发展，系统布局大模型技术体系，持续探索通用人工智能路径，推动通用人工智能技术创新场景应用，明确了其在政务服务、医疗、科学研究、金融、自动驾驶、城市治理等领域的示范应用。

北京市促进通用人工智能创新发展的若干措施(2023-2025年)

（征求意见稿）

为抢抓大模型发展机遇，重视通用人工智能发展，充分发挥政府引导作用和创新平台催化作用，整合创新资源，加强要素配置，营造创新生态，重视风险防范，推动我市通用人工智能领域实现创新引领，提出以下落实措施：

一、加强算力资源统筹供给能力

（一）组织商业算力定向满足本市紧迫需求

加强与头部公有云厂商等市场主体合作，实施算力伙伴计划，并确定首批伙伴计划成员，明确供给技术标准、软硬件服务要求、算力供给规模、优惠策略等，向在京高校院所和中小企业公布一批优质算力供应商。

（二）高效推动新增算力基础设施建设

将新增算力建设项目纳入算力伙伴计划，加快推动海淀区“北京人工智能公共算力平台”，朝阳区“北京数字经济算力中心”等项目建设，快速形成规模化先进算力供给能力，支撑千亿级参数量的大型语言模型、多模态大模型、大规模精细神经网络模拟仿真模型、脑启发神经网络等研发。

（三）建设统一的多云算力调度平台

利用政府统一入口，降低公有云采购成本，普惠中小企业，同时减少企业分别面对不同云厂商的沟通成本。针对弹性算力需求，建设统一的多云算力调度平台，实现异构算力环境统一管理、统一运营，方便企业在不同云环境上无缝、经济、高效地运行各类人工智能计算任务。建设北京与河北、天津、山西、内蒙古等省（市）算力集群的直连基础光传输网络，进一步提升平台对四地算力资源感知能力，探索开展算力交易。

二、提升高质量数据要素供给能力

（四）归集高质量基础训练数据集

针对目前大模型训练高质量中文语料占比过少，不利于中文语境表达及产业应用的问题，整合现有开源中文预训练数据集和高质量互联网中文数据并进行合规清洗。同时持续扩展高质量多模态数据来源，建设合规安全的中文、图文对、音频、视频等大模型预训练语料库，通过北京国际大数据交易所社会数据专区进行定向有条件开放。

（五）打造“国家数据基础制度先行先试示范区”，谋划国家级数据训练基地

加快推动数据要素高水平开放的“国家数据基础制度先行先试示范区”建设，争创国家级数据训练基地，提升北京人工智能数据标注库规模和质量。倡议高质量数据网站所属企业提供部分脱敏高质量数据，进行定向有条件开放，企业或科研机构通过在线申请进行有偿使用，并探索基于数据贡献、模型应用的商业化场景合作。

（六）搭建数据集精细化标注众包服务平台

建设指令数据集及多模态数据集众包服务平台，开发集成相关工具应用的智能云服务系统，鼓励并组织来自不同学科的专业人员标注通用人工智能模型训练数据及指令数据，提高训练数据的多样性，给予贡献者适当奖励，推动平台持续良性发展。

三、系统布局大模型技术体系，持续探索通用人工智能路径

（七）开展大模型创新算法及关键技术研究

围绕大型语言模型构建、训练、调优对齐、推理部署等全流程，支持开展创新算法及核心技术研究，形成完整高效的训练体系并对外开源。探索多模态通用模型架构，研究大模型高效并行训练技术，以及逻辑和知识推理、指令学习、人类意图对齐等调优方法，研发支持百亿参数模型推理的高效压缩技术。

（八）加强大模型训练数据采集及治理工具研发

从“采、存、管、研、用”五个方面，研发包含数据采集、清洗、标注、脱敏、存储等功能在内的数据处理工具。重点研究互联网数据全量实时更新技术，多源异构数据整合与分类方法，数据管理平台相关系统，数据清洗、标注、分类、注释等软件工具及算法，数据内容安全审查算法及工具等。

（九）开放大模型评测基准及工具

构建多模态多维度的基础模型评测基准及评测方法。建立基础模型评测工具集，提供适应性的工具进行评测。建立公平高效的自适应评测机制，根据评测目标的不同，自动适配不同的工具和指标。研究人工智能辅助的智能模型评测算法，面向主观型或生成式的任务，构建自动化评估工具。集成包括通用性、高效性、智能性、鲁棒性在内的多维度评测工具，构建基础模型线上评测服务平台。

（十）推动大模型基础软硬件体系研发

支持研发分布式高效训练系统，实现模型训练任务高效自动并行。研发适用于模型训练场景的新一代人工智能编译器，实现算子自动生成和自动优化，推动人工智能芯片与框架的广泛适配。研发人工智能芯片评测系统，实现多芯片多框架的自动化评测。为大模型训练和应用提供自主创新的基础软硬件生态底座。

（十一）探索具身智能、通用智能体和类脑智能等通用人工智能新路径

发展面向通用人工智能的基础理论框架体系，加强人工智能数学机理、自主协同与决策等基础理论研究。推动具身智能系统研究及应用，突破机器人在开放环境、泛化场景、连续任务等复杂条件下的感知、认知、决策技术。探索价值与因果驱动的通用人工智能新路径研究，打造通用人工智能统一理论框架体系、评级标准及测试平台，研发通用人工智能操作系统和编程语言，推动通用智能体底层技术架构应用。探索类脑智能等交叉学科研究，通过大脑神经元连接模式、编码机制、信息处理原理研究，启发新型人工神经网络模型建模和训练方法。

四、推动通用人工智能技术创新场景应用

（十二）推动在政务服务领域率先试点应用

围绕政务咨询、政策服务、接诉即办、政务办事等工作，率先实现大模型技术赋能。借助大模型语义理解、自主学习和智能推理等能力，提高政务咨询系统智能问答水平，增强多语种交互能力。支撑“京策”平台建设，优化政策规范管理和精准服务。辅助市民服务热线更高效回应市民诉求，深化民生大数据高效利用。提升办事服务便利度，辅助引导办事人员表单填写，辅助综合窗口人员更精准提供办事指引，辅助审批人员提高审批效率，推进业务数据更充分共享、业务流程更高效协同。

（十三）探索在医疗领域示范应用

支持我市有条件的研究型医疗机构提炼智能导诊、辅助诊断、智能治疗等场景需求，充分挖掘医学文献、医学知识图谱、医学影像等多模态医疗数据，构建基于医疗领域通用数据与专业数据的智能应用，实现对各种疾病和症状的准确识别和预测，辅助医疗机构提高疾病诊断、治疗和预防的决策水平。

（十四）探索在科学研究领域示范应用

发展科学智能，加速人工智能技术赋能新材料和创新药物领域科学研究。支持我市能源、材料、生物领域相关实验室设立科研合作专项，与我市相关科研机构和创新企业开展联合研发，充分挖掘材料、蛋白质和分子药物领域实验数据，研发科学计算模型，开展新型合金材料、蛋白质序列和创新药物化学结构序列预测，缩短科研实验周期。

（十五）推动在金融领域示范应用

进一步挖掘我市金融行业应用场景，系统布局一批金融机构场景开放“揭榜挂帅”项目。支持金融科技企业针对金融场景中信息负载高，信息更新快，金融从业者难以快速全面的获取准确信息的问题，探索面向金融文本深度理解和分析的人工智能技术应用。聚焦智能风控、智能投顾、智能客服等环节，推动实现金融专业长文本的精准解析和模型知识的更新，突破复杂决策逻辑与模型信息处理能力间的融合技术，实现从复杂金融信息处理到投资决策建议的转化，支撑金融领域的投资辅助决策。

（十六）探索在自动驾驶领域示范应用

支持自动驾驶企业研发多模态自动驾驶技术，发挥大型语言模型高维语义理解和泛化优势，基于车路协同数据和车辆行驶多传感器融合数据，提高自动驾驶模型多维感知和预测性能，有效解决复杂场景长尾问题，辅助提高车载自动驾驶模型泛化能力。支持在北京市高级别自动驾驶示范区3.0建设中，构建车路协同数据库，引导企业开展基于真实场景的自动驾驶模型训练迭代。探索基于低时延通讯的云控自动驾驶模型测试，发展自动驾驶新技术路径。

（十七）推动在城市治理领域示范应用

支持人工智能研发企业结合智慧城市建设场景需求，率先在城市大脑建设中引进大模型技术，开展多感知系统融合处理技术研发，打破城市治理中各系统数据孤岛，实现智慧城市底层业务的统一感知、关联分析和态势预测，科学调配政府资源和行政力量，为城市治理提供更加综合全面的辅助决策能力。

五、探索营造包容审慎的监管环境

（十八）持续推动监管政策和监管流程创新

探索营造稳定包容的监管环境，积极推动人工智能领域新技术赋能传统行业的包容审慎监管，支持人工智能算法、框架等基础技术的自主创新、推广应用、国际合作。鼓励优先采用安全可信的软件、工具、计算和数据资源，通过改进算法等技术手段，确保训练数据集的规范性。鼓励生成式人工智能产品在科研等非面向公众服务领域实现向上向善应用。积极向国家网信部门争取，在中关村核心区建立先行先试，推动实行包容审慎监管试点。

（十九）建立常态化服务和指导机制

做好对拟面向公众提供服务的生成式人工智能产品的安全评估工作，建立常态化联系服务和指导机制，督促企业遵守法律法规要求，尊重社会公德、公序良俗。优化安全评估流程机制，细化对大模型算法设计、训练数据源筛选、内容安全性、人工标注规则的审核评估标准，开展精准化服务指导，加快推进我市人工智能企业相关技术产品的安全评估工作。指导企业建立健全算法安全防范机制，在产品研发阶段引入技术工具进行安全检测，督促企业积极履行算法备案和变更、注销备案手续。发布《北京市互联网信息服务算法推荐合规指引》，引导创新主体树立安全责任意识，健全管理制度、强化技术手段、促进企业算法合规发展。

（二十）加强网络服务安全防护和个人数据保护

指导算力运营主体落实《网络安全法》《数据安全法》《个人信息保护法》等法律规定，加强网络和数据安全管理，明确网络安全、数据安全和个人信息保护主体责任，强化安全管理制度建设和工作落实，鼓励企业开展数据安全管理认证及个人信息保护认证，落实数据跨境传输安全管理制度，全面提升网络安全和数据安全防护能力。

（二十一）持续提升人工智能产业伦理治理自律自治能力

落实国家新一代人工智能创新发展试验区建设任务，加强人工智能伦理安全规范及社会治理实践研究，研发并部署人工智能伦理治理公共服务平台，服务政府监管与产业自律自治，强化相关责任主体科技伦理规范意识，提升科技伦理治理能力。

关于《北京市促进通用人工智能创新发展的若干措施(2023-2025年)(征求意见稿)》的起草说明

为抢抓大模型发展机遇，重视通用人工智能发展，充分发挥政府引导作用和创新平台催化作用，整合创新资源，加强要素配置，营造创新生态，重视风险防范，推动我市通用人工智能领域实现创新引领，特制定本措施。

《若干措施》针对加强算力资源统筹供给能力、提升高质量数据要素供给能力、系统布局大模型技术体系持续探索通用人工智能路径、推动通用人工智能技术创新场景应用、探索营造包容审慎监管环境五大方向，明确组织机制，提出21项具体措施。

一是加强算力资源统筹供给能力方向，依托全市数据中心统筹联席会议工作机制，加强市区两级相关单位与重点新型研发机构、云服务企业、算力建设企业、基础电信企业等单位的沟通协作，推动存量算力归集、新建项目论证和存量项目改造。该方向提出组织商业算力、新增算力基础设施建设、建设多云算力调度平台3项具体措施。

二是提升高质量数据要素供给能力方向，联合相关单位构建大规模预训练基础数据集、高质量微调数据集。建立训练数据的供给和使用协调机制，强化相关行业主管部门、相关区政府和重点研发单位、平台企业、数据交易机构等市场主体的沟通协作。该方向提出归集高质量基础训练数据集、打造“国家数据基础制度先行先试示范区”谋划国家级数据训练基地、搭建数据集精细化标注众包服务平台3项具体措施。

三是系统布局大模型技术体系，持续探索通用人工智能路径，支持开展大模型创新算法及关键技术研究，支持大模型基础软硬件体系、训练数据采集及治理工具、评测工具研发，并支持探索通用人工智能新路径。该方向提出开展大模型创新算法及关键技术研究、加强大模型训练数据采集及治理工具研发、开放大模型评测基准及工具、推动大模型基础软硬件体系研发、探索通用人工智能新路径5项具体措施。

四是推动大模型技术创新场景应用方向，充分发挥大模型泛化能力强的特点，结合我市优势场景资源，引导企业充分挖掘领域数据资源，开展领域大模型应用技术研究，拓展大模型应用边界，探索面向细分垂直领域的大模型商业模式和创新生态。该方向提出面向政务服务、医疗、科学研究、金融、自动驾驶、城市治理领域拓展应用场景6项具体措施。

五是探索营造包容审慎监管环境方向，建立与大模型企业常态化联系与服务机制，持续调研跟踪企业在安全评估中遇到的难点堵点，加强同国家网信办沟通协调，积极争取在中关村核心区建立先行先试特区，推动实行包容审慎监管试点。该方向提出持续推动监管政策和监管流程创新、建立常态化服务和指导机制、加强大模型网络安全防护和个人数据保护、持续提升人工智能产业伦理治理自律自治能力4项具体措施。

来源：北京市科学技术委员会、中关村科技园区管理委员会

END

# 好文推荐 #

数据要素信息参考（05.08-05.14）

【数据采购动态02期】卫星数据、旅游数据、社保数据...

诚邀参与 | 《数据要素统一大市场产业图谱》研究计划正式启动！

好书推荐 | 《论数据要素市场》开启十万亿级市场的政策“密钥”

继续滑动看下一个