查看原文
其他

研究资讯 | 机器学习产业发展现状及技术趋势

SAIA 上海市人工智能行业协会 2023-05-14



一、机器学习概述


关于机器学习,目前业界还没有一个统一的概念与定义。对于人工智能行业而言,机器学习是人工智能技术的核心,可以让计算机不再依赖于确定的编码指令,而要模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,是让计算机具有智能化特征的根本途径。机器学习作为一门多领域交叉的学科,被广泛应用于人工智能的数据挖掘、计算机视觉、自然语言处理、生物特征识别等领域。

按照属性不同,可以对机器学习进行多种形式分类。例如,基于处理数据种类的不同,可以分为有监督学习、无监督学习、半监督学习和强化学习等几种类型;基于学习方法的分类,可分为归纳学习、演绎学习、类比学习、分析学习;基于数据形式的分类,可分为结构化学习和非结构化学习等。

二、产业链解析


产业链概述:机器学习产业链包括上游的人工智能芯片供应商、云计算平台服务商、大数据服务商,中游的机器学习技术服务商以及下游的机器学习应用服务商。


  1. 机器学习产业链上游为支持基础层,主要涉及到AI芯片、云计算和大数据服务三大环节,其中AI芯片供应商主要负责提供GPU、ASIC、FPGA等人工智能专用芯片,大数据服务商提供的服务主要包括数据采集、数据处理、数据存储、数据交易等内容,云计算平台服务商提供的服务包括IaaS、PaaS、SaaS等。目前我国的云计算与大数据正处于快速发展中,国内技术水平也在紧随国外,但是在芯片技术上仍与国外存在一定差距,部分高端芯片主要依赖于进口。


  2. 产业链中游为技术层,以提供机器学习基础开源框架和机器学习技术开放平台为主的技术性服务,目前在市场受欢迎的机器学习平台有国外的微软 Azure 机器学习、IBM 沃森机器学习、谷歌TensorFlow、亚马逊机器学习、OpenNN开源神经网络库和国内的百度智能云、星环科技、第四范式等。


  3. 产业链下游为应用层,对于企业用户而言,机器学习平台的应用价值主要体现在降低建模门槛、加速模型迭代和共享数据洞察三方面。因此,下游的应用服务商为最终用户提供基于机器学习的垂直领域应用服务,垂直应用领域主要包含了金融、教育、医疗、零售、工业等行业。


三、产业现状


  1. 市场规模


国际层面:2020年,全球机器学习市场价值达到158亿美元。预计2020-2025年,全球机器学习市场价值将以42%以上的增速增长,行业发展势头极为强劲。


国内层面:2020年,我国机器学习核心产品市场规模约206亿元,并以20%以上的年均增速发展,2025年有望突破500亿元。而在2022年我国机器学习产品服务的带动市场规模将达到2381.8亿元,2025年将达到2935.6亿元。此外,机器学习产品服务还将以节约成本、降低风险与损失、减少研发时间、提升效益等形式带动应用方创收超千亿元。


图:2019-2025年中国机器学习市场规模


说明:


核心产品市场规模为机器学习平台、大数据平台与数据中台中的机器学习模块部分以及应用解决方案中的机器学习模块等。

带动规模为为达到机器学习应用目的,而连带采购的、具有相关性的软硬件产品、服务。


2. 企业分布


全球分布:根据AMiner发布的机器学习人才库分布地图,可以初步推断出当前全球机器学习产业总体分布状况,根据数据显示,目前机器学习产业主要分布于美、加、英、中等国家,并且美国是当前机器学习产业最为发达和集中的地区,加拿大、英国和中国紧随其后。


国内分布:由于机器学习产业是高精尖科技型产业,因此目前我国机器学习企业主要是分布于一二线发达城市地区,以北京、上海和广东地区为主。



3. 典型企业例举


(1)全球知名机器学习公司例举


全球顶尖的机器学习公司主要来自于美欧等国,以美国为主,例如亚马逊、苹果、Ayasdi、Digital Reasoning、Darktrace、Dataiku、Facebook、Feedzai、谷歌、IBM Watson、Luminoso、N-iX、QBurst、高通、优步等。


(2)国内典型机器学习公司例举


目前虽然国际顶尖机器学习公司主要聚集于国外,但随着国内人工智能产业的萌起,也涌现出一批优秀的专业化机器学习企业,例如百度、华为、第四范式、九章云极DataCanvas、一流科技、旷视科技等等。


  • 百度


百度以飞桨平台BML(Baidu Machine Learning)为核心,旨在打造一个全功能的AI开发平台,是面向企业和个人开发者的机器学习集成开发环境,为经典机器学习和深度学习提供了从数据处理、模型训练、模型管理到模型推理的全生命周期管理服务。飞桨的技术优势在于:一是开发便捷的深度学习框架;二是超大规模深度学习模型训练技术,领先其它框架实现了千亿稀疏特征、万亿参数、数百节点并行训练技术;三是多端多平台推理部署引擎;四是产业级的开源模型库,当前官方模型库支持的算法数量超过400个,覆盖计算机视觉、自然语言处理、推荐、语音等多个领域。


  • 华为


华为深度学习平台ModelArts是面向开发者的一站式AI开发平台,为机器学习与深度学习提供海量数据预处理及半自动化标注、大规模分布式Training、自动化模型生成,及端-边-云模型按需部署能力,帮助用户快速创建和部署模。该平台的特点主要表现为:一是低门槛,开箱即用,零基础3步即可构建AI模型;二是高效率,AI 开发全流程可视化管理,生产效率百倍提升;三是高性能,自研 MoXing 框架,极致提升开发效率和训练速度;四是易运维,灵活支持多厂商多框架多功能模型统一纳管。

  • 第四范式


第四范式“HyperCycle 人工智能机器学习平台”。技术发展方面,目前包括HyperCycle ML、HyperCycle CV 和HyperCycle OCR 三大产品,HyperCycle ML 是低门槛,标准化、全自动的决策类机器学习平台,帮助没有足够专业AI知识的人员也可以轻松快速构建AI应用,其AI效果超过90%的专家建模,并持续提升。HyperCycle CV是新一代计算机视觉算法AI平台,支持图像分类、目标检测和分隔等场景,小时级别的快速验证效果,低门槛易上手,用户只需标注几十张数据,即可构建专属的视觉模型,其效果也随着标注数据的增加而持续提升。HyperCycle OCR 新一代图像文字提取算法平台,解决客户大量个性化版式的卡证、票据等识别的问题,低门槛易上手,点击鼠标即可建立专属模型,一个模型即可覆盖同种单据多种版式,并轻松拓展 N 个场景,场景效果持续提升。应用落地方面,第四范式持续输出线上化、智能化、精细化的运营能力,先后赋能多家国内外知名企业及机构,包括交通银行、兴业银行、华夏银行、国信证券、来伊份、飞鹤、中国铁道科学研究院、DHL、Zegna、百威中国、巴黎卡诗 KÉRASTASE 等,生态伙伴数量及行业覆盖量快速提升,目前已有超过200个合作伙伴,覆盖15 个细分行业。


  • 九章云极DataCanvas


据IDC报道,九章云极DataCanvas已连续三次稳居中国机器学习平台市场三甲,并成为2020年机器学习平台市场中增速最高的厂商。九章云极DataCanvas正在为各行业企业提供基于AutoML技术的AI应用新动能,其核心产品DataCanvas APS自动机器学习平台以国际前沿的AutoML技术为基础,将AI技术从研发到生产化过程中各个环节“自动化”,为企业客户自主研发AI应用提供坚实基础架构的同时,通过ModelOps为客户提供云原生、可解释、大规模、直击业务痛点的AI模型全生命周期管理服务。

  • 一流科技


2021年,AI机器学习技术服务商“一流科技”完成5000万人民币A轮融资,由高瓴创投独家领投。目前该公司已拥有完全自主知识产权的新一代深度学习框架OneFlow,OneFlow围绕高效性设定技术路线,提升异构分布式扩展能力,秉持静态编译和流式并行的核心理念与架构,解决了分布式训练的内存墙和网络墙难题,公司基于OneFlow和核心技术,集成云计算和大数据等组件,提供OneFlow智能云服务。


四、技术趋势


(1)可解释性机器学习将成为研究重点


虽然机器学习在许多任务中取得了巨大的成功,但由于缺乏可解释性,其表现和应用备受质疑,严重阻碍了机器学习在各个领域尤其是安全敏感领域的广泛落地,因此,机器学习的可解释性研究意义重大,乃大势所趋。在机器学习场景中,可解释性表示模型具有使用人类可认知的说法进行解释和呈现的能力,可解释性越高,人类就越容易理解模型的决策或预测。可解释性机器学习具有透明度、可靠性、易于调试、指导人为决策、指导数据采集、启发特征工程思路等优点,对于模型的验证和改进有着非常积极的意义。机器学习系统能够为其决策提供令人满意的解释至关重要,可解释机器学习的出现,将显著提高系统的可靠性,切实建立模型和人类之间的信任,为其在智能政务、智能医疗、智能教育、自动驾驶等领域的深入应用奠定基础。


(2)数据治理与ML应用开发将逐渐走向一体化


ML应用厂商补全数据治理业务,数据治理厂商补全ML应用开发业务,成为了一大发展趋势。机器学习应用厂商在进行决策智能应用开发时,往往面临模型与数据无法拉齐的问题,所以需要溯源到前置环节,从一开始就把数据治理的工作做好,构建模型特有的数据资产,这也是典型的业务导向型数据治理方法论的体现。



往期推荐



研究资讯 | 智能传感器的发展现状与趋势研判

研究资讯 | 数字技术成为能源变革的关键支撑

【研究资讯】元宇宙产业发展现状及趋势

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存