从入门到实战,解锁机器学习,星环科技人工智能秘籍问世
星环科技人工智能平台团队合著的《机器学习实战-基于Sophon平台的机器学习理论与实践》现已问世,该书由机械工业出版社出版,凝结星环科技人工智能和大数据团队丰富的实战经验。
从技术视角提供当前人工智能相关技术的深入介绍,不仅讲解人工智能知识体系的理论基础,也指导基于实战平台的环境进行操作。
这是一本面向机器学习一线工程技术人员的实战指南。除了算法原理讲解,本书还结合实际业务问题,串联起各种工具,手把手教您快速搭建模型,构建行业应用。
本书特色
人工智能已然成为了本时代的新动力——它正在革新世界各地的工业,并从根本上改变我们工作的方式。随着技术体系越来越复杂,应用场景日益广泛,开发门槛也越来越高。在这种情况下,需要一本关于机器学习的专业图书,不仅讲解关于整体知识体系的理论基础,也可以提供基于人工智能研发实战平台环境的操作指导。
1. 紧接地气:本书由星环科技人工智能平台研发团队合著,凝聚了来自算法专家及一线软件工程专家的实战经验。相比于国内学术人员的教材或国外译注,本教材案例来自本土真实的业界实践,更加贴合国内机器学习产业的需求。2. 注重实践:与基于Python等特定语言的机器学习入门教材不同,本书不拘泥于具体功能的代码实现,更关注技术大方向与业务落地的有机结合。3. 新手友好:对于机器学习的各环节,本教材采用交互式的平台Sophon进行落地,各环节高度可视化。对于有基础的编程爱好者,可以扩展视野,看看平台带来的效率提升,并无缝迁移文本代码至新平台;对于零基础的读者,可以快速搭建并跑通完整的机器学习流程,提升入门机器学习的自信心。
针对各种类型的机器学习问题,基于星环自研的人工智能平台(Sophon)环境,结合真实案例,依照数据、分析、建模的演进历程以及系统化阐述并进行实战讲解。
通过原理讲解与实例分析,读者既能了解人工智能相关的算法原理,也能了解人工智能一些可落地的具体应用场景。此外,本书还适合作为Sophon平台工具的使用手册,供平台用户参考。
本书既适合作为高等院校计算机、软件工程、人工智能等相关专业的教学用书,同时也可供从事机器学习相关领域的工程技术人员阅读和参考,帮助掌握机器学习相关的算法原理,并能通过专业工具平台快速搭建各类模型,构建机器学习的行业应用。
关于我们
星环科技人工智能平台团队一直致力于“把中国人自主研发的领先创新技术赋能全世界各行各业,促进社会可持续发展,通过科技让人类的生活更美好”。目前产品应用已覆盖金融、安防、电力、交通、教育等数十个行业和领域,申请专利近三十个。
下面,我们将用一个商户反欺诈的例子,串起本书的主要章节内容。
01
案例背景
随着移动支付的推广,传统的POS机刷卡已经逐步被新兴二维码POS机刷码所取代。同时,传统的线下商铺刷卡套现也逐步演化为网络购物套现、个人POS机套现、微商及线上商铺套现等多种方式。
POS刷卡刷码的流程如下图所示:
银行或第三方支付平台首先向商家推广POS机,然后持有银行卡的消费者就可以在相应商铺使用POS机刷卡消费,或者也可以将银行卡与支付平台绑定,再在商铺使用POS机刷码消费。这一过程中很有可能产生套现欺诈行为,而我们可以使用机器学习方法对商户与消费者间交易行为建模,通过模型自动检测异常商户。
处理这类案例时,我们会先将抽象的业务目标转化为机器可理解的问题,根据我们手中的数据和业务目标构想模型。整个机器学习的过程包含数据预处理及探索性分析、特征提取及选择、模型构建及训练和模型评估。问题建模的流程如下图所示:
02
数据预处理与探索性分析
这一过程包含箱线图、条形图和数据分布特征研究等初步的数据探索、数据的归一化处理、类别特征数据的独热编码或高势集特征编码处理、时间特征数据的连续性变换或时间窗口提取处理等操作,为后续模型的构建及模型收敛速度和精度的提升做了铺垫。
03
特征提取及选择
在POS套现的案例中,我们将构建四种特征,其构建流程如下:
1. 将消费者和商家的静态属性信息作为静态特征;
2. 将商家与消费者之间的动态交易记录作为交易特征,同时加入了商户的平均交易额度等商户深度数据;
3. 分析得到消费者和商家交易图的模式结构特性、传播特征、聚类特征等图结构特征;
使用图嵌入算法和异常检测算法 LOF得到用嵌入特征表示的深度图特征
若数据存在于多个表格中,则可以运用DFS(深度特征融合)进行数据表关联,特征基元以及自动特征搜索与组合(Sophon中提供了自动多表扩展算子的接口供建模使用)。自动特征构建出的特征则可以使用不同类型的评价指标(如LRLogLossMetric、SquaredLossMetric和EntropyBasedMetric)进行评价,再使用一些局部最优方法进行选择(Sophon中的AutoML模块专门提供了自动特征构建算子供使用)。
04
模型构建及训练
1. 分类模型:将银行业务人员预先指定的异常商户标签作为分类目标,训练一个分类模型(如逻辑回归模型),再根据模型结果判定新商户是否异常;
2. 回归模型:将异常商户标签经交易网络传播后的异常值作为拟合目标,训练一个回归模型(如线性回归模型),再根据模型结果预测商户未来出现套现异常的等级;
3. 图计算模型:计算图结构及图特征,辅助对交易行为进行可视化图分析
当我们担心单一的分类/回归模型性能无法满足需求时,可以使用集成学习,将XGBoost回归、决策树回归/SVM、多层感知机和梯度提升树等各类模型进行简单平均/投票融合,集合成一个强学习器,从而得到一个具有比单独学习算法更好预测性能的结果。而当算法性能受到诸如训练过程和正则化方法等选择的设计决策影响时,则可以选择使用自动建模。
另外,可视化图分析能够提供大量信息。如图所示:AB 两个诈骗商铺的顾客中大多使用非信用卡交易,而其共同消费者(疑似欺诈团伙)却大都使用信用卡交易,很可能在实施信用卡套现等诈骗行为。结合商户信息的查询结果:这两个店铺物理距离相距超过 30 公里,且这几个消费者短时间内同时在这两家发生了消费,也佐证了可视化图提供的信息。
05
模型评估
以判定商户是否异常的分类模型为例,我们选择混淆矩阵、ROC曲线与PR曲线进行模型评估。
混淆矩阵结果
ROC曲线结果
PR曲线结果
从图中可以看到,在使用了前面所述特征进行模型训练使得测试集上模型的精度和召回率分别达到 0.925 和 0.7,基本能够满足商户异常监测场景的需要。
从以上分析案例可以看到,Sophon的各个算法算子和可视化分析工具,能够帮助有数据分析需求的业务人员更好地上手使用机器学习对相关业务案例进行分析,同时也使得整个模型搭建流程和结果展示更加清晰,帮助业务人员更好地研究场景问题,助力业务目标的达成。
此外,我们还可以借助自然语言处理和计算机视觉技术,将更多关于商户和消费者的非结构化信息纳入模型,形成更综合化的分析体系。更多主题将在后续的独立文章中呈现,敬请期待。
内容提前知
本书内容覆盖了机器学习领域从理论到实践的多个主题,总共分为10章。
1
第一章 机器学习导论
介绍机器学习的背景、定义和任务类型,构建机器学习应用的步骤,以及开发机器学习工作流的方式。
2
第二章 数据预处理与特征工程
详细介绍数据预处理和特征工程技术,并辅以实例进行验证。
3-6
第三~六章
介绍回归模型、分类模型、模型融合和聚类模型,这些内容是机器学习理论和实践中的传统重点。其中不仅介绍各种常见数据类型的处理方法,还针对删失数据进行了专门的综述和实践。
7
第七章 图计算
介绍机器学习领域较难的图计算话题,并从工业界视角解读如何将图计算落地。
8
第八章 自动机器学习
针对特征工程、建模过程中大量调参的场景介绍自动机器学习的理论和应用,并细致比较和测试了各种自动特征工程算法在不同数据上的表现。
9
第九章 自然语言处理
介绍自然语言处理(词向量、序列标注、关键词抽取、自动摘要和情感分析)技术,使用新闻文本数据搭建文本分类的流程。
10
第十章 计算机视觉
介绍计算机视觉中图像分类和目标检测的应用以及车辆检测的落地案例。
TDH TDC Sophon 流式计算 图数据库 闪存数据库
金融 能源 交通 制造业 银行 基金 质检 航空 保险 物流 医疗
点击“阅读原文”我们一起进步