算法进阶

其他

小白看得懂的图解Transformer

Trasnformer可以说是完全基于自注意力机制的一个深度学习模型,因为它适用于并行化计算,和它本身模型的复杂程度导致它在精度和性能上都要高于之前流行的RNN循环神经网络
2023年10月11日
其他

漫谈度量学习(Distance Metric Learning)

的,也就是说得等产品完成很多工序直到质检工序时才被发现,而某些产品质量可能在其中某一个工序就出问题了,可这些有问题的产品依旧经过了后续的很多工序加工,这造成了很大的资源和成本浪费。所以我们需要一个
2023年10月3日
其他

机器学习可视化技术概览(Python)

【导读】大家好,我是泳鱼。一个乐于探索和分享AI知识的码农!本文介绍通过机器学习的可视化技术以解释和理解模型这个"黑盒子"的开发与运作。机器学习的可视化(VIS4ML)是利用可视化技术来解释和理解机器学习模型的过程。由于数据质量极大地影响了机器模型的性能,如图1,本文从数据出发,介绍了机器学习模型输入常见的五种数据类型,并介绍了六个以数据为中心的任务应用于来自机器学习流程不同阶段的三种类型的操作数据及机器学习可视化工具与技术,帮助大家更好地理解、诊断和完善机器学习模型。图1
2023年9月10日
其他

因果机器学习的前沿进展综述

【导读】大家好,我是泳鱼。今天和大家研习一篇关于因果学习的综述论文,通过因果理论,可以帮助解决干预和反事实操作问题,解决传统机器学习无法讨论的问题。机器学习是实现人工智能的重要技术手段之一,广泛应用于计算机视觉、自然语言处理、搜索引擎和推荐系统等领域。但当前的机器学习方法通常注重数据中的相关关系而忽视其中的因果关系,存在可解释性、可迁移性、鲁棒性和公平性等方面的问题。研究者开始重新审视因果关系建模的重要性,相关方法也成为研究热点。本文整理和总结了近年来机器学习领域应用因果技术和思想解决实际问题的工作,梳理新兴研究方向的发展脉络,包括因果理论介绍,各问题需求分类工作介绍,以及总结现状和展望未来趋势。1
2023年9月4日
其他

度量时间序列相似度的方法:从欧氏距离到DTW及其变种

两个不等长时间序列间的欧氏距离是否可行?当两个时间序列的长度不相等时,较长的一个时间序列总会剩下无法被匹配到的点,这种情况如何计算欧氏距离?毫无疑问,此时欧氏距离不再可行。此外,如图
2023年8月21日
其他

4种聚类算法及可视化(Python)

在这篇文章中,基于20家公司的股票价格时间序列数据。根据股票价格之间的相关性,看一下对这些公司进行聚类的四种不同方式。苹果(AAPL),亚马逊(AMZN),Facebook(META),特斯拉(TSLA),Alphabet(谷歌)(GOOGL),壳牌(SHEL),Suncor能源(SU),埃克森美孚公司(XOM),Lululemon(LULU),沃尔玛(WMT),Carters(CRI)、
2023年8月12日
其他

21 句话入门机器学习!

【导读】大家好,我是泳鱼,一个乐于探索和分享AI知识的码农。今天介绍一篇关于机器学习的入门级好文。对于程序员来说,机器学习的重要性毋庸赘言。也许你还没有开始,也许曾经失败过,都没有关系,你将在这里找到或者重拾自信。只要粗通Python,略知NumPy,认真读完这21句话,逐行敲完示例代码,就可以由此进入自由的AI王国。1机器学习有四种用途:分类、聚类、回归和降维。更严格一点,机器学习的目的只有三个:分类、聚类和回归,降维不过是达成目标的手段之一。2分类和聚类都是对个体样本归类,看起来很相似,实则相去甚远——前者属于有监督的学习,后者属于无监督的学习。分类是基于经验的,而经验来自过往的数据,这意味着分类需要训练;聚类则是基于当前全部样本的特征,不依赖经验,自然也就无需训练。举个例子:让你从一堆水果中挑出苹果、橘子和香蕉,这是分类;让你将画在纸上的若干个图案分组,分组规则由你决定,这是聚类。3从字面上看,分类和回归看上去风马牛不相及,其实二者是亲兄弟,使用的算法几乎完全重合。分类是对个体样本做出定性判定,回归是对个体样本做出定量判定,二者同属于有监督的学习,都是基于经验的。举个例子:有经验的老师预测某学生考试及格或不及格,这是分类;预测某学生能考多少分,这是回归;不管是预测是否及格还是预测考多少分,老师的经验数据和思考方法是相同的,只是最后的表述不同而已。4传统的软件开发,代码是重点,而对于机器学习,数据是重点。在训练机器学习模型时,数据的质量和数量都会影响训练结果的准确性和有效性。因此,无论是学习还是应用机器学习模型解决问题,前提都是要有足够多且足够好的数据集。5数据集通常是指由若干个样本数据组成的二维数组,数组的每一行表示一个样本的数据。举个例子:用性别、年龄、身高(米)、体重(千克)、职业、年薪(万元)、不动产(万元)、有价证券(万元)等信息组成的一维数组表示一位征婚者的数据,下面的二维数组就是一个婚介机构收集到的征婚者数据集。>>>
2023年7月21日
其他

深度学习时间序列的综述

摘要:时间序列一般是指对某种事物发展变化过程进行观测并按照一定频率采集得出的一组随机变量。时间序列预测的任务就是从众多数据中挖掘出其蕴含的核心规律并且依据已知的因素对未来的数据做出准确的估计。由于大量物联网数据采集设备的接入、多维数据的爆炸增长和对预测精度的要求愈发苛刻,导致经典的参数模型以及传统机器学习算法难以满足预测任务的高效率和高精度需求。近年来,以卷积神经网络、循环神经网络和
2023年5月28日
其他

【算法进阶】AI领域文章精选!

最近梳理了下历史文章,精选了一些文章,分为机器学习,深度学习,人工智能等几大板块,文章已开通【快捷转载】,欢迎阅读及转载。希望对大家有所帮助,文章代码资料可访问:https://github.com/aialgorithm/Blog1
2023年5月12日
其他

6种神经网络的压缩方法

tf.square(student_tau-teacher_tau))"""student模型最终的损失函数由两部分组成:第一项是由小模型的预测结果与大模型的“软标签”所构成的交叉熵(cross
2023年5月11日
其他

卷积神经网络特征图的可视化(CNN)

卷积神经网络(CNN)是一种神经网络,通常用于图像分类、目标检测和其他计算机视觉任务。CNN的关键组件之一是特征图,它是通过对图像应用卷积滤波器生成的输入图像的表示。理解卷积层1、卷积操作卷积的概念是CNN操作的核心。卷积是一种数学运算,它把两个函数结合起来产生第三个函数。在cnn的上下文中,这两个函数是输入图像和滤波器,而得到的结果就是特征图。2、卷积的层卷积层包括在输入图像上滑动滤波器,并计算滤波器与输入图像的相应补丁之间的点积。然后将结果输出值存储在特征映射中的相应位置。通过应用多个过滤器,每个过滤器检测一个不同的特征,我们可以生成多个特征映射。3、重要参数Stride:
2023年5月10日
其他

深度学习GPU环境配置及建模(Python)

对于深度学习开发者,操作系统的选择、到深度学习相关依赖包安装、环境配置上,这些步骤看似简单基础,但其实也经常有不少麻烦。本文简要梳理了从环境配置到深度学习建模的完整的流程,有所帮助的话,可以文末点个👍。操作系统的选择1
2023年5月5日
其他

图解 72 个机器学习基础知识点

Rate)、精确率(Accuracy)、查准率(Precision)、查全率(Recall)、F1、ROC曲线、AUC曲线和R平方等。更详细的内容可见
2023年5月4日
自由知乎 自由微博
其他

Python实现时间序列的分类预测

Splits:股票分割执行我们已经下载了数据,但是数据还不适合建模分类模型。所以仍然需要为建模准备数据。所以需要编写了一个函数来下载数据,然后对其进行转换以进行建模。以下代码显示了此功能:
2023年5月3日
其他

少样本学习概述:算法、模型和应用

机器学习最近取得了很大的进展,但仍然有一个主要的挑战:需要大量的标记数据来训练模型。有时这种数据在现实世界中是无法获得的。以医疗保健为例,我们可能没有足够的x光扫描来检查一种新的疾病。但是通过少样本学习可以让模型只从几个例子中学习到知识!所以少样本学习(FSL)是机器学习的一个子领域,它解决了只用少量标记示例学习新任务的问题。FSL的全部意义在于让机器学习模型能够用一点点数据学习新东西,这在收集一堆标记数据太昂贵、花费太长时间或不实用的情况下非常有用。少样本学习方法支持样本/查询集:使用少量图片对查询集进行分类。少样本学习中有三种主要方法需要了解:元学习、数据级和参数级。元学习:元学习包括训练一个模型,学习如何有效地学习新任务;数据级:数据级方法侧重于增加可用数据,以提高模型的泛化性能;参数级:参数级方法旨在学习更健壮的特征表示,以便更好地泛化到新任务中元学习元学习(学习如何学习)。这种方法训练一个模型学习如何有效地学习新任务。这个模型是关于识别不同任务之间的共同点,并使用这些知识通过几个例子快速学习新东西。元学习算法通常在一组相关任务上训练模型,并学习从可用数据中提取与任务无关的特征和特定于任务的特征。任务无关的特征捕获关于数据的一般知识,而任务特定的特征捕获当前任务的细节。在训练过程中,算法通过仅使用每个新任务的几个标记示例更新模型参数来学习适应新任务。这使得模型可以用很少的示例推广到新的任务。数据级方法数据级方法侧重于扩充现有数据,这样可以帮助模型更好地理解数据的底层结构,从而提高模型的泛化性能。主要思想是通过对现有示例应用各种转换来创建新的示例,这可以帮助模型更好地理解数据的底层结构。有两种类型的数据级方法:数据增强:数据增强包括通过对现有数据应用不同的转换来创建新的示例;数据生成:数据生成涉及使用生成对抗网络(GANs)从头生成新的示例。数据级的方法:参数级方法目标是学习更健壮的特征表示,可以更好地泛化到新的任务。有两种参数级方法:特征提取:特征提取涉及从数据中学习一组特征,可以用于新任务;微调:微调包括通过学习最优参数使预训练的模型适应新任务。例如,假设你有一个预先训练好的模型,它可以识别图像中的不同形状和颜色。通过在新数据集上微调模型,只需几个示例,它就可以快速学会识别新的类别。元学习算法元学习是FSL的一种流行方法,它涉及到在各种相关任务上训练模型,以便它能够学习如何有效地学习新任务。该算法学习从可用数据中提取任务无关和任务特定的特征,快速适应新的任务。元学习算法可以大致分为两种类型:基于度量的和基于梯度的。基于度量的元学习基于度量的元学习算法学习一种特殊的方法来比较每个新任务的不同示例。他们通过将输入示例映射到一个特殊的特征空间来实现这一点,在这个空间中,相似的示例放在一起,而不同的示例则分开很远。模型可以使用这个距离度量将新的示例分类到正确的类别中。一种流行的基于度量的算法是Siamese
2023年4月27日
其他

终于有人总结了图神经网络

作者:yyHaker来源:https://zhuanlan.zhihu.com/p/136521625本文约5900字,建议阅读10分钟本篇文章将从一个更直观的角度对当前经典流行的GNN网络,包括GCN、GraphSAGE、GAT、GAE以及graph
2023年4月26日
其他

图神经网络的数学原理总结

'为嵌入维数。使用邻接矩阵到目前为止,我们通过单个节点i的视角观察了整个GNN正向传递,当给定整个邻接矩阵a和X⊆RN×d中所有N=∥V∥节点特征时,知道如何实现GNN正向传递也很重要。在
2023年4月17日
其他

深度学习调参(炼丹)的权威指南!!!

Playbook》,为深度学习提供了份系统及科学地调参理论!项目地址:https://github.com/google-research/tuning_playbook该项目
2023年4月14日
其他

笔记本运行私人ChatGPT?只要3步!

这样的超大规模语言模型。alpaca相关项目如下:项目地址:https://github.com/tatsu-lab/stanford_alpaca
2023年4月4日
其他

ChatGPT等大规模语言模型的综述(全)

GPT-4。格式化实例构建:通常,指令格式的实例由任务描述(称为指令)、输入输出对和少量演示(可选)组成。作为重要的公共资源,现有研究已经发布了大量以自然语言格式化的标记数据(参见表
2023年4月3日
其他

AIGC的综述!

encoder)。级联编码器(单塔)多模态之间的交互的最直接的思路是连接来自单个编码器的嵌入。(https://zhuanlan.zhihu.com/p/582762843多模态)一个早期的例子是
2023年3月26日
其他

一文盘点令人惊艳AI神器(附项目代码)

2023可以称得上是脑洞大开的一年!人工智能的风口由OpenAI的ChatGPT率先引爆。今天,我们给大家推荐10款惊艳的AI工具,欢迎补充!一、AI围棋机器人:AlphaGoAlphaGo的诞生是人工智能领域的一次里程碑式的事件。时间回到2016年3月,DeepMind公司推出了名为AlphaGo的围棋机器人,最终以4:1战胜了被誉为“不败少年”的韩国天才围棋手李世石。AlphaGo的出现让人们对人工智能的未来更加充满了期待。中国围棋天才少年柯洁曾经评论AlphaGo:“感觉它就像一个有血有肉的人在下棋一样,会选择弃子也会选择退出,棋风非常均衡,真的看不出它是由程序编写的。”这次人工智能的胜利向世界证明了人工智能的巨大潜力,让我们对人工智能的未来充满了无限的遐想。已有团队在AlphaGo
2023年3月25日
其他

深度学习Pytorch基础教程!

随着深度学习的发展,深度学习框架开始大量的出现。尤其是近两年,Google、Facebook、Microsoft等巨头都围绕深度学习重点投资了一系列新兴项目,他们也一直在支持一些开源的深度学习框架。目前研究人员正在使用的深度学习框架不尽相同,有
2023年3月19日
其他

AI时代的漫谈 (附国产ChatGPT)

❝文末彩蛋,附一个国产低配版ChatGPT小程序❞一堆人工神经元在数据、算力以及魔力算法的加持下,"涌现"了“全能”的ChatGPT。自此,AI看上去不再那么像泡沫,也开启了我们对AI的无尽想象!对于大部分人,隐约感觉到的是,风口已来,风暴已来,有对未来科技的美好想象,还有对于未知力量的一些恐慌。本文的尝试回答的是:ChatGPT是什么?对于我们会有什么影响?未来我们要做点什么?ChatGPT是什么?ChatGPT是一个大规模预训练语言模型(Large
2023年2月28日
其他

8种时间序列分类方法总结

种类型的时间序列分类方法。这包括从简单的基于距离或间隔的方法到使用深度神经网络的方法。这篇文章旨在作为所有时间序列分类算法的参考文章。时间序列定义在涵盖各种类型的时间序列
2023年2月27日
其他

一篇适合新手的深度学习综述!

结论尽管深度学习(DL)比以往任何时候都更快地推进了世界的发展,但仍有许多方面值得我们去研究。我们仍然无法完全地理解深度学习,我们如何让机器变得更聪明,更接近或比人类更聪明,或者像人类一样学习。DL
2023年2月15日
其他

2023 年,你应该知道的所有机器学习算法~

等精品课程资料大全回复【加群】:可提问咨询、共享资源...与群内伙伴一起交流,共同进步或扫码👇,备注“加群”
2023年1月29日
其他

机器学习理论基础到底有多可靠?

存在其他用例,例如汇集专有数据集,但协调这些举措存在政治和后勤挑战,限制了它们在实践中的效用。尽管如此,对于听起来像是一个奇特的概念(大致概括为:“将模型引入数据,而不是将数据引入模型”),FL
2023年1月5日
其他

机器学习算法优缺点对比(汇总篇)

L1,L2,etc),而且你不必像在用朴素贝叶斯那样担心你的特征是否相关。与决策树、SVM相比,你还会得到一个不错的概率解释,你甚至可以轻松地利用新数据来更新模型(使用在线梯度下降算法-online
2022年12月31日
其他

深度学习聚类的综述

这篇博客对现有的深度聚类算法进行全面综述与总结。现有的深度聚类算法大都由聚类损失与网络损失两部分构成,博客从两个视角总结现有的深度聚类算法,即聚类模型与神经网络模型。1.
2022年12月28日
其他

机器学习项目大汇总,值得收藏!

本文为你介绍涵盖不同阶段的23个经典的机器学习项目,值得收藏。我们都知道,教科书上所学与实际操作还是有出入的,那关于机器学习有什么好的项目可以实操吗?我们为你推荐这篇文章,在本教程中,涵盖面向初学者,中级专家和专家的23种机器学习项目创意,以获取有关该增长技术的真实经验。这些机器学习项目构想将帮助你了解在职业生涯中取得成功、和当下就业所需的所有实践。通过项目学习是你短期内能做的最好投资,这些项目构想使你能够快速发展和增强机器学习技能。语言上,这些机器学习项目可以用Python,R或任何其他工具开发。面向初学者的机器学习项目在本部分中,我们列出了针对初学者/初学者的顶级机器学习项目,如果你已经从事基础机器学习项目,请跳至下一部分:中级机器学习项目1.鸢尾花分类项目项目构想:鸢尾花有不同的种类,你可以根据花瓣和萼片的长度来区分它们。这是机器学习初学者预测新鸢尾花种类的基础项目。数据集:鸢尾花分类数据集
2022年12月22日
其他

​机器学习数据不满足同分布,怎么整?

导致预测效果变差或失效的情况。这就类似我们考试的时候,发现这类型的题目我没有见过,歇菜了...一、什么是数据不满足同分布实际预测与训练数据不满足同分布的问题,也就是数据集偏移(Dataset
2022年12月20日
其他

多标签分类怎么做?(Python)

一、基本介绍首先简单介绍下,多标签分类与多分类、多任务学习的关系:多分类学习(Multi-class):分类器去划分的类别是多个的,但对于每一个样本只能有一个类别,类别间是互斥的。例如:分类器判断这只动物是猫、狗、猪,每个样本只能有一种类别,就是一个三分类任务。常用的做法是OVR、softmax多分类多标签学习(Multi-label
2022年12月13日
其他

一览机器学习算法(附python和R代码)

无监督式学习与监督式学习不同的是,无监督学习中我们没有需要预测或估计的目标变量。无监督式学习是用来对总体对象进行分类的。它在根据某一指标将客户分类上有广泛应用。
2022年12月7日
其他

从0到1实现神经网络(Python)

有个事情可能会让初学者惊讶:神经网络模型并不复杂!『神经网络』这个词让人觉得很高大上,但实际上神经网络算法要比人们想象的简单。这篇文章完全是为新手准备的。我们会通过用Python从头实现一个神经网络来理解神经网络的原理。本文的脉络是:介绍了神经网络的基本结构——神经元;在神经元中使用S型激活函数;神经网络就是连接在一起的神经元;构建了一个数据集,输入(或特征)是体重和身高,输出(或标签)是性别;学习了损失函数和均方差损失;训练网络就是最小化其损失;用反向传播方法计算偏导;用随机梯度下降法训练网络。砖块:神经元首先让我们看看神经网络的基本单位,神经元。神经元接受输入,对其做一些数据操作,然后产生输出。例如,这是一个2-输入神经元:这里发生了三个事情。首先,每个输入都跟一个权重相乘(红色):然后,加权后的输入求和,加上一个偏差b(绿色):最后,这个结果传递给一个激活函数f:激活函数的用途是将一个无边界的输入,转变成一个可预测的形式。常用的激活函数就就是S型函数:S型函数的值域是(0,
2022年12月6日
其他

小样本学习在深度学习的效果(综述)

众所周知,深度学习往往需要大量的标注样本进行训练才能达到一个满意的效果,但是在实际应用场景中,数据标注通常非常困难,很难获得大量的标注数据,这种情况下,深度学习怎么才能发挥出应有的魅力呢?01什么是小样本学习我家小孩在2岁以前,基本上靠书本上的图画来认识世界,我给他买了各种动物、交通工具等等各类的图书。2岁的时候我第一次带他去动物园,他基本上可以认出动物园里的大多数动物,虽然每种动物只是在图片上见过一两次,这就得益于人类的强大的认知能力,可以通过少量样本来进行学习,认知世界。当然对于更细的类别,他就分不了那么清了,比如在一堆猴子中间找出哪个是金丝猴,他没有见过金丝猴,所以他不知道,但是只要我告诉他金丝猴是一种有着金色毛发的猴子,他认识猴子,也知道金色是什么颜色,所以他可以迅速的在一堆猴子中找到那只金丝猴。人类具有这种只通过少量样本或者是特征描述就可以识别物体的能力,受人类的这种快速学习能力的启发,研究人员希望机器学习也能够只通过学习少量样本就可以进行快速建模,对不同的类别进行区分,而且能在不改变模型参数的情况下,对新类别进行识别,这就是小样本学习(few-shot
2022年12月5日
其他

李航:人工智能需要怎样的计算范式和理论?

诺伊曼的《计算机和人脑》是人类历史上第一部将计算机和人脑相提并论的著作。这位科学巨人希望比较计算机和人脑的计算机制,为未来建立统一的计算理论打下基础。事实上,建立计算机和人脑的统一计算理论是冯
2022年12月4日
其他

一文祛魅AI核心概念(全)

在并不算漫长的AI(人工智能)发展史,各种行业背景的专家助力了AI极大的发展,也带来了很多专业术语、概念。术语对于专业研究者是比较清晰及严谨,但对于初学者可能就有理解层面的困扰。特别的,很多概念、术语说来说去可能基本上就是一个意思,很多复杂的概念背后的思想也可以很朴素的!「在此本文致力于对AI的核心概念的系统地祛魅,简化理解。」一、基本概念人工智能算法,现如今基本上指的就是【机器学习】,而机器学习基本也就是【归纳学习(也就是小学三年级学的归纳法)】或【统计学习】。❝注:补充一句,机器学习与统计学习并不等同,但两者是很相似的。如Rob
2022年12月1日
其他

一份深度学习理论的研究总结!

作者:许志钦,上海交通大学,编辑:极市平台作者注记我是2017年11月开始接触深度学习,至今刚好五年。2019年10月入职上海交大,至今三年,刚好第一阶段考核。2022年8月19号,我在第一届中国机器学习与科学应用大会做大会报告,总结这五年的研究以及展望未来的方向。本文是该报告里关于理论方面的研究总结(做了一点扩展)。报告视频链接可以见:https://www.bilibili.com/video/BV1eB4y1z7tL/我理解的深度学习我原本是研究计算神经科学的,研究的内容,宏观来讲是从数学的角度理解大脑工作的原理,具体来说,我的研究是处理高维的神经元网络产生的脉冲数据,尝试去理解这些信号是如何处理输入的信号。但大脑过于复杂,维度也过于高,我们普通大脑有一千亿左右个神经元,每个神经元还和成千上万个其它神经元有信号传递,我对处理这类数据并没有太多信心,那阶段也刚好读到一篇文章,大意是把现阶段计算神经科学的研究方法用来研究计算机的芯片,结论是这些方法并不能帮助我们理解芯片的工作原理。另一个让我觉得非常难受的地方是我们不仅对大脑了解很少,还非常难以获得大脑的数据。于是,我们当时思考,能否寻找一个简单的网络模型,能够实现复杂的功能,同时我们对它的理解也很少的例子,我们通过研究它来启发我们对大脑的研究。当时是2017年底,深度学习已经非常流行,特别是我的同学已经接触深度学习一段时间,所以我们迅速了解到深度学习。其结构和训练看起来足够简单,但能力不凡,而且与其相关的理论正处在萌芽阶段。因此,我进入深度学习的第一个想法是把它当作研究大脑的简单模型。
2022年11月10日
其他

机器学习模型评价、模型与算法选择(综述)

的最优选择的实际提示。论文展示了用于算法对比的不同统计测试,以及处理多种对比的策略(比如综合测试、多对比纠正)。最后,当数据集很小时,本文推荐替代方法(比如
2022年11月7日
其他

实现个神经网络的3D可视化,美爆了!

本文约1700字,建议阅读9分钟,介绍了关于神经网络可视化的3D版本的实现做计算机视觉,离不开CNN。可是,卷积、池化、Softmax……究竟长啥样,是怎样相互连接在一起的?对着代码凭空想象,多少让人有点头皮微凉。于是,有人干脆用Unity给它完整3D可视化了出来。还不光是有个架子,训练过程也都呈现得明明白白。比如随着epoch(迭代次数)的变化,训练过程中各层出现的实时变化。为了能更清楚地展示网络细节,用户还可以在其中自由地折叠、扩展每个层。比如将特征图在线性布局和网格布局之间转换。折叠卷积层的特征图输出。对全连接层进行边绑定(edge
2022年10月27日
其他

机器学习模型迭代方法(Python)

一、模型迭代方法机器学习模型在实际应用的场景,通常要根据新增的数据下进行模型的迭代,常见的模型迭代方法有以下几种:1、全量数据重新训练一个模型,直接合并历史训练数据与新增的数据,模型直接离线学习全量数据,学习得到一个全新的模型。优缺点:这也是实际最为常见的模型迭代方式,通常模型效果也是最好的,但这样模型迭代比较耗时,资源耗费比较多,实时性较差,特别是在大数据场景更为困难;2、模型融合的方法,将旧模型的预测结果作为一个新增特征,在新的数据上面训练一个新的模型;优缺点:训练耗时较短了,增加决策的复杂度,新增数据量要足够多才能保证融合效果;3、增量(在线)学习的方法,如sklearn中算法可调用partial_fit直接增量学习,可以直接利用新增的数据在原来的模型的基础上做进一步更新。增量学习对于模型迭代是很有效率的(特别适用于神经网络的学习,如
2022年10月24日
其他

神经网络无法实现可解释 AI ?

用于决定贷款批准、工作申请、批准法院保释等与人们利益息息相关或者一些生死攸关的决定(例如在高速公路上突然停车),去解释这些决定,而不仅仅是产生一个预测分数,是至关重要的。可解释人工智能
2022年10月1日
其他

树模型决策的可解释性与微调(Python)

CatBoost、KerasELI5有两种主要的方法来解释分类或回归模型:检查模型参数并说明模型是如何全局工作的;检查模型的单个预测并说明什么模型会做出这样的决定。OmniXAIOmniXAI
2022年9月28日
其他

九种顶流回归算法及实例总结

线性回归通常是人们为机器学习和数据科学学习的第一个算法。它简单易懂,但是由于其功能有限,在实际业务中并不是最佳选择。大多数情况下,线性回归被用作基线模型来评估和比较研究中的新方法。在处理实际问题时,我们应该了解并尝试过许多其他回归算法。在本文中,将通过使用Scikit-learn和
2022年9月19日
其他

深入了解LSTM模型结构(可视化)

来源:深度学习爱好者本文约3300字,建议阅读10+分钟本文利用可视化的呈现方式,带你深入理解LSTM模型结构。最近在学习LSTM应用在时间序列的预测上,但是遇到一个很大的问题就是LSTM在传统BP网络上加上时间步后,其结构就很难理解了,同时其输入输出数据格式也很难理解,网络上有很多介绍LSTM结构的文章,但是都不直观,对初学者是非常不友好的。我也是苦苦冥思很久,看了很多资料和网友分享的LSTM结构图形才明白其中的玄机。本文内容如下:一、传统的BP网络和CNN网络二、LSTM网络三、LSTM的输入结构四、pytorch中的LSTM
2022年9月6日
其他

机器学习数学本质的理解

(2018)):这一平均场动力学,实际上是在Wassenstein度量意义下的梯度动力学。人们证明了:如果其初始值的支集为全空间,且梯度下降的确收敛,那么其收敛结果必然是全局最优(参考:Chizat
2022年8月15日
其他

机器学习领域最全综述列表!

http://202.120.39.19:40222/wp-content/uploads/2018/03/A-Survey-on-Transfer-Learning.pdf“整理不易,点赞三连↓
2022年8月12日
其他

机器学习算法备忘单!

机器学习(ML)是人工智能(AI)和计算机科学的一个子领域,主要是利用数据和算法来模仿人的学习方式,逐步提高其准确性。使用这个树状图作为指南,以确定使用哪种ML算法来解决你的AI问题。图片来源:LatinX
2022年8月10日
其他

树+神经网络算法强强联手(Python)

len(y_pred[0])*lgb.get_params()['num_leaves']],dtype=np.int64)print(train_matrix.shape)
2022年8月3日