月来客栈

其他

第9.1节 自然语言处理介绍

NLG),其目标是使计算机能够理解、分析、生成语言并且能够实现与人类语言进行交互。在本章内容中,笔者将会以整个自然语言处理的发展路线为主干来梳理其中几项关键技术出现的动机和相关原理。9.1
1月18日 上午 7:24
其他

第8.1节 TextCNN模型

各位朋友大家好,欢迎来到月来客栈,我是掌柜空字符。本期推送内容目录如下,如果本期内容对你有所帮助,欢迎点赞、转发支持掌柜!8.1
2023年12月19日
其他

第7.6节 CharRNN模型

Tokenize首先,我们定义一个类TangShi并继承自在第7.2.4节中介绍的TouTiaoNews类以复用其中的部分方法,同时初始化原始数据的相关存储路径,示例代码如下所示:1
2023年12月14日
其他

机器学习入门导读(文章汇总)

在知乎隔不了多久就会看到有人提问“如何才能入门机器学习”、“入门机器学习从理论开始还是从实践开始?”、“入门机器学习李航、周志华、吴恩达应该谁的资料最好?”等等诸如此类的问题。想想笔者刚刚开始接触机器学习的时候又何尝不是这样,总觉得自己一直是在门外徘徊,就是不得其中之道。幸运的是经过漫长的时间摸索,也总结出了适合笔者自己的一条学习路线,接下来就与大家一同分享。读者部分反馈1
2023年12月7日
其他

第7.2节 时序数据

high]的形式,所以我们只需要压缩掉通道这个维度,然后将width和high分别理解成步长和输入维度即可,并不需要进行特殊处理。因此我们直接定义相应的前向传播过程,示例代码如下所示:
2023年11月30日
其他

第7.1节 RNN模型

中,神经元不仅可以接受到其他神经元的输出信息,也可以接受自己的输出信息从而形成一个具有环路的网络拓扑结构,因此RNN也成为了处理序列数据的重要工具之一。图
2023年11月28日
其他

第12.3节 LabelSpreading算法

各位朋友大家好,欢迎来到月来客栈,我是掌柜空字符。本期推送内容目录如下,如果本期内容对你有所帮助,欢迎点赞、转发支持掌柜!12.3
2023年11月14日
其他

第12.2节 Label Propagation标签传播算法

1.0上述完整代码可参见Book/Chapter12/C03_label_propagation.py文件。为你认可的知识付费,欢迎订阅本专栏阅读更多优质内容!
2023年11月9日
其他

第12.1节 Self-training自训练算法

各位朋友大家好,欢迎来到月来客栈,我是掌柜空字符。本期推送内容目录如下,如果本期内容对你有所帮助,欢迎点赞、转发支持掌柜!12.1
2023年11月7日
其他

第11.1节 主成分分析原理与实现

三维PCA算法思想图(二)从图11-5中可以看出,只有将原始样本投影到与所构成的平面中才能最大程度上地保留原始样本点的结构信息,投影后的结果如图11-6所示。图
2023年10月31日
其他

机器学习入门导读(文章汇总)

在知乎隔不了多久就会看到有人提问“如何才能入门机器学习”、“入门机器学习从理论开始还是从实践开始?”、“入门机器学习李航、周志华、吴恩达应该谁的资料最好?”等等诸如此类的问题。想想笔者刚刚开始接触机器学习的时候又何尝不是这样,总觉得自己一直是在门外徘徊,就是不得其中之道。幸运的是经过漫长的时间摸索,也总结出了适合笔者自己的一条学习路线,接下来就与大家一同分享。1
2023年10月26日
其他

第10.11节 基于层次的聚类算法

HCA),旨在得到样本簇结构的同时发现样本分布的层次结构[2]。同时,层次聚类算法一般来说可以分为两种,一种是自下而上(bottom-up)的凝聚层次聚类(Agglomerative
2023年10月26日
其他

第10.10节 基于密度的聚类算法

,并且这3种都算是基于-means框架的聚类算法,也就是说它们本质上解决的都是一类数据的聚类问题。但是,在实际场景中可能存在一些其它簇结构形式的数据,例如像图10-19所示的数据。图
2023年10月24日
自由知乎 自由微博
其他

第10.9节 聚类K值选取与分析

K值分析Elbow法实现在正式介绍轮廓分析法之前,笔者先来介绍一下如何用代码实现图10-15中的可视化结果。首先需要定义一个函数来根据聚类结果计算簇内距离和并进行可视化,实现代码如下所示:
2023年10月19日
其他

机器学习入门导读(文章汇总)

在知乎隔不了多久就会看到有人提问“如何才能入门机器学习”、“入门机器学习从理论开始还是从实践开始?”、“入门机器学习李航、周志华、吴恩达应该谁的资料最好?”等等诸如此类的问题。想想笔者刚刚开始接触机器学习的时候又何尝不是这样,总觉得自己一直是在门外徘徊,就是不得其中之道。幸运的是经过漫长的时间摸索,也总结出了适合笔者自己的一条学习路线,接下来就与大家一同分享。1
2023年10月18日
其他

第10.8节 聚类内部评估指标

https://scikit-learn.org/stable/modules/clustering.html#clustering-evaluation
2023年10月17日
其他

第10.7节 加权Kmeans聚类算法

加权-means聚类算法迭代公式根据目标函数式(10.23)可知,其一共包含3个需要求解的参数、和。在这里,笔者先直接给出每个参数的迭代计算公式,具体的求解过程将在10.7.6节中进行介绍。
2023年10月12日
其他

机器学习入门导读(文章汇总)

在知乎隔不了多久就会看到有人提问“如何才能入门机器学习”、“入门机器学习从理论开始还是从实践开始?”、“入门机器学习李航、周志华、吴恩达应该谁的资料最好?”等等诸如此类的问题。想想笔者刚刚开始接触机器学习的时候又何尝不是这样,总觉得自己一直是在门外徘徊,就是不得其中之道。幸运的是经过漫长的时间摸索,也总结出了适合笔者自己的一条学习路线,接下来就与大家一同分享。1
2023年10月11日
其他

第10.6节 聚类评价外部指标

同时,根据前面的分析可知,对于聚类后的结果(如图10-8所示)不管是在某一个簇中任取2个样本,还是在任意不同的2个簇中各取1个样本,所有可能出现的情况都只有上面的4种情况,所以有
2023年10月10日
其他

8万字+60幅图一网打尽BERT模型

各位朋友大家好,欢迎来到月来客栈,我是掌柜空字符。近8万字、60余幅示例图、5个下游微调场景、从零实现NSP和MLM预训练任务,带你步步走进BERT。本文为精简版,不包含各个下游任务的代码实现介绍,完整版可公众号后台回复BERT获取最新版PDF下载链接,所有代码可从此处获取:https://github.com/moon-hotel/BertWithPretrained转发本文至朋友圈,公众号回复“送书”,本周三晚抽送三本《动手学深度学习》。以下为全文目录1BERT原理与预训练任务1.3.1
2023年10月9日
其他

第10.5节 Kmeans++聚类算法

接着计算每个样本点与当前已有聚类中心之间的最短距离,并用表示,然后计算每个样本点被选为下一个聚类中心的概率,并选择最大概率值所对应的样本点作为下一个簇中心。(3)
2023年9月28日
其他

第10.4节 从零实现Kmeans聚类算法

随机初始化簇中心-means聚类算法的簇中心由同时随机初始化k个簇中心得到,因此这里可以借助Python中的random.sample()方法实现,代码如下:import
2023年9月26日
其他

机器学习入门导读(文章汇总)

在知乎隔不了多久就会看到有人提问“如何才能入门机器学习”、“入门机器学习从理论开始还是从实践开始?”、“入门机器学习李航、周志华、吴恩达应该谁的资料最好?”等等诸如此类的问题。想想笔者刚刚开始接触机器学习的时候又何尝不是这样,总觉得自己一直是在门外徘徊,就是不得其中之道。幸运的是经过漫长的时间摸索,也总结出了适合笔者自己的一条学习路线,接下来就与大家一同分享。1
2023年9月21日
其他

第10.3节 Kmeans聚类算法求解

求解簇中心矩阵同SVM求解一样,对于目标函数(10.1)的求解依旧借助于拉格朗日乘数法。由目标函数(10.1)可知,这里一共需要求解的未知参数包括两个:簇中心矩阵和簇分配矩阵。
2023年9月21日
其他

第10.1 聚类算法的思想

各位朋友大家好,欢迎来到月来客栈,我是掌柜空字符。本期推送内容如下,如果本期内容对你有所帮助,欢迎点赞、转发支持掌柜!经过前面一系列的介绍,我们已经接触了多种回归和分类算法,并且这些算法有一个共同的特点,也就是它们都是有监督的学习算法。接下来,笔者就向大家介绍一类经典的无监督机器学习算法——聚类算法。10.1
2023年9月19日
其他

第10.2节 Kmeans聚类算法

各位朋友大家好,欢迎来到月来客栈,我是掌柜空字符。本期推送内容目录如下,如果本期内容对你有所帮助,欢迎点赞、转发支持掌柜!10.2
2023年9月19日
其他

第9.9节 从零实现SVM分类算法

SMO求解过程实现在介绍完核函数的实现部分后再来SMO算法的求解实现过程。首先,需要根据第9.8.3和第9.8.4小节中的内容来实现相关辅助函数。根据式(9.24)可知,预测函数的编码实现为:1
2023年9月14日
其他

第9.8节 SMO算法

SMO算法思想根据9.7.3节中式(9.118)可知,SVM软间隔最终需要求解的目标函数为假设随机初始化后的均满足式(9.132)中的约束条件,现在通过坐标上升算法来求解。如果此时将固定为常量,将
2023年9月12日
其他

机器学习入门导读(文章汇总)

在知乎隔不了多久就会看到有人提问“如何才能入门机器学习”、“入门机器学习从理论开始还是从实践开始?”、“入门机器学习李航、周志华、吴恩达应该谁的资料最好?”等等诸如此类的问题。想想笔者刚刚开始接触机器学习的时候又何尝不是这样,总觉得自己一直是在门外徘徊,就是不得其中之道。幸运的是经过漫长的时间摸索,也总结出了适合笔者自己的一条学习路线,接下来就与大家一同分享。1
2023年9月7日
其他

第9.7节 SVM优化问题

各位朋友大家好,欢迎来到月来客栈,我是掌柜空字符。本期推送内容目录如下,如果本期内容对你有所帮助,欢迎点赞、转发支持掌柜!9.7
2023年9月7日
其他

机器学习入门导读(文章汇总)

在知乎隔不了多久就会看到有人提问“如何才能入门机器学习”、“入门机器学习从理论开始还是从实践开始?”、“入门机器学习李航、周志华、吴恩达应该谁的资料最好?”等等诸如此类的问题。想想笔者刚刚开始接触机器学习的时候又何尝不是这样,总觉得自己一直是在门外徘徊,就是不得其中之道。幸运的是经过漫长的时间摸索,也总结出了适合笔者自己的一条学习路线,接下来就与大家一同分享。1
2023年9月6日
其他

第9.6节 对偶性与KKT条件

原始优化问题根据式(9.44)和式(9.45)考虑如下定义:式(9.46)表示的含义是求得最大化时和的取值,即和作为自变量与无关,最终求得的结果是关于的函数。
2023年9月5日
其他

第9.5节 拉格朗日乘数法

各位朋友大家好,欢迎来到月来客栈,我是掌柜空字符。本期推送内容目录如下,如果本期内容对你有所帮助,欢迎点赞、转发支持掌柜!9.5
2023年8月31日
其他

机器学习入门导读(文章汇总)

在知乎隔不了多久就会看到有人提问“如何才能入门机器学习”、“入门机器学习从理论开始还是从实践开始?”、“入门机器学习李航、周志华、吴恩达应该谁的资料最好?”等等诸如此类的问题。想想笔者刚刚开始接触机器学习的时候又何尝不是这样,总觉得自己一直是在门外徘徊,就是不得其中之道。幸运的是经过漫长的时间摸索,也总结出了适合笔者自己的一条学习路线,接下来就与大家一同分享。1
2023年8月31日
其他

第​9.4节 SVM中的软间隔

'rbf'}从上面的结果可以看出,当惩罚系数C=6及选取高斯核函数时对应的模型效果最好,准确率为0.986,并且由于最后选取的是高斯核,所以此时coef0和degree这两个参数无效。2.
2023年8月29日
其他

第9.3节 SVM示例代码与线性不可分

准确率为:0.975925925925926上述代码便是通过sklearn实现线性SVM的全部代码。可以看出,在sklearn中使用一个模型的步骤依旧是笔者在第5.3.1节中总结的3步:
2023年8月24日
其他

机器学习入门导读(文章汇总)

在知乎隔不了多久就会看到有人提问“如何才能入门机器学习”、“入门机器学习从理论开始还是从实践开始?”、“入门机器学习李航、周志华、吴恩达应该谁的资料最好?”等等诸如此类的问题。想想笔者刚刚开始接触机器学习的时候又何尝不是这样,总觉得自己一直是在门外徘徊,就是不得其中之道。幸运的是经过漫长的时间摸索,也总结出了适合笔者自己的一条学习路线,接下来就与大家一同分享。1
2023年8月24日
其他

第9.2节 支持向量机原理

各位朋友大家好,欢迎来到月来客栈,我是掌柜空字符。本期推送内容目录如下,如果本期内容对你有所帮助,欢迎点赞、转发支持掌柜!9.2
2023年8月22日
其他

第9.1节 支持向量机思想

各位朋友大家好,欢迎来到月来客栈,我是掌柜空字符。本期推送内容如下,如果本期内容对你有所帮助,欢迎点赞、转发支持掌柜!在前面几章中,笔者已经陆续介绍了多种分类算法模型,相信各位读者对于机器学习也算有了一定的了解。在接下来的这一章中,笔者将开始逐步介绍本书中的最后一个分类模型——支持向量机。支持向量机(Support
2023年8月17日
其他

机器学习入门导读(文章汇总)

在知乎隔不了多久就会看到有人提问“如何才能入门机器学习”、“入门机器学习从理论开始还是从实践开始?”、“入门机器学习李航、周志华、吴恩达应该谁的资料最好?”等等诸如此类的问题。想想笔者刚刚开始接触机器学习的时候又何尝不是这样,总觉得自己一直是在门外徘徊,就是不得其中之道。幸运的是经过漫长的时间摸索,也总结出了适合笔者自己的一条学习路线,接下来就与大家一同分享。1
2023年8月17日
其他

第8.14节 GradientBoost原理与实现

使用示例在明白梯度提升算法的基本思想和原理后我们再来看如何在sklearn中使用它。首先,需要知道的是梯度提升算法本质上也只是一种模型的训练策略,因此对于弱学习器的选择是任意。
2023年8月15日
其他

第8.13节 MultiAdaBoost原理与实现

根据式(8.108)~式(8.110)分别计算每个分类器对应下的分类器误差,分类器权重和样本权重及标准化其中表示标签对应的类别编号;表示分类的类别数。(3)
2023年8月10日
其他

机器学习入门导读(文章汇总)

在知乎隔不了多久就会看到有人提问“如何才能入门机器学习”、“入门机器学习从理论开始还是从实践开始?”、“入门机器学习李航、周志华、吴恩达应该谁的资料最好?”等等诸如此类的问题。想想笔者刚刚开始接触机器学习的时候又何尝不是这样,总觉得自己一直是在门外徘徊,就是不得其中之道。幸运的是经过漫长的时间摸索,也总结出了适合笔者自己的一条学习路线,接下来就与大家一同分享。1
2023年8月10日
其他

第8.12节 AdaBoost原理与实现

模型1分类结果图从图8-47的分类结果可知,样本③和④被划分到了错误的类别中,因此我们可以再次构建模型2并同时赋予样本③和④更高的权重,并对所有样本点进行分类,最终可以得到图8-48中的分类结果。图
2023年8月8日
其他

机器学习入门导读(文章汇总)

在知乎隔不了多久就会看到有人提问“如何才能入门机器学习”、“入门机器学习从理论开始还是从实践开始?”、“入门机器学习李航、周志华、吴恩达应该谁的资料最好?”等等诸如此类的问题。想想笔者刚刚开始接触机器学习的时候又何尝不是这样,总觉得自己一直是在门外徘徊,就是不得其中之道。幸运的是经过漫长的时间摸索,也总结出了适合笔者自己的一条学习路线,接下来就与大家一同分享。1
2023年8月3日
其他

第8.11节 泰坦尼克号生还预测

特征值转换在进行完上述几个步骤后,最后一步需要完成的就是对特征进行转换。所谓特征转换就是将其中的非数值型特征,用数值进行代替,例如特征Embarked和Sex,代码如下:1
2023年8月3日
其他

第8.10节 随机森林

RandomForestClassifier导入模块随机森林。下面先来介绍一下RandomForestClassifier类中常见的重要参数及其含义,代码如下:def
2023年8月1日
其他

第8.9节 集成学习算法

Learning)。俗话说“3个臭皮匠,赛过诸葛亮”,这句话就完美阐述了集成学习的潜在思想——通过将多个模型结合在一起来提高整体的泛化能力[1]。常见的集成模型主要包括以下3种:1.
2023年7月27日
其他

机器学习入门导读(文章汇总)

在知乎隔不了多久就会看到有人提问“如何才能入门机器学习”、“入门机器学习从理论开始还是从实践开始?”、“入门机器学习李航、周志华、吴恩达应该谁的资料最好?”等等诸如此类的问题。想想笔者刚刚开始接触机器学习的时候又何尝不是这样,总觉得自己一直是在门外徘徊,就是不得其中之道。幸运的是经过漫长的时间摸索,也总结出了适合笔者自己的一条学习路线,接下来就与大家一同分享。1
2023年7月26日
其他

第8.8节 从零实现CART算法

连续型特征生成示例在处理连续型特征变量时,第一步便是需要将各个维度的特征进行离散化,然后再根据离散化后的区间来对特征进行判断。具体地,表8-6中对应的3个特征在离散化后各特征的取值分割点分别为:
2023年7月25日