SAMshare

其他

一文带你搞清楚什么是“数据倾斜”

先进内存。在map端完成reduce。大表Join大表:把空值的key变成一个字符串加上随机数,把倾斜的数据分到不同的reduce上,由于null值关联不上,处理后并不影响最终结果。count
2019年10月8日
其他

手把手教你入门和实践特征工程 的全方位万字笔记,附代码下载

绘制条形图salary_ranges['Grade'].value_counts().sort_values(ascending=False).head(10).plot(kind='bar')#
2019年9月15日
其他

MLK | Keras 核心网络层的解读指南

RepeatVector指的是将输入的数据进行升维,参数为n,取值为正整数,如下所示,n=3表示将输入升至2维。'''RepeatVector的demo'''model
2019年8月21日
其他

MLK | 机器学习论文搜索利器推荐

NG论文阅读的一些技巧(点击回顾),那今天就顺着来给大家推荐一些机器学习相关的论文,有很多我自己都没看过的,但已经在我的清单内,欢迎大家也可以收藏,纳入学习清单,最好是打印出来,多次阅读。🎥
2019年8月14日
其他

Andrew Ng关于机器学习职业生涯以及阅读论文的一些建议

导读转了一篇对于ML的职业发展tips的文章,可以读读,里面的一些对于学习机器学习的方法还是可以借鉴呢。介绍既然你已经在阅读这篇文章了,那么你可能已经知道该领域的先驱之一Andrew
2019年8月12日
其他

MLK | 如何解决机器学习树集成模型的解释性问题

X.iloc[0,:])output:上面的图展示了每个特征的重要度,会预先计算好一个均值,将预测值变得更高的偏向于红色这边,反之蓝色。这个数据集有这些特征:'CRIM',
2019年8月10日
其他

MLK | 机器学习常见算法优缺点了解一下

关联规则算法(Apriori算法)Apriori算法是一种挖掘关联规则的算法,用于挖掘其内含的、未知的却又实际存在的数据关系,其核心是基于两阶段频集思想的递推算法
2019年8月9日
其他

MLK | Keras 基础模型调参指南

model.add(Dense(units=10,activation='softmax'))model.compile(loss='categorical_crossentropy',
2019年8月7日
其他

MLK | Keras 入门深度学习逢看必会

example(mnist_mlp.py)https://github.com/keras-team/keras/blob/master/examples/mnist_mlp.py[3]
2019年8月6日
其他

MLK | 一文理清 深度学习前馈神经网络

Network),其目标是拟合某个函数f,由于从输入到输出的过程中不存在与模型自身的反馈连接,因此被称为“前馈”。常见的深度前馈网络有:多层感知机、自编码器、限制玻尔兹曼机、卷积神经网络等等。01
2019年7月25日
其他

MLK | 机器学习采样方法大全

Undersampling这类也是比较简单的,就是随机从多数类中删除一些样本,这样子的缺失也是很明显,那就是造成部分信息丢失,整体模型分类效果不理想。2)EasyEnsemble
2019年7月23日
其他

MLK | 非监督学习最强攻略

markersize=6)ax.set_title('MiniBatchKMeans')ax.set_xticks(())ax.set_yticks(())plt.text(-3.5,
2019年7月16日
其他

MLK | 机器学习的降维"打击"

IndexPCA降维算法内积与投影基与基变换方差协方差协方差矩阵协方差矩阵对角化PCA算法步骤PCA实例PCA的Python操作LDA降维算法LDA介绍LDA的优缺点LDA的Python操作🙊
2019年7月10日
自由知乎 自由微博
其他

MLK | 模型评估的一些事

Knowledge,本专栏在于对机器学习的重点知识做一次梳理,便于日后温习,内容主要来自于《百面机器学习》一书,结合自己的经验与思考做的一些总结与归纳,今天主要写一下模型评估的东西,做一下整理。"🚙
2019年7月7日
其他

MLK | 那些常见的特征工程

Normalization):对数据进行转换映射到均值为0,标准差为1的分布上。那么,特征归一化的原因是什么呢?一般可以参考下面的随机梯度下降的例子:其中,上图中X1的取值范围为[0,
2019年7月6日