特征工程的宝典-《Feature Engineering for Machine Learning》翻译及代码实现

Original 机器学习初学者机器学习初学者 2022-05-16

由O'Reilly Media,Inc.出版的《Feature Engineering for Machine Learning》（国内译作《精通特征工程》）一书，可以说是特征工程的宝典，本文在知名开源apachecn组织翻译的英文版基础上，将原文修改成jupyter notebook格式，并增加和修改了部分代码，测试全部通过。这个资料可以说是特征工程的宝典，值得推荐。

资料说明

《Feature Engineering for Machine Learning》由知名开源apachecn组织翻译，原版英文书可以在网上试读（免费读10天），试读地址：

https://www.oreilly.com/library/view/feature-engineering-for/9781491953235/

这本书可以说是特征工程的宝典，值得推荐。

本站在得到apachecn同意后，对翻译版本进行了润色和代码实现，将原文修改成jupyter notebook格式，并增加和修改了部分代码，测试全部通过，同时所有数据集已经放在百度云下载。

翻译代码放在数据科学的github仓库提供下载，仓库地址：

https://github.com/fengdu78/Data-Science-Notes/tree/master/9.feature-engineering

备注：本文的翻译版本与人民邮电出版社出版的《精通特征工程》有所不同，属于独立完成。

文件目录

一、引言
二、简单数字的奇特技巧
三、文本数据：展开、过滤和分块
四、特征缩放的效果：从词袋到 TF-IDF
五、类别特征：机器鸡时代的鸡蛋计数
六、降维：使用 PCA 压缩数据集
七、非线性特征提取和模型堆叠
八、自动化特征提取器：图像特征提取和深度学习
九、回到特征：将它们放到一起（更新中）
附录、线性模型和线性代数基础

内容简介

第 1 章从数字数据的基本特征工程开始：过滤，合并，缩放，日志转换和能量转换以及交互功能。

第 2 章和第 3 章深入探讨了自然文本的特征工程：bag-of-words，n-gram 和短语检测。

第 4 章将 tf-idf 作为特征缩放的例子，并讨论它的工作原理。

第 5 章讨论分类变量的高效编码技术，包括特征哈希和 bin-counting。

第 6 章中进行主成分分析，我们深入机器学习的领域。

第 7 章将 k-means 看作一种特征化技术，它说明了模型堆叠的有效理论。

第 8 章都是关于图像的，在特征提取方面比文本数据更具挑战性。在得出深度学习是最新图像特征提取技术的解释之前，我们着眼于两种手动特征提取技术 SIFT 和 HOG。

第 9 章中完成了一个端到端示例中的几种不同技术，为学术论文数据集创建了一个推荐器。

内容截图

总结

本文将《Feature Engineering for Machine Learning》修改成jupyter notebook格式，测试全部通过，并提供下载。

翻译代码的仓库地址：

https://github.com/fengdu78/Data-Science-Notes/tree/master/9.feature-engineering

参考

https://www.oreilly.com/library/view/feature-engineering-for/9781491953235/

https://github.com/alicezheng/feature-engineering-book

https://github.com/apachecn/feature-engineering-for-ml-zh

本站简介↓↓↓

“机器学习初学者”是帮助人工智能爱好者入门的个人公众号（创始人：黄海广）

初学者入门的道路上，最需要的是“雪中送炭”，而不是“锦上添花”。

本站的知识星球（黄博的机器学习圈子）ID：92416895

目前在机器学习方向的知识星球排名第一（上图二维码）

往期精彩回顾

备注：本站qq群：865189078（共8个群，不用重复加）。

加入本站微信群，请加黄博的助理微信

，说明：公众号用户加群。

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

“四川大学姜涛与爱人程月玲”，你们现在还好吗？

为了这部描述从“反右”到“文革”的禁片，田壮壮付出了十年不能拍片的代价

关于字节基建

李宜雪的良知卖了2万元，真正需要声援的是罗灿宏啊

特征工程的宝典-《Feature Engineering for Machine Learning》翻译及代码实现

Python代码写得丑怎么办？推荐几个神器拯救你

重磅 | 完备的 AI 学习路线，最详细的资源整理！

图解word2vec(原文翻译)

备注：本站qq群：865189078（共8个群，不用重复加）。

您可能也对以下帖子感兴趣

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

“四川大学姜涛与爱人程月玲”，你们现在还好吗？

为了这部描述从“反右”到“文革”的禁片，田壮壮付出了十年不能拍片的代价

关于字节基建

李宜雪的良知卖了2万元，真正需要声援的是罗灿宏啊

生成图片，分享到微信朋友圈

特征工程的宝典-《Feature Engineering for Machine Learning》翻译及代码实现

Python代码写得丑怎么办？推荐几个神器拯救你

重磅 | 完备的 AI 学习路线，最详细的资源整理！

图解word2vec(原文翻译)

备注：本站qq群：865189078（共8个群，不用重复加）。

您可能也对以下帖子感兴趣