其他
转 | 数据集存取新方案-认识feature hashing
The following article is from 小小挖掘机 Author 石晓文
昨天发布了一版有关数据集存取方案的文章,于是有了一些前辈的评价和建议,秉承虚心接受的态度,学习了新的方法,来看看整个过程:
公众号传送门:R&S | 手把手搞推荐[3]:数据集存取思路
然后就被Diss了:
费了点心机想多了解了解:
最终,发现了新大陆!
没错,就是feature hashing!
原文在这里了:https://www.cnblogs.com/pinard/p/6688348.html
英文论文:http://alex.smola.org/papers/2009/Weinbergeretal09.pdf
简单总结一下:
scipy似乎在工业界用的非常少
feature hashing似乎是一种比较流行的特征处理办法,由于是无偏估计,所以可靠性还是很高的,后面可以试试
此处也给各位道歉,虽然自己已经实践了原文提到的方法,但由于自己学艺不精,误导了大家,没有给出更优的方案,非常抱歉,后续我会认真学习一下有关方法并给大家介绍,不辜负各位的关注和支持,同时,永久欢迎大家提出宝贵意见,一起商讨交流~