如何像一个机器学习老司机一样跟别人解释SVM算法？

原创 2017-09-01 鲁伟 R语言中文社区

作者：鲁伟

一个数据科学践行者的学习日记。数据挖掘与机器学习，R与Python，理论与实践并行。个人公众号：数据科学家养成记（微信ID：louwill12）

接着前面朴素贝叶斯、贝叶斯网络和神经网络算法之后，笔者继续往后学习了其他分类算法，本期给大家介绍声名斐然的SVM，也就是支持向量机（Support Vector Machines）算法。不过说实话，这东西确实不好弄懂，更不好跟大伙解释清楚，所以写起来更不容易。在断断续续硬啃了几天理论和公式之后，就去CSDN和知乎专栏上各种转悠。终于，笔者点开了reddit上一个关于SVM的帖子 Please explain Support Vector Machines (SVM) like I am a 5 year old ,又参考了知乎用户关于这个帖子的解释，便也把这个帖子拿来和大家一起看看，怎样才能像一个机器学习老司机一样跟人解释SVM。

原文是这样的：

一名用户问如何才能像老司机一样解释SVM，另一名用户就做了如下回答：

比方说现在桌子上有两种颜色（红色和蓝色）的球需要分类（如图），我们有一根棍子作为工具，如何才能准确的分类呢？

于是你眼睛一瞧，便不假思索的将棍子往中间一放，心想这还不简单？

正当你沾沾自喜的时候，不知从哪走过来一帮坏蛋，他们往桌子上放了更多的球，这时候你的棍子勉强能将红球和蓝球分开，但还是有一个红球被错分到了蓝球阵营。

所以SVM便是将你手上的棍子放在最佳位置，这个最佳位置使得棍子两边的分类球有着最大的间隔。

所以现在即使这帮坏蛋往桌子上放更多的球，你放的棍子仍然是一个比较好的分类器。

但SVM的精髓远不止于此。这些坏蛋们看到你已经掌握了划分的技巧，便提高了问题的难度，于是对于你来说新的挑战来了：两种颜色的球被混合到一起了。

嘿！这下好玩了，世上可没有哪种棍子能将上面的球分开了。你看着手中的棍子绞尽脑汁的思考着，忽然你灵机一动，猛地一拍桌子，所有的球顿时都飞到了空中，说时迟那时快，你闪电般的抄起一张纸，刷的一下就飞到两种球中间，成功的将两种球分开了。

现在站在这些坏蛋的角度看，这些球就好像被一条曲线给分开了。

再后来，便有了现在大名鼎鼎的SVM算法。这些球被称为数据，当时你手上的棍子被称之为分类器，使得棍子两边间隔最大叫做最优化，拍桌子那个技术被叫做核技术，那张被你抄向空中的纸叫做超平面，棍子由直线变成曲线便叫做软化。

怎么样？对看起来很高深的SVM算法是不是明白点什么了？笔者也不想说枯燥的定理和公式，便千辛万苦找到了这篇文章，结合着前辈们的解释就给译过来了。当然了，这里只是简化理解一下SVM，具体SVM的理论内核，如何计算实现，还由各位去补充机器学习算法知识啦。

微信回复关键字即可学习
回复 R              R语言快速入门免费视频
回复统计          统计方法及其在R中的实现
回复用户画像   民生银行客户画像搭建与应用
回复大数据      大数据系列免费视频教程
回复可视化   利用R语言做数据可视化
回复数据挖掘数据挖掘算法原理解释与应用
回复机器学习   R&Python机器学习入门

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突认定该生系高空坠落死亡

桐城一派｜倒在“跨年夜”的龚书记，13个字换来免职调查冤不冤？

比佟丽娅还恋爱脑，怀孕7次流产4次，目睹丈夫背叛却选择原谅

市管干部“龚书记”免职迷局

讣告！又一知名女星在家中去世，终年54岁，曾是无数人白月光…