查看原文
其他

【Python机器学习】数据预处理——图像压缩与线性代数

2016-08-05 Myron 量化投资与机器学习


查看之前文章请点击右上角,关注并且查看历史消息

所有文章全部分类和整理,让您更方便查找阅读。请在页面菜单里查找。





现在有一张朱迪的照片,这张照片有500多列的像素点构成,但是大部分地方都是白色的,相互没有什么差别,也就是说图像中有很多列都是相互线性相关的,这些列向量对我们接受图像信息没有更大的帮助。那么我们能不能找到一种方法,找出图像中相互独立的列向量,用尽可能少的向量去估计这张图片?这种方法就叫奇异值分解SVD,或PCA主成分分析。


“SVD"


(后台回复SVD,获取pdf原文


奇异值分解可以从三个方面理解:

  1. 奇异值分解是一种去除原始数据相互之间的相关性的一种方法,并把原始数据相互的关系暴露出来;

  2. 奇异值分解会识别出数据每一维度的变化程度(Variation),按照变化程度排列原始数据的维度;

  3. 奇异值分解可以用来降维,在更小维度的空间中表示数据,并尽可能保留更多的原始信息;(可用用来做数据压缩)

降维:

下图中每一个点都是一个二维的数据,我们可以对图中的点做回归,回归可以看做是用一维的线去拟合二维的数据,现在我们从每一个原始数据点出发向这条线做垂线,落在这条线上的交点可以看做是二维空间内的点在这条一维空间内的表示(representation),降维后的数据保留了原始数据最大的变化特点(相关系数,或者说这条直线的斜率),而对于每个点离回归直线的距离这样的微小变化,直接忽略,即保留了原始数据包含的主要信息,忽略掉其中微小的变化,达到降维的效果。


下面这条直线刚好与上面这条垂直,在这一维度上的点得表示没有保留主要的信息,因此找到一个好的表示数据的维度(图中的线)是SVD降维的主要作用。


“举个例子"

回到我们引入的案例。 
朱迪这张图片(转为灰度值之后)我们我们可以看做是一个矩阵,SVD操作之后我们得到了U,S,V三个矩阵,满足


我们现在希望只用U,V中的k列的向量就能估计出这张图片,下面是Python代码





从图中可以发现,我们只使用了特征向量V和的特征向量U的前20列就可以很好的估计出原图。 
SVD可以用在Machine Learning,Deep Learning的数据预处理中,这样的操作可以在尽可能保留数据原始信息的前提下,有效减少内存的压力,减少计算的时间。也可以用在数据的有损压缩中。




后台回复下列关键字,更多惊喜在等着【区分大小写】

1.回复每周论文 获取Market Making论文分享

2. 回复matlab量化投资 获取大量源码

3. 回复每周书籍 获取国外书籍电子版

4. 回复文本挖掘 获取关于文本挖掘的资料

5. 回复金融数学 获取金融数学藏书

6. 回复贝叶斯Matlab 获取NBM详解与具体应用

7.回复AdaBoost 获取AdaBoost算法文献、代码、研报

8.回复数据包络分析获取选股分析源码


【过往文章】

0.【重!磅!干!货!】互联网金融之量化投资深度文本挖掘——附源码文档

1.【机器学习课程】深度学习与神经网络系列之绪论介绍

2.【Python机器学习】系列之线性回归篇【深度详细】

3.【Python机器学习】系列五决策树非线性回归与分类(深度详细附源码)

4.【每周研报干货】各大券商研报免费分享(附下载链接)

5.【每周书籍干货】国外近期深度学习与机器学习书籍电子版——你知道一本买来好多刀啊!

几种编程语言的优缺点

6.【Python机器学习】系列之从线性回归到逻辑回归篇(深度详细附源码)

7.【Python机器学习】系列之特征提取与处理篇(深度详细附源码)

8.【最强干货】关于文本挖掘的资料(文献,报告,策略,代码)

9.机器学习的前期入门汇总

10.【深度原创研究】分级基金下折全攻略(一)

11.【深度原创研究】分级基金下折全攻略(二)

12.【知识食粮】最新华尔街牛人必读书籍排行

13.通过 MATLAB 处理大数据

14.【扎实资料干货分享】Python、研究报告、计量经济学、投资书籍、R语言等!(Book+Video)

15.机器学习在统计套利中的应用

16.量化投资修行之路

17.统计套利在股指期货跨期套利中的应用:基于协整方法的估计

18.股指期货跨品种套利交易

19.沪港通股票统计套利:基于BP神经网络

20.机器学习到底在量化金融里哪些方面有应用?

21.【Matlab机器学习】之图像识别

22.【干货分享】Python数据结构与算法设计总结篇

23.基于Python的股票数据接口调用代码实例

24.基于Python爬取腾讯网的最热评论代码实例

25.卷积神经网络反向传播推导

26.深度学习项目

27.混沌分形理论

28.【Python】基于情感词典进行情感分析(附代码)

29.基于技术交易规则的动态模型股票价格(附论文和Matlab源程序)

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存