数据科学专栏

一个基于Python结巴分词的中文小说关键词频统计的hadoop小项目

上次已经搭建好了一个小集群，这里就利用它来统计中文词频。主要通过对哈利波特前7节的文本分词、非关键词的剔除，结合hadoop的排序功能，进行词频统计，介绍hadoop的简单项目应用。本身统计词频jieba分词顺便就完成了，这里还是主要是用其做一个小项目，演示hadoop的排序基础用法。主要写了三个程序文件，map.py、red.py、run.sh。功能分别是：Map.py：分词Red.py：统计词频Run.sh：启动hadoopmap文件主要是利用jieba包分词，并且去除无用的一些词，然后将每个词输出来。map.py文件我是这样写的测试map.py文件：为什么要测试，一个hadoop工程是由许多文件组成，测试通过可以保证在run文件写正确的情况下，整个hadoop可以正确执行。每写完一个功能文件，都需要测试一下，否则，程序出错的话，不好寻找错误。[root@blue

数据科学专栏 -

2017年8月12日

其他

一个基于虚拟机的hadoop平台的简单搭建

bin]#ssh-keygen会生成文件，保存在/root/.ssh/文件夹下面，到时候会有提示的，里面有id_rsa.pub这个文件。2、对于blue这台机器：[root@blue

数据科学专栏 -

2017年8月8日

其他

Python数据挖掘第二个包——pandas包的常用用法

前面介绍了numpy包在矩阵、线性代数等方面的基础应用，pandas包与numpy包配合使用可以发挥巨大的威力，正是有了pandas包，python做数据挖掘才有了可能与优势。01Series创建利用Series类可以实现类似字典，却又比字典更强大的功能。它可以快速创建类似一维数据结构，将字典键值有序分离。基本用法是：s

数据科学专栏 -

2017年7月30日

其他

小结：jieba分词的Python与R语言基础用法介绍

人们说话不是一个词一个词崩出来的，文章也就由句子组成。要想让机器识别美文，体会中华名族汉语的博大精深，不是不可能。但是，首先需要将其转化成其可以识别的模式——词语。分词是自然语言处理(NLP)中最底层、最基本的模块，分词精度的好坏将直接影响文本分析的结果。这里介绍著名的分词方法：结巴分词以及基本分词方法在Python和R语言中的用法。Python中的结巴分词

数据科学专栏 -

2017年7月16日

其他

K-means算法通俗原理及Python与R语言的分别实现

K均值聚类方法是一种划分聚类方法，它是将数据分成互不相交的K类。K均值法先指定聚类数，目标是使每个数据到数据点所属聚类中心的总距离变异平方和最小，规定聚类中心时则是以该类数据点的平均值作为聚类中心。01K均值法原理与步骤对于有N个数据的数据集，我们想把它们聚成K类，开始需要指定K个聚类中心，假设第i类有ni个样本数据，计算每个数据点分别到聚类中心的距离平方和，距离这里直接用的欧式距离，还有什么海明距离、街道距离、余弦相似度什么的其实都可以，这里聚类的话，欧式距离就好。（1）、所有类别样本数等于总样本数，即每个类类是互不相同的（2）、每一类(假设是第i类)中数据点到聚类中心距离平方总和di为：xi表示第i类各点平均值（聚类中心）（3）、K类数据点距离之和为：这样就会有一个K*N的距离平方和矩阵，每一列（比如第j列）的最小值对应的行数（比如第i行）就表明：第j个数据样本属于第i类别。这样，每个数据就会分别属于不同的类别了。比如，表格中红色部分数据点x2到第一类的聚类中心距离最小，则x2就属于第一类。K均值步骤：随机选取K个数据点作为（起始）聚类中心；按照距离最近原则分配数据点到对应类；计算每类的数据点平均值（新的聚类中心）；计算数据点到聚类中心总距离；如果与上一次相比总距离下降，聚类中心替换；直到总距离不再下降或者达到指定计算次数。其实，这个过程相对比较简单，给我一组聚类中心，总能根据到聚类中心距离最小原则生成一组聚类方案，然后计算各个类别到聚类中心距离总和是否下降，如果距离总和下降，就继续计算每类数据点平均值（新的聚类中心），对应的聚类方案要好（还是那句话：给我一组聚类中心，总能根据到聚类中心距离最小原则生成一组聚类方案），然后不断计算，直到距离总和下降幅度很小（几乎收敛），或者达到指定计算次数。K-means算法缺点主要是：对异常值敏感；需要提前确定k值；结果不稳定；02K均值算法Python的实现思路：首先用random模块产生随机聚类中心；用numpy包简化运算；写了一个函数实现一个中心对应一种聚类方案；不断迭代；matplotlib包结果可视化。代码如下：import

数据科学专栏 -

2017年6月19日

其他

Python线性代数与统计基础——Numpy的简单应用

现在都流行用Python做数据分析，最近也在学习Python数据分析包numpy，发现它还是挺好用的，这里主要介绍它在数组、矩阵、线性代数、统计方面的简单应用。当然了，这个包很大100M多，help()一下，有很多介绍，可见功能很强大。这个包好像是不能直接安装的，在我机器上是这样。所有Python包下载地址：http://www.lfd.uci.edu/~gohlke/pythonlibs/，进入后找到与自己OS和Python版本对应的numpy包下载到本地，用pip

数据科学专栏 -

2017年6月11日

其他

R、Python中那些99%的人第一次都不会安装的包

可能分享的学习笔记不是那么高大上，但是我坚持分享原创技术干货！我相信：数据的冰山一角不是不可窥探，混沌也并不是不可认知的！自己花一点点时间，为别人节约好多时间——我觉得，这很值得学习R语言、Python到现在，遇到的几个非常难安装的包，很多网友经常也会询问的基本都是这些包的安装方法。其实，有些东西并不是那么难，可能方法很唯一，而你只是不知道而已，并没有触犯银河正义法，却使得你花上短则半天长则一个周的时间作为惩罚。我这个人可能探索能力比较差，这些包好多我都是要花一个周的，有一个包的安装我记得还横跨两个月（其实已经放弃了），后来偶然机会才解决的。下面就把这些包列出来以及提供一种解决方法，可能不是对所有计算机都适用，但应该能给一部分人提供一种有效的解决方法吧！我希望能为第一次安装这些坑爹的第三方包时节约一点点时间吧，哈哈！计算机环境

数据科学专栏 -

2017年5月16日

其他

《人民的名义》小说文本分析

你只要不干坏事，就没人能坏你的事。

数据科学专栏 -

2017年5月3日

其他

基于30多万条招聘信息的热门城市、地域、薪资、人才要求的数据可视化分析

又是一年毕业季，什么工作好找、工资高、哪些地域有优势等就是很多人关注的话题了。这里用一份2017年初，含有32万条数据（行）、19个详细招聘信息（列）的数据进行招聘信息的知识发现、挖掘。数据部分截图如下：需要完成的工作1、数据预处理；2、每个行业的招聘次数、平均工资分析；3、学历要求与平均工资分析；4、不同工作经验的招聘次数、平均工资分析；5、不同职位的发展前景分析；6、不同地域招聘次数、平均工资分析。下面分别从以上这几方面展开分析。1、数据预处理（1）、读入数据并且去掉不会用到的字段（比如公司福利、Url等）。（2）、这里需要根据读入的原始数据的工资范围简单计算平均工资，并且处理人数字段为数值型，便于后面的计算。平均工资

数据科学专栏 -

2017年4月18日

其他

基于用户协同过滤的电影评分预测模型

智能推荐系统现在用的非常普遍，一个很明显日常生活中的例子就是网上购物消费。你在京东购物车里的还没买的东西，不管你打开什么网页都会看到，直到你厌烦了，这个广告以后还是会出现，没办法，这，就是智能推荐。电影评分如今在电影业用的很多，很多大的视频提供商（爱奇艺、优酷等）都有自己的一套根据电影评分的预测推荐系统，给用户提供个性化服务，以此提升用户体验、留住用户。这里用R语言对著名的MovieLens数据集中的ml-100k里面的10万条用户-电影评分数据进行相对简单的预测建模。一、获取数据并探索数据下载地址：http://grouplens.org/datasets/movielens直接读取u.data数据>dat

数据科学专栏 -

2017年3月24日

其他

Python2与Python3的区别，你都知道吗？

自从Python3系列版本的出现，很多熟悉Python2的老司机们经常在Python3上写在Python2上不会出错的代码，浪费了很多时间，抱怨又得学习语法规则了，很多新手更是头疼，不知学习哪个版本好。下面我就我所知道的Python2与Python3区别给大家罗列一下哎，可能不够全面，并且Python一直在不断地更新、维护中，或许我们需要发现知识、积累知识吧，希望对小菜鸟们有用！1、输入输出函数(1)、print()函数原来：print

数据科学专栏 -

2017年3月6日

其他

R语言爬取前程无忧网招聘职位

数据的获取是数据挖掘的第一步，如果没有数据何谈数据挖掘？有时候在做算法测试的时候，一个好的数据集也是算法实验成功的前提保障。当然我们可以去网上下载大型数据网站整理好的，专业的数据，但是自己动手爬取数据是不是更惬意呢？说到这里，给大家推荐一些常用的大型数据集：(1)、MovieLensMovieLens数据集中，用户对自己看过的电影进行评分，分值为1～5。MovieLens包括两个不同大小的库，适用于不同规模的算法．小规模的库是943个独立用户对1682部电影作的10000次评分的数据；大规模的库是6040个独立用户对3900部电影作的大约100万次评分。(2)、EachMovieHP/Compaq的DEC研究中心曾经在网上架设EachMovie电影推荐系统对公众开放．之后，这个推荐系统关闭了一段时间，其数据作为研究用途对外公布，MovieLens的部分数据就是来自于这个数据集的．这个数据集有72916个用户对l628部电影进行的2811983次评分。早期大量的协同过滤的研究工作都

数据科学专栏 -

2017年2月25日

一把短刀，怎么就让他连捅18人？！

上海超市血案：背后缘由让人揪心

为啥一线城市只有广州取消限购？是因为穷吗

当前三大问题：国家的方向感、精英的安全感、百姓的希望感

这次我怀疑邱成桐已经“学阀化”了