数据科学专栏

其他

一个基于Python结巴分词的中文小说关键词频统计的hadoop小项目

上次已经搭建好了一个小集群,这里就利用它来统计中文词频。主要通过对哈利波特前7节的文本分词、非关键词的剔除,结合hadoop的排序功能,进行词频统计,介绍hadoop的简单项目应用。本身统计词频jieba分词顺便就完成了,这里还是主要是用其做一个小项目,演示hadoop的排序基础用法。主要写了三个程序文件,map.py、red.py、run.sh。功能分别是:Map.py:分词Red.py:统计词频Run.sh:启动hadoopmap文件主要是利用jieba包分词,并且去除无用的一些词,然后将每个词输出来。map.py文件我是这样写的测试map.py文件:为什么要测试,一个hadoop工程是由许多文件组成,测试通过可以保证在run文件写正确的情况下,整个hadoop可以正确执行。每写完一个功能文件,都需要测试一下,否则,程序出错的话,不好寻找错误。[root@blue
2017年8月12日
其他

一个基于虚拟机的hadoop平台的简单搭建

bin]#ssh-keygen会生成文件,保存在/root/.ssh/文件夹下面,到时候会有提示的,里面有id_rsa.pub这个文件。2、对于blue这台机器:[root@blue
2017年8月8日
其他

Python数据挖掘第二个包——pandas包的常用用法

前面介绍了numpy包在矩阵、线性代数等方面的基础应用,pandas包与numpy包配合使用可以发挥巨大的威力,正是有了pandas包,python做数据挖掘才有了可能与优势。01Series创建利用Series类可以实现类似字典,却又比字典更强大的功能。它可以快速创建类似一维数据结构,将字典键值有序分离。基本用法是:s
2017年7月30日
其他

小结:jieba分词的Python与R语言基础用法介绍

人们说话不是一个词一个词崩出来的,文章也就由句子组成。要想让机器识别美文,体会中华名族汉语的博大精深,不是不可能。但是,首先需要将其转化成其可以识别的模式——词语。分词是自然语言处理(NLP)中最底层、最基本的模块,分词精度的好坏将直接影响文本分析的结果。这里介绍著名的分词方法:结巴分词以及基本分词方法在Python和R语言中的用法。Python中的结巴分词
2017年7月16日
其他

K-means算法通俗原理及Python与R语言的分别实现

K均值聚类方法是一种划分聚类方法,它是将数据分成互不相交的K类。K均值法先指定聚类数,目标是使每个数据到数据点所属聚类中心的总距离变异平方和最小,规定聚类中心时则是以该类数据点的平均值作为聚类中心。01K均值法原理与步骤对于有N个数据的数据集,我们想把它们聚成K类,开始需要指定K个聚类中心,假设第i类有ni个样本数据,计算每个数据点分别到聚类中心的距离平方和,距离这里直接用的欧式距离,还有什么海明距离、街道距离、余弦相似度什么的其实都可以,这里聚类的话,欧式距离就好。(1)、所有类别样本数等于总样本数,即每个类类是互不相同的(2)、每一类(假设是第i类)中数据点到聚类中心距离平方总和di为:xi表示第i类各点平均值(聚类中心)(3)、K类数据点距离之和为:这样就会有一个K*N的距离平方和矩阵,每一列(比如第j列)的最小值对应的行数(比如第i行)就表明:第j个数据样本属于第i类别。这样,每个数据就会分别属于不同的类别了。比如,表格中红色部分数据点x2到第一类的聚类中心距离最小,则x2就属于第一类。K均值步骤:随机选取K个数据点作为(起始)聚类中心;按照距离最近原则分配数据点到对应类;计算每类的数据点平均值(新的聚类中心);计算数据点到聚类中心总距离;如果与上一次相比总距离下降,聚类中心替换;直到总距离不再下降或者达到指定计算次数。其实,这个过程相对比较简单,给我一组聚类中心,总能根据到聚类中心距离最小原则生成一组聚类方案,然后计算各个类别到聚类中心距离总和是否下降,如果距离总和下降,就继续计算每类数据点平均值(新的聚类中心),对应的聚类方案要好(还是那句话:给我一组聚类中心,总能根据到聚类中心距离最小原则生成一组聚类方案),然后不断计算,直到距离总和下降幅度很小(几乎收敛),或者达到指定计算次数。K-means算法缺点主要是:对异常值敏感;需要提前确定k值;结果不稳定;02K均值算法Python的实现思路:首先用random模块产生随机聚类中心;用numpy包简化运算;写了一个函数实现一个中心对应一种聚类方案;不断迭代;matplotlib包结果可视化。代码如下:import
2017年6月19日
其他

Python线性代数与统计基础——Numpy的简单应用

现在都流行用Python做数据分析,最近也在学习Python数据分析包numpy,发现它还是挺好用的,这里主要介绍它在数组、矩阵、线性代数、统计方面的简单应用。当然了,这个包很大100M多,help()一下,有很多介绍,可见功能很强大。这个包好像是不能直接安装的,在我机器上是这样。所有Python包下载地址:http://www.lfd.uci.edu/~gohlke/pythonlibs/,进入后找到与自己OS和Python版本对应的numpy包下载到本地,用pip
2017年6月11日
其他

R、Python中那些99%的人第一次都不会安装的包

可能分享的学习笔记不是那么高大上,但是我坚持分享原创技术干货!我相信:数据的冰山一角不是不可窥探,混沌也并不是不可认知的!自己花一点点时间,为别人节约好多时间——我觉得,这很值得学习R语言、Python到现在,遇到的几个非常难安装的包,很多网友经常也会询问的基本都是这些包的安装方法。其实,有些东西并不是那么难,可能方法很唯一,而你只是不知道而已,并没有触犯银河正义法,却使得你花上短则半天长则一个周的时间作为惩罚。我这个人可能探索能力比较差,这些包好多我都是要花一个周的,有一个包的安装我记得还横跨两个月(其实已经放弃了),后来偶然机会才解决的。下面就把这些包列出来以及提供一种解决方法,可能不是对所有计算机都适用,但应该能给一部分人提供一种有效的解决方法吧!我希望能为第一次安装这些坑爹的第三方包时节约一点点时间吧,哈哈!计算机环境
2017年5月16日
其他

《人民的名义》小说文本分析

你只要不干坏事,就没人能坏你的事。
2017年5月3日
其他

基于30多万条招聘信息的热门城市、地域 、薪资、人才要求的数据可视化分析

又是一年毕业季,什么工作好找、工资高、哪些地域有优势等就是很多人关注的话题了。这里用一份2017年初,含有32万条数据(行)、19个详细招聘信息(列)的数据进行招聘信息的知识发现、挖掘。数据部分截图如下:需要完成的工作1、数据预处理;2、每个行业的招聘次数、平均工资分析;3、学历要求与平均工资分析;4、不同工作经验的招聘次数、平均工资分析;5、不同职位的发展前景分析;6、不同地域招聘次数、平均工资分析。下面分别从以上这几方面展开分析。1、数据预处理(1)、读入数据并且去掉不会用到的字段(比如公司福利、Url等)。(2)、这里需要根据读入的原始数据的工资范围简单计算平均工资,并且处理人数字段为数值型,便于后面的计算。平均工资
2017年4月18日
其他

基于用户协同过滤的电影评分预测模型

智能推荐系统现在用的非常普遍,一个很明显日常生活中的例子就是网上购物消费。你在京东购物车里的还没买的东西,不管你打开什么网页都会看到,直到你厌烦了,这个广告以后还是会出现,没办法,这,就是智能推荐。电影评分如今在电影业用的很多,很多大的视频提供商(爱奇艺、优酷等)都有自己的一套根据电影评分的预测推荐系统,给用户提供个性化服务,以此提升用户体验、留住用户。这里用R语言对著名的MovieLens数据集中的ml-100k里面的10万条用户-电影评分数据进行相对简单的预测建模。一、获取数据并探索数据下载地址:http://grouplens.org/datasets/movielens直接读取u.data数据>dat
2017年3月24日
其他

Python2与Python3的区别,你都知道吗?

自从Python3系列版本的出现,很多熟悉Python2的老司机们经常在Python3上写在Python2上不会出错的代码,浪费了很多时间,抱怨又得学习语法规则了,很多新手更是头疼,不知学习哪个版本好。下面我就我所知道的Python2与Python3区别给大家罗列一下哎,可能不够全面,并且Python一直在不断地更新、维护中,或许我们需要发现知识、积累知识吧,希望对小菜鸟们有用!1、输入输出函数(1)、print()函数原来:print
2017年3月6日
其他

R语言爬取前程无忧网招聘职位

数据的获取是数据挖掘的第一步,如果没有数据何谈数据挖掘?有时候在做算法测试的时候,一个好的数据集也是算法实验成功的前提保障。当然我们可以去网上下载大型数据网站整理好的,专业的数据,但是自己动手爬取数据是不是更惬意呢?说到这里,给大家推荐一些常用的大型数据集:(1)、MovieLensMovieLens数据集中,用户对自己看过的电影进行评分,分值为1~5。MovieLens包括两个不同大小的库,适用于不同规模的算法.小规模的库是943个独立用户对1682部电影作的10000次评分的数据;大规模的库是6040个独立用户对3900部电影作的大约100万次评分。(2)、EachMovieHP/Compaq的DEC研究中心曾经在网上架设EachMovie电影推荐系统对公众开放.之后,这个推荐系统关闭了一段时间,其数据作为研究用途对外公布,MovieLens的部分数据就是来自于这个数据集的.这个数据集有72916个用户对l628部电影进行的2811983次评分。早期大量的协同过滤的研究工作都
2017年2月25日