其他
朴素贝叶斯算法——以20Newsgroups数据集为例
本文作者:陈 鼎 中南财经政法大学统计与数学学院
文字编辑:任 哲
技术总编:张馨月
爬虫俱乐部云端课程
朴素贝叶斯分类器是由英国数学家托马斯·贝叶斯提出的。该模型使用概率统计的知识对样本数据集进行分类,通过计算条件概率进行最终决策。朴素贝叶斯分类器的基本思想是,若在给定条件下,预测的某个样本属于某个类别的条件概率最大,则将该样本判定为该类别。朴素贝叶斯分类器在数据集较大的情况下表现出较高的准确率,同时算法本身也较为简单。在之前的推文《基于贝叶斯定理的算法——朴素贝叶斯分类》中,我们对该算法进行过简单了解。今天,本文基于20Newsgroups数据集,利用朴素贝叶斯算法,对20Newsgroups数据集进行文本分类,并对其分类结果进行简要阐述。
一、算法简介
(一)朴素贝叶斯模型
(二)20Newsgroups数据集与文本分类
二、代码实现
(一)导入数据集
from sklearn.datasets import fetch_20newsgroups #导入模块
news_data = fetch_20newsgroups(subset="all") #读取数据
(二)划分训练集,测试集
from sklearn.model_selection import train_test_split #导入模块
x_train,x_test,y_train,y_test = train_test_split(news.data,news.target,test_size=0.25)
变量 | 含义 |
(三)数据的预处理——特征工程
from sklearn.feature_extraction.text import TfidfVectorizer
tf = TfidfVectorizer() #实例化
x_train = tf.fit_transform(x_train) #将训练集中的新闻文本数据进行特征抽取,返回一个sparse矩阵
x_test = tf.transform(x_test) #将测试集中的新闻文本数据进行特征抽取,返回一个sparse矩阵
(四)使用朴素贝叶斯分类器进行分类
from sklearn.naive_bayes import MultinomialNB
bayes = MultinomialNB(alpha=1.0) #alpha为拉普拉斯修正的α
bayes.fit(x_train,y_train)
y_predict = bayes.predict(x_test)
print("测试集的预测结果为:",y_predict)
print("模型的预测准确率为:",bayes.score(x_test,y_test))
三、源码
from sklearn.naive_bayes import MultinomialNB
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.model_selection import train_test_split
from sklearn.datasets import fetch_20newsgroups
def naive_bayes():
#1.读取数据
news_data = fetch_20newsgroups(subset="all")
#2.划分训练集,测试集
x_train,x_test,y_train,y_test = train_test_split(news_data.data,news_data.target,test_size=0.25)
#3.进行特征抽取
tf = TfidfVectorizer()
x_train = tf.fit_transform(x_train)
x_test = tf.transform(x_test)
#4.进行朴素贝叶斯算法分类
bayes = MultinomialNB(alpha=1.0)
bayes.fit(x_train,y_train)
y_predict = bayes.predict(x_test)
print("测试集的预测结果为:",y_predict)
print("模型的预测准确率为:",bayes.score(x_test,y_test))
if __name__ == '__main__':
naive_bayes()
【爬虫实战】利用scrapy框架爬取豆瓣图书信息
《我和我的家乡》影评高频词原来是这些!
用词云图看Sustainability期刊热门题目
震惊!知名数据分析软件竟被某度翻译“亲切称呼”为“斯塔塔”
喜临涛门,月满人圆
字符串函数总动员
微信公众号“Stata and Python数据分析”分享实用的stata、python等软件的数据处理知识,欢迎转载、打赏。我们是由李春涛教授领导下的研究生及本科生组成的大数据处理和分析团队。
1)必须原创,禁止抄袭;
2)必须准确,详细,有例子,有截图;
注意事项:
1)所有投稿都会经过本公众号运营团队成员的审核,审核通过才可录用,一经录用,会在该推文里为作者署名,并有赏金分成。
2)邮件请注明投稿,邮件名称为“投稿+推文名称”。
3)应广大读者要求,现开通有偿问答服务,如果大家遇到有关数据处理、分析等问题,可以在公众号中提出,只需支付少量赏金,我们会在后期的推文里给予解答。