1.优缺点
优点:-
在数据较少的情况下仍然有效,
-
可以处理多类别问题。
缺点:
-
对于输入数据的准备方式较为敏感。
-
适用数据类型:标称型数据
2.朴素贝叶斯的一般过程
(1) 收集数据:可以使用任何方法。本章使用RSS源。
(2) 准备数据:需要数值型或者布尔型数据。
(3) 分析数据:有大量特征时,绘制特征作用不大,此时使用直方图效果更好。
(4) 训练算法:计算不同的独立特征的条件概率。
(5) 测试算法:计算错误率。
(6) 使用算法:一个常见的朴素贝叶斯应用是文档分类。可以在任意的分类场景中使用朴
素贝叶斯分类器,不一定非要是文本。
3.概率论知识补充
3.1条件概率
下图公式表示在事件A发生的条件下,B发生的概率
3.2全概率公式
3.3贝叶斯公式
4.使用 Python 进行文本分类
4.1准备数据:从文本中构建词向量
我们将把文本看成单词向量或者词条向量,也就是说将句子转换为向量
def loadDataSet():
postingList=[['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'], #切分的词条
['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid'],
['my', 'dalmation', 'is', 'so', 'cute', 'I', 'love', 'him'],
['stop', 'posting', 'stupid', 'worthless', 'garbage'],
['mr', 'licks', 'ate', 'my', 'steak', 'how', 'to', 'stop', 'him'],
['quit', 'buying', 'worthless', 'dog', 'food', 'stupid']]
classVec = [0,1,0,1,0,1] #类别标签向量,1代表侮辱性词汇,0代表不是
return postingList,classVec
#创建词汇表-文档向量化的第一步,将所有单词放入set集合中(去除重复的单词)
#原数据集中去掉重复的单词之后,一共有32个单词
def createVocabList(dataSet):
vocabSet = set([]) #创建一个空的不重复列表
for document in dataSet:
vocabSet = vocabSet | set(document) #取并集
return list(vocabSet)
#词集法-文档向量化的第二步
#inputSet - 切分的词条列表(最初的postingList的每一行)
# vocabList - createVocabList返回的列表
#思想,遍历inputSet中的每一个单词,若在vocabList中存在,则将出现的位置的值设置为1即可
def setOfWords2Vec(vocabList, inputSet):
returnVec = [0] * len(vocabList) #创建一个其中所含元素都为0的向量
for word in inputSet: #遍历每个词条
if word in vocabList: #如果词条存在于词汇表中,则置1
returnVec[vocabList.index(word)] = 1
else:
print("the word: %s is not in my Vocabulary!" % word)
return returnVec #返回文档向量
得到的向量集为:
4.2从词向量计算概率
#朴素贝叶斯分类器训练函数
# trainMatrix - 训练文档矩阵,即setOfWords2Vec返回的returnVec构成的矩阵
# trainCategory - 训练类别标签向量,即loadDataSet返回的classVec
def trainNB0(trainMatrix,trainCategory):
numTrainDocs = len(trainMatrix)#计算训练的文档数目 6
numWords = len(trainMatrix[0]) #计算每篇文档的词条数 32
pAbusive = sum(trainCategory)/float(numTrainDocs)#文档属于侮辱类的概率
p0Num = np.ones(numWords); p1Num = np.ones(numWords)#创建numpy.zeros数组,词条出现数初始化为0
p0Denom = 2.0; p1Denom = 2.0 #分母初始化为0
for i in range(numTrainDocs):
if trainCategory[i] == 1: #统计属于侮辱类的条件概率所需的数据,即P(w0|1),P(w1|1),P(w2|1)···
p1Num += trainMatrix[i]#计算侮辱性单词所在行每个单词出现的频数
p1Denom += sum(trainMatrix[i])#侮辱性单词所在行的总共单词的个数
else: #统计属于非侮辱类的条件概率所需的数据,即P(w0|0),P(w1|0),P(w2|0)···
p0Num += trainMatrix[i]#计算非侮辱性单词所在行每个单词出现的频数
p0Denom += sum(trainMatrix[i])#非侮辱性单词所在行单词的总个数
p1Vect = np.log(p1Num/p1Denom)#计算侮辱性单词所在行的每个单词是侮辱性单词的概率
p0Vect = np.log(p0Num/p0Denom)#计算非侮辱性单词所在行的每个单词是非侮辱性单词的概率
return p0Vect,p1Vect,pAbusive
4.3根据现实情况修改分类器
利用贝叶斯分类器对文档进行分类时,要计算多个概率的乘积以获得文档属于某个类别的概 率,即计算p(w0|1)p(w1|1)p(w2|1)。如果其中一个概率值为0,那么最后的乘积也为0。为降低 这种影响,可以将所有词的出现数初始化为1,并将分母初始化为2。p0Num = np.ones(numWords); p1Num = np.ones(numWords)#创建numpy.zeros数组,词条出现数初始化为0
p0Denom = 2.0; p1Denom = 2.0 #分母初始化为0
另一个遇到的问题是下溢出,这是由于太多很小的数相乘造成的。当计算乘积 p(w0|ci)p(w1|ci)p(w2|ci)...p(wN|ci)时,由于大部分因子都非常小,所以程序会下溢出或者 得到不正确的答案。(读者可以用Python尝试相乘许多很小的数,最后四舍五入后会得到0。)一 种解决办法是对乘积取自然对数。在代数中有ln(a*b) = ln(a)+ln(b),于是通过求对数可以 避免下溢出或者浮点数舍入导致的错误。同时,采用自然对数进行处理不会有任何损失。
p1Vect = np.log(p1Num/p1Denom)#计算侮辱性单词所在行的每个单词是侮辱性单词的概率
p0Vect = np.log(p0Num/p0Denom)#计算非侮辱性单词所在行的每个单词是非侮辱性单词的概率
朴素贝叶斯分类函数
#朴素贝叶斯分类器分类函数
# vec2Classify -