目錄
源碼下載
第1章緒論
1.1文本挖掘的研究背景及意義
1.2文本挖掘的國內外研究現(xiàn)狀
1.3文本挖掘概述
1.3.1文本挖掘的概念
1.3.2文本挖掘的任務
1.3.3文本挖掘與數(shù)據(jù)挖掘的聯(lián)系與區(qū)別
1.4文本挖掘的過程
1.5文本挖掘的主要研究領域
1.5.1文本特征選擇
1.5.2文本結構分析
1.5.3文本摘要
1.5.4文本分類
1.5.5文本聚類
1.5.6文本關聯(lián)分析
1.5.7分布分析與趨勢預測
1.6文本挖掘在制藥行業(yè)的應用案例
習題1
第2章文本切分及特征詞選擇
2.1文本數(shù)據(jù)采集
2.1.1軟件接口對接方式
2.1.2開放數(shù)據(jù)庫方式
2.1.3基于底層數(shù)據(jù)交換的數(shù)據(jù)直接采集方式
2.1.4網絡爬蟲采集網頁數(shù)據(jù)
2.2語料庫與詞典簡介
2.2.1語料庫
2.2.2詞典
2.3文本切分
2.3.1句子切分
2.3.2詞匯切分
2.4文本特征詞選擇
2.4.1文本特征詞選擇概述
2.4.2常用的文本特征詞選擇方法
2.5Python jieba分詞模塊及其用法
2.5.1jieba方法
2.5.2基于規(guī)則的中文分詞
2.5.3關鍵詞提取
習題2
第3章文本表示模型
3.1文本預處理
3.1.1原始數(shù)據(jù)處理
3.1.2文本預處理簡述
3.2向量空間模型
3.2.1向量空間模型的概念
3.2.2文本向量的相似度
3.2.3向量模型的Python實現(xiàn)
3.3概率模型
3.3.1概率模型概述
3.3.2概率建模方法
3.3.3文本信息檢索中的概率模型
3.3.4概率模型的Python實現(xiàn)
3.4概率主題模型
3.4.1概率主題模型概述
3.4.2PLSA概率主題模型
3.4.3LDA概率主題模型
3.4.4LDA概率主題模型的Python實現(xiàn)
習題3
第4章文本分類
4.1文本分類概述
4.1.1研究的意義
4.1.2國內外研究現(xiàn)狀與發(fā)展趨勢
4.1.3文本分類的定義
4.1.4文本分類流程
4.1.5文本分類預處理
4.2常用文本分類器
4.2.1KNN分類器
4.2.2SVM分類器
4.2.3Rocchio分類器
4.2.4樸素貝葉斯分類器
4.2.5決策樹分類器
4.3分類模型的性能評估
4.3.1分類評價方法
4.3.2分類性能評價指標
習題4
第5章文本聚類
5.1文本聚類概述
5.1.1研究的意義
5.1.2國內外研究現(xiàn)狀與發(fā)展趨勢
5.1.3文本聚類的定義
5.1.4文本聚類流程
5.1.5對聚類算法的性能要求
5.2文本聚類原理與方法
5.2.1基于劃分的方法
5.2.2基于層次的方法
5.2.3基于密度的方法
5.2.4基于網格的方法
5.2.5基于模型的方法
5.3文本聚類評估
5.3.1估計聚類趨勢
5.3.2確定簇數(shù)
5.3.3測定聚類質量
習題5
第6章文本關聯(lián)分析
6.1關聯(lián)規(guī)則挖掘概述
6.2文本關聯(lián)規(guī)則
6.2.1關聯(lián)規(guī)則的基本概念
6.2.2關聯(lián)規(guī)則分類
6.3關聯(lián)規(guī)則挖掘算法
6.3.1Apriori算法
6.3.2FPGrowth算法
習題6
第7章利用Python處理文本數(shù)據(jù)簡單應用
7.1情感分析
7.1.1情感分析原理
7.1.2算法設計
7.1.3算法實現(xiàn)
7.2自動生成關鍵詞和摘要
7.2.1TextRank算法
7.2.2生成關鍵詞和摘要
7.3使用SnowNLP進行商品評價
7.3.1SnowNLP庫簡介
7.3.2SnowNLP商品評價
7.4生成“詞云”
7.4.1“詞云”的概念
7.4.2Python“詞云”圖的生成
習題7
參考文獻