注冊(cè) | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁出版圖書科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)家庭與辦公軟件基于半監(jiān)督與集成學(xué)習(xí)的文本分類方法

基于半監(jiān)督與集成學(xué)習(xí)的文本分類方法

基于半監(jiān)督與集成學(xué)習(xí)的文本分類方法

定 價(jià):¥29.00

作 者: 唐煥玲
出版社: 電子工業(yè)出版社
叢編項(xiàng):
標(biāo) 簽: 暫缺

ISBN: 9787121212567 出版時(shí)間: 2013-09-01 包裝: 平裝
開本: 32開 頁數(shù): 188 字?jǐn)?shù):  

內(nèi)容簡介

  文本分類技術(shù)廣泛應(yīng)用于新聞媒體、網(wǎng)絡(luò)期刊文獻(xiàn)、數(shù)字圖書館、互聯(lián)網(wǎng)等領(lǐng)域,是人類處理海量文本信息的重要手段?!痘诎氡O(jiān)督與集成學(xué)習(xí)的文本分類方法》重點(diǎn)探討了利用信息論中的評(píng)估函數(shù)量化特征權(quán)值的方法;基于權(quán)值調(diào)整改進(jìn)Co-training的算法;利用互信息或CHI統(tǒng)計(jì)量構(gòu)造特征獨(dú)立模型,進(jìn)行特征子集劃分的方法;基于投票熵維護(hù)樣本權(quán)重的BoostVE分類模型;融合半監(jiān)督學(xué)習(xí)和集成學(xué)習(xí)的SemiBoost-CR分類模型?!∑渲刑卣鬟x擇和權(quán)值調(diào)整方法、基于特征獨(dú)立模型劃分特征子集的方法適用于文本分類,其他算法不僅適用于文本分類,對(duì)機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘的其他研究也有較大的參考價(jià)值和借鑒作用。

作者簡介

  山東工商學(xué)院計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院

圖書目錄

第1章 緒論 1
1.1 研究背景及意義 1
1.1.1 數(shù)據(jù)挖掘和文本挖掘 1
1.1.2 文本分類及其面臨的問題 3
1.2 國內(nèi)外相關(guān)研究 7
1.2.1 半監(jiān)督學(xué)習(xí) 7
1.2.2 集成學(xué)習(xí) 10
1.3 本書內(nèi)容組織 14
第2章 文本分類技術(shù)概述 17
2.1 文本分類預(yù)處理 17
2.2 文本的表示 19
2.3 特征選擇 21
2.3.1 初始特征選擇 22
2.3.2 特征選擇算法 22
2.4 文本分類算法 24
2.4.1 質(zhì)心向量分類算法 24
2.4.2 K近鄰分類算法 26
2.4.3 貝葉斯分類算法 27
2.4.4 關(guān)聯(lián)規(guī)則分類算法 33
2.4.5 支持向量機(jī) 33
2.4.6 其他分類算法 37
2.5 實(shí)驗(yàn)數(shù)據(jù)集 38
2.6 分類模型的評(píng)估方法 39
2.7 本章小結(jié) 41
第3章 TEF-WA權(quán)值調(diào)整技術(shù) 42
3.1 特征選擇存在的問題 42
3.2 TEF-WA權(quán)值調(diào)整技術(shù) 43
3.2.1 TEF-WA權(quán)值調(diào)整的基本思想 43
3.2.2 各種評(píng)估函數(shù)的TEF-WA權(quán)值調(diào)整 45
3.3 實(shí)驗(yàn)結(jié)果與分析 48
3.3.1 TEF-WA權(quán)值調(diào)整的有效性 48
3.3.2 不同評(píng)估函數(shù)的權(quán)值調(diào)整 52
3.3.3 評(píng)估比較 62
3.4 本章小結(jié) 68
第4章 結(jié)合TEF-WA技術(shù)的Co-training改進(jìn)算法 69
4.1 Co-training算法及其存在的問題 69
4.2 基于TEF-WA的特征多視圖 70
4.2.1 TEF-WA技術(shù) 70
4.2.2 基于TEF-WA的特征多視圖 71
4.3 基分類器間的差異性評(píng)估 72
4.4 TV-SC算法與TV-DC算法 74
4.5 實(shí)驗(yàn)結(jié)果及其分析 76
4.6 本章小結(jié) 80
第5章 基于特征獨(dú)立模型的Co-training改進(jìn)算法 81
5.1 特征獨(dú)立模型 82
5.1.1 基于條件互信息的相互獨(dú)立性 82
5.1.2 基于條件2統(tǒng)計(jì)量的相互獨(dú)立性 83
5.1.3 特征獨(dú)立模型 84
5.2 特征子集劃分算法PMID 85
5.3 基于MID-Model的改進(jìn)算法SC-PMID 88
5.4 實(shí)驗(yàn)結(jié)果及其分析 89
5.4.1 PMID-MI與PART-Rnd的實(shí)驗(yàn)比較 90
5.4.2 PMID-CHI與PART-Rnd的實(shí)驗(yàn)比較 93
5.4.3 PMID-MI、PMID-CHI和PART-Rnd的實(shí)驗(yàn)比較 95
5.4.4 SC-PMID-MI、SC-PMID-CHI和SC-PART-Rnd的
實(shí)驗(yàn)比較 96
5.5 本章小結(jié) 98
第6章 基于投票信息熵和多視圖的AdaBoost改進(jìn)算法 99
6.1 AdaBoost算法 100
6.1.1 AdaBoost算法描述 100
6.1.2 AdaBoost提升NB文本分類器的問題 101
6.2 利用特征評(píng)估函數(shù)構(gòu)造多視圖 102
6.3 基于投票信息熵的樣本權(quán)重維護(hù)新策略 103
6.3.1 投票信息熵 104
6.3.2 基于投票信息熵的樣本權(quán)重維護(hù)新策略 105
6.3.3 樣本權(quán)重對(duì)NB文本分類器的擾動(dòng) 106
6.4 BoostVE算法 108
6.4.1 BoostVE算法描述 108
6.4.2 BoostVE算法的最小訓(xùn)練錯(cuò)誤上界 109
6.5 實(shí)驗(yàn)結(jié)果及其分析 113
6.5.1 參數(shù) 對(duì)BoostVE算法性能的影響 115
6.5.2 Boost VE算法與AdaBoost-MV算法、
AdaBoost算法的實(shí)驗(yàn)比較 118
6.5.3 BoostVE 算法提升NB文本分類器的有效性 124
6.6 本章小結(jié) 126
第7章 結(jié)合半監(jiān)督學(xué)習(xí)的SemiBoost-CR分類模型 128
7.1 SemiBoost-CR模型的目標(biāo)函數(shù) 129
7.2 未標(biāo)注樣本的置信度 131
7.2.1 基于K近鄰的置信度 131
7.2.2 基于最大差距的置信度 132
7.3 基于置信度的重取樣策略 133
7.4 樣本權(quán)重維護(hù)策略 135
7.5 SemiBoost-CR分類算法 136
7.6 實(shí)驗(yàn)結(jié)果及其分析 137
7.6.1 未標(biāo)注近鄰樣本對(duì)置信度conf1的影響 139
7.6.2 兩種置信度方法conf1和conf2的實(shí)驗(yàn)比較 140
7.6.3 topN和bottomN對(duì)SemiBoost-CR模型的影響 144
7.7 本章小結(jié) 154
第8章 文本自動(dòng)分類系統(tǒng)SECTCS 155
8.1 系統(tǒng)簡介 155
8.2 系統(tǒng)總體結(jié)構(gòu) 156
8.3 系統(tǒng)的用戶界面 157
8.4 實(shí)驗(yàn)數(shù)據(jù)集 163
8.5 本章小結(jié) 165
結(jié)束語 166
參考文獻(xiàn) 169

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)