注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當前位置: 首頁出版圖書科學技術(shù)計算機/網(wǎng)絡(luò)數(shù)據(jù)庫面向大數(shù)據(jù)的高效能垃圾文本分類

面向大數(shù)據(jù)的高效能垃圾文本分類

面向大數(shù)據(jù)的高效能垃圾文本分類

定 價:¥28.00

作 者: 劉伍穎 編
出版社: 國防工業(yè)出版社
叢編項:
標 簽: 計算機/網(wǎng)絡(luò) 數(shù)據(jù)庫 數(shù)據(jù)庫理論

ISBN: 9787118097597 出版時間: 2014-10-01 包裝: 平裝
開本: 32開 頁數(shù): 160 字數(shù):  

內(nèi)容簡介

  《面向大數(shù)據(jù)的高效能垃圾文本分類》全面介紹了大數(shù)據(jù)時代垃圾信息的爆發(fā)態(tài)勢和文本特性,并根據(jù)信息文檔的多域結(jié)構(gòu)特性和文本Token頻率分布的冪律特性,提出了多域?qū)W習的思想。研究了一整套面向大數(shù)據(jù)的高效能垃圾文本分類方法?!睹嫦虼髷?shù)據(jù)的高效能垃圾文本分類》共分7章,第1章分析大數(shù)據(jù)時代垃圾信息態(tài)勢,第2章概述垃圾信息過濾方法,第3章研究電子郵件文檔和手機短信文檔的文本特性,第4章研究多域?qū)W習總體框架,第5章提出基于Token頻率索引的文本分類算法,第6章研究有監(jiān)督反饋代價問題,第7章設(shè)計面向大數(shù)據(jù)的高效能垃圾文本過濾系統(tǒng)?!睹嫦虼髷?shù)據(jù)的高效能垃圾文本分類》可以作為普通高等院校、科研機構(gòu)大數(shù)據(jù)計算技術(shù)相關(guān)專業(yè)高年級本科生或研究生的實驗教材,也可供網(wǎng)絡(luò)信息技術(shù)公司高級研究人員參考。

作者簡介

  劉伍穎(1980.01-),男,江西九江人,博士,講師。畢業(yè)于國防科學技術(shù)大學計算機學院,分別于2002年、2005年、2011年獲得計算機科學與技術(shù)專業(yè)學士、碩士、博士學位。已在SIGIR、AIRS、KnowledgeandInformationSystems等國內(nèi)外學術(shù)會議和期刊上發(fā)表論文30余篇,其中被scI檢索4篇,被cPcI―s檢索4篇,被EI核心檢索12篇。獲得智能摘要軟件等計算機軟件著作權(quán)3項。主持科研項目2項。主要研究領(lǐng)域為自然語言處理(信息檢索、信息過濾、機器翻譯、自動文摘)和人工智能(機器學習、數(shù)據(jù)挖掘、文本分類)。

圖書目錄

第1章 大數(shù)據(jù)與垃圾信息
1.1 大數(shù)據(jù)時代的垃圾信息
1.1.1 大數(shù)據(jù)和垃圾信息爆發(fā)
1.1.2 垃圾信息過濾研究項目
1.1.3 垃圾信息過濾研究意義
1.2 垃圾信息范疇
1.2.1 垃圾電子郵件
1.2.2 垃圾手機短信
1.2.3 廣義垃圾信息
1.2.4 文本垃圾信息
1.3 文本垃圾信息態(tài)勢
1.3.1 國際垃圾郵件態(tài)勢
1.3.2 我國垃圾郵件態(tài)勢
1.3.3 我國垃圾手機短信態(tài)勢
1.4 研究動機與內(nèi)容
1.4.1 科學問題與挑戰(zhàn)
1.4.2 研究內(nèi)容與結(jié)構(gòu)
1.4.3 研究成果
本章小結(jié)
第2章 垃圾信息過濾方法概述
2.1 基于協(xié)議的垃圾信息過濾
2.1.1 基于SMTP的方法
2.1.2 基于IP的方法
2.2 基于內(nèi)容的垃圾信息過濾
2.2.1 基于規(guī)則的方法
2.2.2 基于統(tǒng)計的方法
2.2.3 神經(jīng)網(wǎng)絡(luò)方法
2.2.4 集成學習方法
2.3 垃圾信息過濾性能評價方法
2.3.1 當前性能評價方法
2.3.2 ROC曲線評價方法
2.3.3 整體性能評價方法
本章小結(jié)
第3章 信息文檔的文本統(tǒng)計特性
3.1 信息文檔的正文特性
3.1.1 電子郵件和手機短信語料
3.1.2 正文文本長度特性
3.1.3 正文和TokeN重復(fù)特性
3.2 信息文檔的結(jié)構(gòu)特性
3.2.1 信息文檔格式
3.2.2 域間文本特征
3.3 Token頻率分布的冪律特性
3.3.1 冪律
3.3.2 郵件文檔和郵件域文檔
3.3.3 短信文檔和短信域文檔
本章小結(jié)
第4章 面向垃圾信息過濾的多域?qū)W習文本分類
4.1 問題描述與框架
4.1.1 形式化描述
4.1.2 多域?qū)W習框架
4.2 分割策略
4.2.1 自然域文檔分割策略
4.2.2 特定屬性域文檔分割策略
4.3 組合策略
4.3.1 均權(quán)組合策略
4.3.2 支持向量模型權(quán)組合策略
4.3.3 域分類器歷史性能權(quán)組合策略I.
4.3.4 域文檔信息量權(quán)組合策略
4.3.5 復(fù)合權(quán)組合策略
4.4 實驗結(jié)果
4.4.1 TREC07P上的bogo實驗
4.4.2 TREC07P上的tftS3F實驗
4.4.3 CSMS-P上的bogo實驗
4.4.4 CSMS-P上的tftS3F實驗
本章小結(jié)
第5章 面向垃圾信息過濾的時空高效文本分類
5.1 基于Token頻率索引的文本分類算法
5.1.1 統(tǒng)計原理
5.1.2 Token頻率索引
5.1.3 算法描述
5.2 算法復(fù)雜度分析
5.2.1 時間復(fù)雜度
5.2.2 空間復(fù)雜度
5.3 基于多類別Token頻率索引的文本分類算法
5.3.1 Token頻率統(tǒng)計特性
5.3.2 多類別Token頻率索引
5.3.3 算法描述
5.4 實驗結(jié)果
5.4.1 TREC07P上的ffibtc實驗
5.4.2 CSMS-P上的ffibtc實驗
5.4.3 TanCorp-12上的mtfibtc實驗
本章小結(jié)
第6章 面向垃圾信息過濾的主動學習文本分類
6.1 問題描述與框架
6.1.1 形式化描述
6.1.2 主動多域?qū)W習框架
6.2 主動學習策略
6.2.1 時序優(yōu)先主動學習策略
6.2.2 先驗區(qū)間主動學習策略
6.2.3 基于方差的非確定采樣主動學習策略
6.3 實驗結(jié)果
6.3.1 TREC07P上的10000反饋tfibtc.cs5實驗
6.3.2 TREC07P上的1000反饋ffibtc.cs5實驗
6.3.3 CSMS-P上的10000反饋tfibtc.cs5實驗
6.3.4 CSMS-P上的1000反饋tfibtc.cs5實驗
本章小結(jié)
第7章 面向大數(shù)據(jù)的高效能垃圾文本過濾系統(tǒng)
7.1 研究結(jié)論
7.1.1 多域?qū)W習框架的有效性
7.1.2 NFD和ASFD分割策略的有效性
7.1.3 復(fù)合權(quán)組合策略的最優(yōu)性
7.1.4 基于TFI的文本分類算法的時空高效性
7.1.5 基于方差的非確定采樣主動學習策略的有效性
7.2 高效能垃圾文本過濾系統(tǒng)設(shè)計
7.2.1 多Cluster垃圾文本過濾系統(tǒng)
7.2.2 多語種大數(shù)據(jù)深度輿情系統(tǒng)
7.2.3 個性化垃圾郵件過濾系統(tǒng)
本章小結(jié)
參考文獻

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號