本書從文本數據具有的特點以及文本挖掘具有的價值和意義開始,講解了文本數據的獲取和預處理的方法(包括中英文的文本預處理),給出了文本向量化表示方法。本書從統(tǒng)計機器學習方法和深度神經網絡兩個角度,介紹了包括向量空間模型以及詞、句子和文檔級的分布式表示;針對文本分類問題,介紹了傳統(tǒng)文本分類方法、深度神經網絡分類方法(多層感知機文本分類、卷積神經網絡文本分類和循環(huán)神經網絡文本分類)和文本分類的評價指標;針對文本聚類,包括文檔相似度度量方法,介紹了基于劃分、層次、密度的基礎性聚類算法,以及譜聚類等高級聚類方法和文本聚類的評價指標;在理論學習的基礎上,介紹了文本主題的挖掘技術,包括潛在語義分析、非負矩陣分解、概率潛在語義分析和潛在狄利克雷分布等;最后從文本內容、主題和基于時間信息三個方面介紹了文本數據可視化的方法與工具。本書不僅對文本挖掘的相關理論模型進行了詳細的推理和全面介紹,而且在每個算法模型之后都會給出實例,在理論與實踐之間做了很好的平衡與銜接。