實體識別在數據質量管理中起著重要作用,它是數據質量管理的重要研究方向。實體識別的目的是識別出數據集中描述同一真實世界實體的元組。實體識別的結果可以在數據質量管理的其他階段(如數據清洗階段和數據質量評估階段)得到廣泛應用。在一個或多個數據庫中,同一個現實世界實體可能具有多種描述方式,這一問題在各種應用領域的信息系統(tǒng)中普遍存在。本書以信息集成和互聯網搜索為背景,介紹對數據質量管理中實體識別的關鍵技術的 研究成果,以 化實體識別結果 度、 小化時間復雜性為目標,研究基于圖模型的實體識別、基于規(guī)則的實體識別、基于距離度量的實體識別和對冗余元組中實體描述的沖突評估。本書可作為科研機構數據質量管理方面的參考用書。