注冊(cè) | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁(yè)出版圖書科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)家庭與辦公軟件大數(shù)據(jù)清洗技術(shù)

大數(shù)據(jù)清洗技術(shù)

大數(shù)據(jù)清洗技術(shù)

定 價(jià):¥88.00

作 者: 王宏志 著
出版社: 哈爾濱工業(yè)大學(xué)出版社
叢編項(xiàng): 國(guó)之重器出版工程
標(biāo) 簽: 暫缺

ISBN: 9787560377537 出版時(shí)間: 2020-01-01 包裝: 平裝
開(kāi)本: 16開(kāi) 頁(yè)數(shù): 308 字?jǐn)?shù):  

內(nèi)容簡(jiǎn)介

  本書主要介紹了大數(shù)據(jù)清洗方面的研究成果。全書共分7章,重點(diǎn)面向大數(shù)據(jù)清洗中計(jì)算困難、錯(cuò)誤混雜、缺少知識(shí)等難題,針對(duì)實(shí)體識(shí)別、真值發(fā)現(xiàn)、缺失值填充、不一致檢測(cè)與修復(fù)等問(wèn)題提出了相應(yīng)的技術(shù)和算法,并在第7章提出了多數(shù)據(jù)質(zhì)量問(wèn)題綜合清洗與優(yōu)化技術(shù)。本書可作為高等院校和科研機(jī)構(gòu)大數(shù)據(jù)、數(shù)據(jù)質(zhì)量管理、數(shù)據(jù)治理等方面的教學(xué)和科研參考書。

作者簡(jiǎn)介

  王宏志,哈爾濱工業(yè)大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院教授、博士生導(dǎo)師,青年龍江學(xué)者。其研究方向?yàn)榇髷?shù)據(jù)、數(shù)據(jù)科學(xué)、數(shù)據(jù)管理與分析。在VLDB, SIGMOD等國(guó)內(nèi)外重要會(huì)議和期刊發(fā)表學(xué)術(shù)論文200余篇,出版學(xué)術(shù)專著兩本,先后主持國(guó)家自然科學(xué)基金重點(diǎn)項(xiàng)目等10余個(gè)項(xiàng)目。獲得黑龍江省自然科學(xué)一等獎(jiǎng)、教育部高等學(xué)??萍歼M(jìn)步一等獎(jiǎng)、黑龍江省青年科技獎(jiǎng)等獎(jiǎng)勵(lì)和榮譽(yù)。任ACM SIGMOD中國(guó)秘書長(zhǎng)、中國(guó)數(shù)據(jù)庫(kù)專業(yè)委員會(huì)常務(wù)委員、ACM數(shù)據(jù)科學(xué)學(xué)科標(biāo)準(zhǔn)編寫組專家。

圖書目錄

第 1章 緒論 1
1.1 大數(shù)據(jù)的定義及其應(yīng)用 2
1.2 數(shù)據(jù)質(zhì)量問(wèn)題 4
1.3 大數(shù)據(jù)的質(zhì)量問(wèn)題與挑戰(zhàn) 12
1.4 數(shù)據(jù)清洗研究進(jìn)展 13
1.5 本書的內(nèi)容 16
本章參考文獻(xiàn) 17
第 2章 大數(shù)據(jù)處理技術(shù)概述 21
2.1 大數(shù)據(jù)并行計(jì)算平臺(tái) 22
2.2 眾包技術(shù) 26
本章參考文獻(xiàn) 29
第3章 實(shí)體識(shí)別 30
3.1 實(shí)體識(shí)別概述 31
3.2 串行實(shí)體識(shí)別算法 35
3.3 并行實(shí)體識(shí)別算法 45
3.4 增量實(shí)體識(shí)別算法 77
3.5 基于眾包的實(shí)體識(shí)別 94
本章參考文獻(xiàn) 100
第4章 真值發(fā)現(xiàn) 107
4.1 真值發(fā)現(xiàn)算法概述 108
4.2 并行真值發(fā)現(xiàn)算法 109
4.3 增量真值發(fā)現(xiàn)算法 127
4.4 基于眾包的真值發(fā)現(xiàn) 140
本章參考文獻(xiàn) 144
第5章 缺失值填充 145
5.1 缺失值填充算法概述 146
5.2 基于貝葉斯網(wǎng)絡(luò)的串行缺失值填充算法 150
5.3 實(shí)驗(yàn)結(jié)果及分析 175
5.4 并行缺失值填充算法 182
5.5 基于眾包的缺失值填充算法 196
本章參考文獻(xiàn) 202
第6章 不一致數(shù)據(jù)檢測(cè)與修復(fù) 205
6.1 不一致數(shù)據(jù)檢測(cè)與修復(fù)概述 206
6.2 并行不一致數(shù)據(jù)檢測(cè)與修復(fù)算法 211
6.3 基于眾包的不一致數(shù)據(jù)檢測(cè)與修復(fù)算法 225
6.4 掃描數(shù)據(jù)一次的大數(shù)據(jù)不一致檢測(cè)算法 229
本章參考文獻(xiàn) 244
第7章 多數(shù)據(jù)質(zhì)量問(wèn)題綜合清洗與優(yōu)化 249
7.1 數(shù)據(jù)質(zhì)量維度的關(guān)聯(lián) 250
7.2 基于任務(wù)合并的并行數(shù)據(jù)清洗優(yōu)化 274
7.3 綜合大數(shù)據(jù)清洗系統(tǒng) 293
本章參考文獻(xiàn) 303
名詞索引 307

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)