注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁出版圖書科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)家庭與辦公軟件大數(shù)據(jù)集成

大數(shù)據(jù)集成

大數(shù)據(jù)集成

定 價(jià):¥79.00

作 者: 董欣 著;王秋月 譯
出版社: 機(jī)械工業(yè)出版社
叢編項(xiàng): 大數(shù)據(jù)管理叢書
標(biāo) 簽: 計(jì)算機(jī)?網(wǎng)絡(luò) 計(jì)算機(jī)期刊雜志

ISBN: 9787111559863 出版時(shí)間: 2017-05-01 包裝: 平裝
開本: 16開 頁數(shù): 186 字?jǐn)?shù):  

內(nèi)容簡介

  本書作者在多年研究傳統(tǒng)數(shù)據(jù)集成的基礎(chǔ)上,著重分析了大數(shù)據(jù)背景下的大數(shù)據(jù)集成。和傳統(tǒng)的數(shù)據(jù)集成相比,大數(shù)據(jù)集成具有一些新的挑戰(zhàn),例如數(shù)據(jù)和數(shù)據(jù)源的海量性、數(shù)據(jù)的多樣性和數(shù)據(jù)的動(dòng)態(tài)性等。本書共分6章,包括大數(shù)據(jù)集成的挑戰(zhàn)和機(jī)遇、模式對齊、記錄鏈接、數(shù)據(jù)融合、出現(xiàn)的新問題和結(jié)論,系統(tǒng)地討論了解決大數(shù)據(jù)集成中關(guān)鍵問題的一些重要研究成果和方法,對大數(shù)據(jù)集成的研究者和實(shí)踐者都很有幫助。另外本書也可以作為學(xué)生學(xué)習(xí)該領(lǐng)域的入門讀物。

作者簡介

  Xin Luna Dong(董欣), 2013年加入谷歌公司擔(dān)任高級研究員,研究興趣包括數(shù)據(jù)集成、數(shù)據(jù)清洗和知識(shí)管理。在加入谷歌之前,她是AT&T實(shí)驗(yàn)室的研究員。董欣博士碩士畢業(yè)于北京大學(xué),本科畢業(yè)于南開大學(xué)。Divesh Srivastava AT&T實(shí)驗(yàn)室數(shù)據(jù)庫領(lǐng)域首席科學(xué)家.

圖書目錄


叢書前言
譯者序
前言
第1章 大數(shù)據(jù)集成的挑戰(zhàn)和機(jī)遇1
1.1 傳統(tǒng)數(shù)據(jù)集成2
1.1.1 航班示例:數(shù)據(jù)源2
1.1.2 航班示例:數(shù)據(jù)集成7
1.1.3 數(shù)據(jù)集成:體系結(jié)構(gòu)和三個(gè)主要步驟10
1.2 大數(shù)據(jù)集成:挑戰(zhàn)12
1.2.1 “V”維度13
1.2.2 案例研究:深網(wǎng)數(shù)據(jù)量15
1.2.3 案例研究:抽取的領(lǐng)域數(shù)據(jù)18
1.2.4 案例研究:深網(wǎng)數(shù)據(jù)的質(zhì)量22
1.2.5 案例研究:淺網(wǎng)結(jié)構(gòu)化數(shù)據(jù)25
1.2.6 案例研究:抽取的知識(shí)三元組28
1.3 大數(shù)據(jù)集成:機(jī)遇30
1.3.1 數(shù)據(jù)冗余性31
1.3.2 長數(shù)據(jù)32
1.3.3 大數(shù)據(jù)平臺(tái)33
1.4 章節(jié)安排33
第2章 模式對齊34
2.1 傳統(tǒng)模式對齊:快速導(dǎo)覽35
2.1.1 中間模式35
2.1.2 屬性匹配36
2.1.3 模式映射37
2.1.4 查詢問答38
2.2 應(yīng)對多樣性和高速性的挑戰(zhàn)39
2.2.1 概率模式對齊39
2.2.2 按需集成用戶反饋52
2.3 應(yīng)對多樣性和海量性的挑戰(zhàn)54
2.3.1 集成深網(wǎng)數(shù)據(jù)55
2.3.2 集成Web表格59
第3章 記錄鏈接68
3.1 傳統(tǒng)記錄鏈接:快速導(dǎo)覽69
3.1.1 兩兩匹配71
3.1.2 聚類72
3.1.3 分塊74
3.2 應(yīng)對海量性挑戰(zhàn)76
3.2.1 使用MapReduce并行分塊77
3.2.2 meta-blocking:修剪兩兩匹配83
3.3 應(yīng)對高速性挑戰(zhàn)88
3.4 應(yīng)對多樣性挑戰(zhàn)95
3.5 應(yīng)對真實(shí)性挑戰(zhàn)100
3.5.1 時(shí)態(tài)記錄鏈接100
3.5.2 具有唯一性約束的記錄鏈接107
第4章 大數(shù)據(jù)集成:數(shù)據(jù)融合113
4.1 傳統(tǒng)數(shù)據(jù)融合:快速導(dǎo)覽114
4.2 應(yīng)對真實(shí)性挑戰(zhàn)116
4.2.1 數(shù)據(jù)源的準(zhǔn)確度117
4.2.2 值為真的概率118
4.2.3 數(shù)據(jù)源之間的復(fù)制關(guān)系121
4.2.4 端到端的解決方案128
4.2.5 擴(kuò)展性和適應(yīng)性131
4.3 應(yīng)對海量性挑戰(zhàn)134
4.3.1 基于MapReduce框架做離線融合135
4.3.2 在線數(shù)據(jù)融合136
4.4 應(yīng)對高速性挑戰(zhàn)142
4.5 應(yīng)對多樣性挑戰(zhàn)146
第5章 大數(shù)據(jù)集成:出現(xiàn)的新問題149
5.1 眾包的角色149
5.1.1 利用傳遞關(guān)系150
5.1.2 眾包端到端的工作流155
5.1.3 未來的工作158
5.2 數(shù)據(jù)源選擇158
5.2.1 靜態(tài)數(shù)據(jù)源160
5.2.2 動(dòng)態(tài)數(shù)據(jù)源162
5.2.3 未來的工作166
5.3 數(shù)據(jù)源分析166
5.3.1 Bellman系統(tǒng)167
5.3.2 概述數(shù)據(jù)源170
5.3.3 未來的工作174
第6章 結(jié)論175
參考文獻(xiàn)177
索引184

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號