注冊(cè) | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁出版圖書科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)家庭與辦公軟件互聯(lián)網(wǎng)大數(shù)據(jù)處理技術(shù)與應(yīng)用

互聯(lián)網(wǎng)大數(shù)據(jù)處理技術(shù)與應(yīng)用

互聯(lián)網(wǎng)大數(shù)據(jù)處理技術(shù)與應(yīng)用

定 價(jià):¥49.00

作 者: 曾劍平 著
出版社: 清華大學(xué)出版社
叢編項(xiàng): 大數(shù)據(jù)技術(shù)與應(yīng)用專業(yè)規(guī)劃教材
標(biāo) 簽: 計(jì)算機(jī)/網(wǎng)絡(luò) 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘 數(shù)據(jù)庫

ISBN: 9787302463719 出版時(shí)間: 2017-03-01 包裝: 平裝
開本: 16開 頁數(shù): 290 字?jǐn)?shù):  

內(nèi)容簡(jiǎn)介

  本書內(nèi)容分為三個(gè)部分,第一部分為互聯(lián)網(wǎng)大數(shù)據(jù)的概述;第二部分為互聯(lián)網(wǎng)大數(shù)據(jù)的獲取與存儲(chǔ),包括了靜態(tài)或動(dòng)態(tài)WEB頁面內(nèi)容獲取技術(shù)、結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)、常見的開源系統(tǒng)等;第二部分為處理與分析技術(shù),包括了文本數(shù)據(jù)預(yù)處理、數(shù)據(jù)內(nèi)容的語義分析技術(shù)、文本內(nèi)容分類技術(shù)、聚類分析、大數(shù)據(jù)中的隱私保護(hù)、大數(shù)據(jù)可視化等內(nèi)容;第三部分為綜合應(yīng)用。

作者簡(jiǎn)介

暫缺《互聯(lián)網(wǎng)大數(shù)據(jù)處理技術(shù)與應(yīng)用》作者簡(jiǎn)介

圖書目錄

第1部分概述
第1章互聯(lián)網(wǎng)大數(shù)據(jù)
1.1從IT走向DT
1.1.1信息化與Web時(shí)代
1.1.2大數(shù)據(jù)時(shí)代
1.2互聯(lián)網(wǎng)大數(shù)據(jù)及其特點(diǎn)
1.3互聯(lián)網(wǎng)大數(shù)據(jù)處理的相關(guān)技術(shù)
1.3.1技術(shù)體系構(gòu)成
1.3.2相關(guān)技術(shù)研究
1.4互聯(lián)網(wǎng)大數(shù)據(jù)技術(shù)的發(fā)展
1.5本書內(nèi)容安排
思考題
第2部分互聯(lián)網(wǎng)大數(shù)據(jù)的獲取
第2章Web頁面數(shù)據(jù)獲取
2.1網(wǎng)絡(luò)爬蟲技術(shù)概述
2.2爬蟲的內(nèi)核技術(shù)
2.2.1Web服務(wù)器連接器
2.2.2頁面解析器
2.2.3爬行策略搜索
2.3主題爬蟲技術(shù)
2.3.1主題爬蟲模塊構(gòu)成
2.3.2主題定義
2.3.3鏈接相關(guān)度估算
2.3.4內(nèi)容相關(guān)度計(jì)算
2.4動(dòng)態(tài)Web頁面獲取技術(shù)
2.4.1動(dòng)態(tài)頁面的分類
2.4.2動(dòng)態(tài)頁面的獲取方法
2.4.3模擬瀏覽器的實(shí)現(xiàn)
2.4.4基于腳本解析的實(shí)現(xiàn)
2.5微博信息內(nèi)容獲取技術(shù)
2.6DeepWeb數(shù)據(jù)獲取技術(shù)
2.6.1相關(guān)概念
2.6.2DeepWeb數(shù)據(jù)獲取方法
2.7反爬蟲技術(shù)與反反爬蟲技術(shù)
2.7.1反爬蟲技術(shù)
2.7.2反反爬蟲技術(shù)
2.7.3爬蟲技術(shù)的展望
思考題
第3章互聯(lián)網(wǎng)大數(shù)據(jù)的提取技術(shù)
3.1Web頁面內(nèi)容提取技術(shù)
3.1.1Web頁面內(nèi)容提取的基本任務(wù)
3.1.2Web頁面解析方法概述
3.1.3基于HTMLParser的頁面解析
3.1.4基于Jsoup的頁面解析
3.2基于統(tǒng)計(jì)的Web信息抽取方法
3.3其他互聯(lián)網(wǎng)大數(shù)據(jù)的提取
3.4阿里云公眾趨勢(shì)分析中的信息提取應(yīng)用
3.5互聯(lián)網(wǎng)大數(shù)據(jù)提取的挑戰(zhàn)性問題
思考題
第3部分互聯(lián)網(wǎng)大數(shù)據(jù)的結(jié)構(gòu)化處理與分析技術(shù)
第4章結(jié)構(gòu)化處理技術(shù)
4.1互聯(lián)網(wǎng)大數(shù)據(jù)中的文本信息特征
4.2中文文本的詞匯切分
4.2.1詞匯切分的一般流程
4.2.2基于詞典的分詞方法
4.2.3基于統(tǒng)計(jì)的分詞方法
4.2.4歧義處理
4.3詞性識(shí)別
4.3.1詞性標(biāo)注的難點(diǎn)
4.3.2基于規(guī)則的方法
4.3.3基于統(tǒng)計(jì)的方法
4.4新詞識(shí)別
4.5停用詞的處理
4.6英文中的詞形規(guī)范化
4.7開源工具與平臺(tái)
4.7.1開源工具及應(yīng)用
4.7.2阿里分詞器
思考題
第5章大數(shù)據(jù)語義分析技術(shù)
5.1語義及語義分析
5.2詞匯級(jí)別的語義技術(shù)
5.2.1詞匯的語義關(guān)系
5.2.2知識(shí)庫資源
5.2.3詞向量
5.2.4詞匯的語義相關(guān)度計(jì)算
5.3句子級(jí)別的語義分析技術(shù)
5.4命名實(shí)體識(shí)別技術(shù)
5.4.1命名實(shí)體識(shí)別的研究?jī)?nèi)容
5.4.2人名識(shí)別方法
5.4.3地名識(shí)別方法
5.4.4時(shí)間識(shí)別方法
5.4.5基于機(jī)器學(xué)習(xí)的命名實(shí)體識(shí)別
5.5大數(shù)據(jù)語義分析技術(shù)的發(fā)展
思考題
第6章大數(shù)據(jù)分析的模型與算法
6.1大數(shù)據(jù)分析技術(shù)概述
6.2特征選擇與特征提取
6.2.1特征選擇
6.2.2特征提取
6.2.3基于深度學(xué)習(xí)的特征提取
6.3文本的向量空間模型
6.3.1向量空間模型的維
6.3.2向量空間模型的坐標(biāo)
6.3.3向量空間模型中的運(yùn)算
6.3.4文本型數(shù)據(jù)的邏輯存儲(chǔ)結(jié)構(gòu)
6.4文本的概率模型
6.4.1Ngram模型
6.4.2概率主題模型
6.5分類技術(shù)
6.5.1分類技術(shù)概要
6.5.2經(jīng)典的分類技術(shù)
6.6聚類技術(shù)
6.7回歸分析
6.7.1回歸分析的基本思路
6.7.2線性回歸
6.7.3加權(quán)線性回歸
6.7.4邏輯回歸
6.8大數(shù)據(jù)分析算法的并行化
6.8.1并行化框架
6.8.2矩陣相乘的并行化
6.8.3經(jīng)典分析算法的并行化
6.9基于阿里云大數(shù)據(jù)平臺(tái)的數(shù)據(jù)挖掘?qū)嵗?br />6.9.1網(wǎng)絡(luò)數(shù)據(jù)流量分析
6.9.2網(wǎng)絡(luò)論壇話題分析
思考題
第7章大數(shù)據(jù)隱私保護(hù)
7.1隱私保護(hù)概述
7.2隱私保護(hù)模型
7.2.1隱私泄露場(chǎng)景
7.2.2k匿名及其演化
7.2.31多元化
7.3位置隱私保護(hù)
7.4社會(huì)網(wǎng)絡(luò)隱私保護(hù)
思考題
第8章大數(shù)據(jù)技術(shù)平臺(tái)
8.1概述
8.2大數(shù)據(jù)技術(shù)平臺(tái)的分類
8.3大數(shù)據(jù)存儲(chǔ)平臺(tái)
8.3.1大數(shù)據(jù)存儲(chǔ)需要考慮的因素
8.3.2HBase
8.3.3MongoDB
8.3.4Neo4j
8.3.5云數(shù)據(jù)庫
8.3.6其他
8.4大數(shù)據(jù)可視化
8.4.1大數(shù)據(jù)可視化的挑戰(zhàn)
8.4.2大數(shù)據(jù)可視化方法
8.4.3大數(shù)據(jù)可視化工具
8.5Hadoop
8.5.1Hadoop概述
8.5.2Hadoop生態(tài)圈及關(guān)鍵技術(shù)
8.5.3Hadoop的版本
8.6Spark
8.6.1Spark的概述
8.6.2Spark的生態(tài)圈
8.6.3SparkSQL
8.6.4Spark Streaming
8.6.5Spark機(jī)器學(xué)習(xí)
8.7阿里云大數(shù)據(jù)平臺(tái)
8.7.1飛天系統(tǒng)
8.7.2大數(shù)據(jù)集成平臺(tái)
思考題
第4部分綜 合 應(yīng) 用
第9章基于阿里云大數(shù)據(jù)技術(shù)的個(gè)性化新聞推薦
9.1目的與任務(wù)
9.2系統(tǒng)架構(gòu)
9.3存儲(chǔ)設(shè)計(jì)
9.3.1RDS
9.3.2OSS
9.3.3OTS
9.3.4MaxCompute
9.4軟件架構(gòu)
9.4.1ECS
9.4.2爬蟲
9.4.3模型訓(xùn)練
9.4.4分類過程
9.4.5開源代碼
9.5阿里云大數(shù)據(jù)的應(yīng)用開發(fā)
9.5.1開發(fā)環(huán)境
9.5.2部署
9.5.3運(yùn)行與測(cè)試
思考題
參考文獻(xiàn)

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)