注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當前位置: 首頁出版圖書科學技術計算機/網(wǎng)絡數(shù)據(jù)庫數(shù)據(jù)庫挖掘/數(shù)據(jù)倉庫海量數(shù)據(jù)挖掘技術研究

海量數(shù)據(jù)挖掘技術研究

海量數(shù)據(jù)挖掘技術研究

定 價:¥28.00

作 者: 劉君強 著
出版社: 浙江工商大學出版社
叢編項:
標 簽: 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘

ISBN: 9787811402582 出版時間: 2010-12-01 包裝: 平裝
開本: 16開 頁數(shù): 176 字數(shù):  

內(nèi)容簡介

  隨著信息技術特別是網(wǎng)絡技術的飛速發(fā)展,人們收集、存貯、傳輸數(shù)據(jù)的能力不斷提高。數(shù)據(jù)出現(xiàn)了爆炸性增長,與此形成鮮明對比的是:對決策有價值的知識卻非常匱乏。知識發(fā)現(xiàn)與數(shù)據(jù)挖掘技術正是在這一背景下誕生的一門新學科。數(shù)據(jù)挖掘要在實際應用中發(fā)揮作用,高性能挖掘算法和數(shù)據(jù)挖掘軟件平臺是重要的技術基礎。本書以數(shù)據(jù)挖掘最基本問題、頻繁模式與關聯(lián)規(guī)則挖掘為切入點,研究高時間效率、高空間可伸縮性的挖掘算法和分布,異質、海量數(shù)據(jù)的協(xié)同挖掘軟件模型,并探討了數(shù)據(jù)挖掘過程中的隱私保護問題。本書首先發(fā)現(xiàn)了基于樹表示形式的虛擬投影方法,用于按深度優(yōu)先挖掘密集型數(shù)據(jù)集;提出了稀疏型數(shù)據(jù)集表示形式及非過濾投影方法;進_步提出了基于伺機投影的思想,設計并實現(xiàn)了基于伺機投影的全新算法OpportuneProject,對比實驗表明,該算法挖掘各種規(guī)模與特性數(shù)據(jù)庫的效率與可伸縮性都是最佳的。由于其內(nèi)在的計算復雜性,挖掘密集型數(shù)據(jù)的頻繁模式完全集非常困難,解決辦法是挖掘頻繁模式的閉合集或最大集。本書提出了一種組織閉合模式集的復合型頻繁模式樹,支持搜索空間的高效剪裁,有效地平衡了樹生成與樹剪裁的代價,實現(xiàn)了閉合模式集挖掘算法CROP,其效率與可伸縮性大大優(yōu)于CHARM等算法。在此基礎上,本書提出了閉合性剪裁和一般性剪裁相結合,并能適時前窺的最大模式挖掘算法MOP,大大優(yōu)于MaxMiner和MAFIA等算法。本書進一步提出了逆字典樹剪裁、層次標記等新技術,以及根據(jù)信息熵自動生成與人機交互相結合來確定數(shù)值型與類別型屬性概念層次的新方法,不僅支持逐層挖掘,而且能進行跨層挖掘,并實現(xiàn)了多支持率剪裁,將所提出的挖掘頻繁模式完全集、閉合集的新算法推廣到無冗余關聯(lián)規(guī)則、多維多層多數(shù)據(jù)類型關聯(lián)規(guī)則、多支持率分類規(guī)則的挖掘問題。本書在所取得的數(shù)據(jù)挖掘算法研究成果基礎上,對數(shù)據(jù)挖掘軟件模型作了深入研究。首先提出了數(shù)據(jù)挖掘作業(yè)描述語言MDL和挖掘任務模型腳本語言,設計并實現(xiàn)了一個集成數(shù)據(jù)倉庫管理功能、挖掘引擎具有一定智能、體系結構可擴展的數(shù)據(jù)挖掘工具。本書在研究分布式問題求解技術和分析移動型智能代理技術的基礎上,提出了從網(wǎng)絡海量數(shù)據(jù)中發(fā)現(xiàn)有用知識的協(xié)同挖掘模型。首先定義了黑板和知識源的描述語言以及知識交換格式,設計和實現(xiàn)了支持互聯(lián)網(wǎng)上分布式問題求解的黑板系統(tǒng),提出了分布式網(wǎng)絡海量數(shù)據(jù)挖掘系統(tǒng)DistributedMiner。接著在分析移動式智能代理技術的基礎上,設計了一種移動式智能代理服務器,通過重構基礎結構,提出了移動式網(wǎng)絡海量數(shù)據(jù)挖掘系統(tǒng)模型MobileMiner。最后,本書研究了挖掘事務型數(shù)據(jù)過程中的隱私保護問題。由于事務型數(shù)據(jù)的極度稀疏性,任何單一技術難以有效發(fā)揮作用,或是導致過高的信息損失,或是處理結果難以解釋,或是技術自身性能有缺陷。本書提出了集成概化技術與消隱技術來降低信息損失。然而,從技術上講,集成并非易事。本書提出了一種新穎的方法來解決效率與可伸縮性的問題。采用此方法處理過的數(shù)據(jù)能夠應用標準的數(shù)據(jù)挖掘工具進行分析。

作者簡介

  劉君強,男,教授,浙江省杭州市人。畢業(yè)于加拿大Simon Fraser大學獲哲學博士學位,浙江大學獲工學博士學位和管理學碩士學位,北京大學獲理學學士學位。以第一作者在ACM SIGKDD、IEEE ICDE、IEEE ICDM、PAKDD、《電子學報》、《計算機學報》、《軟件學報》、《計算機研究與發(fā)展》、《中國圖形圖象學報》、《系統(tǒng)工程理論與實踐》等發(fā)表多篇論文,承擔省部級研究課題多項。研究興趣涉及數(shù)據(jù)挖掘、網(wǎng)絡信息安全、隱私保護、管理信息系統(tǒng)、軟件工程。

圖書目錄

前言
摘要
ABSTRACT
第一章 概論
第一節(jié) 數(shù)據(jù)挖掘技術的興起
第二節(jié) 數(shù)據(jù)挖掘的主要問題
一、數(shù)據(jù)挖掘任務與知識類型
二、數(shù)據(jù)挖掘的過程
三、數(shù)據(jù)挖掘的對象
四、數(shù)據(jù)挖掘的應用
五、數(shù)據(jù)挖掘面臨的挑戰(zhàn)
第三節(jié) 本書的工作
第四節(jié) 本書的結構
第二章 數(shù)據(jù)挖掘技術綜述
第一節(jié) 頻繁模式與關聯(lián)規(guī)則挖掘
一、單層單維布爾型關聯(lián)規(guī)則挖掘與Apriori算法
二、對Apriori算法的改進
三、頻繁模式與關聯(lián)規(guī)則挖掘研究的新發(fā)展
第二節(jié) 閉合模式挖掘與A-Close算法
一、閉合模式挖掘與A-Close算法
二、其他閉合模式挖掘算法
第三節(jié) 最大模式挖掘與Pincer-Search算法
一、最大模式挖掘與Pincer-Search算法
二、其他最大模式挖掘算法
第四節(jié) 多層多維關聯(lián)規(guī)則挖掘
一、多層關聯(lián)規(guī)則挖掘問題
二、多維關聯(lián)規(guī)則挖掘問題
第五節(jié) 對關聯(lián)規(guī)則挖掘的其他擴展
一、順序模式挖掘
二、基于約束的關聯(lián)規(guī)則挖掘
三、并行挖掘問題
四、復雜檢索問題
五、關聯(lián)規(guī)則與相關性
六、其他問題
第六節(jié) 數(shù)據(jù)挖掘軟件系統(tǒng)
第七節(jié) 保護隱私的數(shù)據(jù)挖掘技術
一、全局概化技術
二、全消隱技術
三、局部概化技術
四、帶寬矩陣方法
五、其他相關工作
第八節(jié) 數(shù)據(jù)挖掘技術的應用
一、數(shù)據(jù)挖掘的應用領域
二、企業(yè)營銷應用數(shù)據(jù)挖掘技術
第三章 伺機投影策略的挖掘算法
第一節(jié) 引言
第二節(jié) 問題的描述
第三節(jié) 頻繁模式樹的構造
第四節(jié) 模式支持集的表示與投影
一、稀疏型PTS的基于數(shù)組表示及其投影
二、密集型PTS的基于樹表示及虛擬投影
第五節(jié) 伺機投影策略與OpponuneProject算法
一、伺機投影的啟發(fā)式原則
二、估計TVLA和TTF的大小
三、OpponuneProject算法
第六節(jié) 性能評價
一、數(shù)據(jù)集及其特性
二、基本實驗結果
三、可伸縮性試驗
第七節(jié) 小結
第四章 閉合模式與最大模式挖掘
第一節(jié) 引言
第二節(jié) 問題的描述
第三節(jié) 復合型頻繁模式樹及其生成
一、復合型頻繁模式樹CFIST
二、CFIST結點的合并
三、CFIST的生成算法
第四節(jié) CFIST的剪裁與包含關系的檢查
一、高效的CFIST局部剪裁
二、分枝包容關系的快速檢查
三、快速雜湊法
第五節(jié) CROP:挖掘閉合模式的高性能算法
一、平衡CFIST生成與剪裁效率
二、CROP算法
第六節(jié) CROP性能測評
一、CROP與CHARM效率對比
二、CROP與CLOSET效率對比
三、CROP與MAFIA效率對比
四、可伸縮性實驗
第七節(jié) 挖掘最大頻繁模式的新算法MOP
一、最大頻繁模式集及其剪裁
二、MOP算法
三、MOP的性能評價
第八節(jié) 小結
第五章 多維多層關聯(lián)規(guī)則、分類規(guī)則與空間關聯(lián)規(guī)則
第一節(jié) 關聯(lián)規(guī)則與無冗余關聯(lián)規(guī)則
第二節(jié) 多層頻繁模式挖掘
一、問題的描述
二、逆字典樹與多層頻繁模式
三、層次標記技術與模式支持集
四、高性能多層頻繁模式挖掘算法
五、性能測評
第三節(jié) 多維多層多數(shù)據(jù)類型關聯(lián)規(guī)則挖掘
一、多維多層多數(shù)據(jù)類型關聯(lián)規(guī)則挖掘問題
二、MDML-PP算法
三、性能測評
第四節(jié) 挖掘多支持率分類規(guī)則
一、分類規(guī)則挖掘與TTF擴展
二、多支持率剪裁
三、分類規(guī)則及其單階段挖掘算法
四、對比實驗
第五節(jié) 空間關聯(lián)規(guī)則的挖掘
一、空間關聯(lián)規(guī)則
二、兩階段挖掘策略
三、基于輔存分而治之的方法
第六節(jié) 提高挖掘算法可伸縮性的技術
一、海量數(shù)據(jù)挖掘策略
二、緩沖管理技術
三、挖掘算法改進及其性能分析
第七節(jié) 小結
第六章 智能型數(shù)據(jù)挖掘工具設計與實現(xiàn)
第一節(jié) 引言
第二節(jié) 數(shù)據(jù)倉庫及其管理
一、數(shù)據(jù)倉庫模型與OLAP
二、數(shù)據(jù)倉庫的框架描述
三、數(shù)據(jù)倉庫管理器
第三節(jié) 數(shù)據(jù)挖掘任務的描述、管理及執(zhí)行機制
一、數(shù)據(jù)挖掘作業(yè)Job的描述
二、挖掘任務模型Scenario的定義
三、挖掘任務模型的管理與執(zhí)行
第四節(jié) 智能型數(shù)據(jù)挖掘引擎
一、算法描述庫與算法模塊
二、知識庫與引擎管理器
第五節(jié) SmartMiner體系結構
第六節(jié) 關鍵技術與SmartMiner原型實現(xiàn)
第七節(jié) 小結
第七章 網(wǎng)絡海量數(shù)據(jù)協(xié)同挖掘
第一節(jié) 引言
第二節(jié) 分布式黑板控制
一、問題求解的黑板系統(tǒng)
二、分布式問題求解與黑板控制
第三節(jié) 形式化描述語言
一、黑板的描述
二、知識源的描述
三、知識交換格式
第四節(jié) 實現(xiàn)分布式黑板控制的一般智能代理
一、智能代理GA的結構設計
二、智能代理軟件DBC-MA的實現(xiàn)
第五節(jié) 分布式數(shù)據(jù)挖掘系統(tǒng)DistributedMiner
一、分布式知識發(fā)現(xiàn)功能
二、DistributedMiner的黑板設計
三、挖掘平臺體系結構
四、DistributedMiner的實現(xiàn)與應用
第六節(jié) 從分布計算到移動計算
一、什么是智能代理
二、智能代理的特征
三、移動型智能代理
四、典型mobile agent系統(tǒng)
第七節(jié) 移動式數(shù)據(jù)挖掘系統(tǒng)模型
一、移動型智能代理服務器
二、DBC-MA變型
三、MobileMiner工作流程
第八節(jié) 小結
第八章 挖掘事務型數(shù)據(jù)過程中的隱私保護
第一節(jié) 引言
第二節(jié) 隱私保護與匿名化模型
第三節(jié) 集成概化與消隱技術的基本方法
一、割集柵格的自頂向下貪婪法搜索
二、為割集尋找一個好的消隱方案
三、算法描述
第四節(jié) 解決效率與可伸縮性瓶頸的關鍵技術
一、最小隱私威脅
二、多輪次求解策略
第五節(jié) 信息損失與性能的實驗評估
一、信息損失評估
二、效率評估
三、可伸縮性評估
第六節(jié) 小結
參考文獻
后記

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號