結構化數據是指在固定字段集合中存放的數據,如關系型數據和電子表格數據,屬于傳統(tǒng)的數據技術。非結構化數據是指難以用數據庫二維邏輯表表現的數據,包括文本數據以及未標記的視頻、音頻和圖像數據等。半結構化數據則介于兩者之間,是用標簽和其他標志劃分數據元素的數據,可擴展標記語言和超文本標記語言都屬于半結構化數據。廣義的非結構化數據包括了半結構化和多結構化數據。
非結構化數據目前普遍被認為占數據總量的85%以上,而且增速比結構化數據快得多,有說法是快10~50倍。盡管上述數據的準確性有待研究確定,但無法否認的是,非結構化數據富含難以估量的價值,然而如何管理非結構化數據,把“數據墳墓”變成“數據金礦”卻是一項新的挑戰(zhàn)。
在醫(yī)療行業(yè),既存在結構化的電子病歷數據,也存在非結構化數據,包括病人描述病情的自然語言以及臨床產生的X光片、CT(計算機X射線斷層掃描)片、核磁共振片、病理切片等影像文件。這些數據在資料傳遞交換、臨床全面展示和醫(yī)學科研等方面有重要的價值,然而對于它們的整合利用還處于非常初級的階段。再比如,到銀行辦理存貸款業(yè)務時,要復印很多證件,戶口本、身份證、收入證明等,這些紙質原始資料都會以掃描或拍照的形式轉化為電子文檔,被永久保存起來。目前這些文檔只起到了備查的作用,并沒有被很好地開發(fā)利用。
非結構化數據管理能力是大數據的一項核心能力。在IBM發(fā)布的白皮書《分析:大數據在現實世界中的應用》中,報告了基于對全球95個國家、26個行業(yè)的1 144名業(yè)務人員和信息技術專業(yè)人士的調研結果。在超過一半的大數據項目中,受訪者表示其所在組織采用了先進技術分析自然狀態(tài)的文本,例如,呼叫中心對話內容的文字記錄。這些分析技術包括解釋和理解細微的語言特征,包括情緒、俚語和意圖等,幫助企業(yè)了解客戶當前的情緒狀態(tài),獲得能夠直接用于推動客戶管理戰(zhàn)略的寶貴信息。
對非結構化數據的開發(fā)和利用已經得到國家層面的重視。2012年7月6日,中國正式成立非結構化數據管理標準工作組,負責制定和完善中國非結構化數據管理領域的標準體系,制定相關國家標準,并參與非結構化數據管理的國際標準化工作,從而提升中國在非結構化數據管理領域的整體競爭力。
物聯網
國際電信聯盟發(fā)布的互聯網報告如此定義物聯網:通過二維碼識讀設備、射頻識別裝置、紅外感應器、GPS和激光掃描器等信息傳感設備,按約定的協(xié)議,把任何物品與互聯網連接,進行信息交換和通信,以實現智能化識別、定位、跟蹤、監(jiān)控和管理的一種網絡。