正文

一切皆可量化(4)

智慧政府:大數(shù)據(jù)治國時代的來臨 作者:徐繼華


谷歌數(shù)字圖書館

正如活字印刷取代雕版印刷,將漢字、字母分離,再自由組合到一起,大幅提升了印刷的效率,推動了知識的傳播與普及。如今,谷歌電子圖書館正在通過現(xiàn)代識別軟件,把紙質(zhì)書籍、圖片數(shù)據(jù)化。

谷歌圖書館是谷歌公司于2004年發(fā)布的一個頗具理想主義色彩的項目。它通過把國家版權(quán)條例允許的書本內(nèi)容進行數(shù)據(jù)化,建立一個容量豐富的谷歌電子圖書館,讓處于這個世界任何角落的人都可以通過網(wǎng)絡(luò)閱讀,完全實現(xiàn)知識傳遞的無國界、無距離。

在項目初期,谷歌主要是使用掃描儀對實體書的內(nèi)容進行電子化存儲,于是珍藏在美國國會圖書館里的書本內(nèi)容就變成了能在亞洲某個大學教室里使用的電子課件,這種網(wǎng)絡(luò)的數(shù)字化傳播方式極大地方便了渴望求知的人。但是這種電子化的讀書方式首先需要讀者明確自己所搜尋的內(nèi)容,其次借助搜索引擎在浩如煙海的數(shù)字化圖書海洋中找到自己需要的內(nèi)容。因為沒有對數(shù)字文本的內(nèi)容進行數(shù)據(jù)化的處理和分析,谷歌數(shù)字圖書館中實際只儲藏著這些書本的掃描圖片。

近兩年,隨著識別軟件和通信技術(shù)的發(fā)展,谷歌得以把這些數(shù)字化的圖片轉(zhuǎn)化為可處理的數(shù)據(jù),使之“躍然紙上”。借助能識別數(shù)字圖像的光學字符識別軟件轉(zhuǎn)化掃描圖片上的字、詞、句、段,如此處理后,谷歌的數(shù)字化圖像也就順利地轉(zhuǎn)化為數(shù)據(jù)化的內(nèi)容,讓這些信息的潛在價值得到最大程度的釋放,打造一個開放又可關(guān)聯(lián)的知識世界。


上一章目錄下一章

Copyright ? 讀書網(wǎng) ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號