之后“百萬圖書項目”獲得了美國國家科學基金會向其另行提供的250萬美元基金,并提出該項目最終要達到的目標應(yīng)遠遠超過之前設(shè)想的“百萬圖書”,而是要在2007年前將在中國、印度以及埃及把140萬冊圖書全部實現(xiàn)數(shù)字化。這些圖書中的絕大部分都是用漢語、印度語、阿拉伯語、法語以及其他一些語種印刷,英語只占了了很小一部分,并且這些圖書都是由美國以外國家的大學圖書館提供并履行掃描任務(wù)的。很顯然,“百萬圖書計劃”更像是一個實驗,它的多國合作模式使得這個計劃無法實現(xiàn)自立。
2002年,就在谷歌悄然成立了實況調(diào)查小組對掃描所有圖書的可行性進行調(diào)查時,布魯斯特?卡爾也在謀求著同樣一件事,他懇請美國國會圖書館(Library of Congress)將其館藏的2000萬冊圖書進行數(shù)字化。在2002年11月卡爾的一次有關(guān)圖書館的發(fā)言中,他懷著極大的熱情描述了“普遍獲得所有人類知識已成為幾代人的夢想”的想法,并且堅定地認為古代的亞歷山大圖書館就已經(jīng)在成功地將人類知識集于一處方面做出了榜樣。他說,現(xiàn)在的美國國會圖書館應(yīng)該通過將全部的館藏圖書數(shù)字化來媲美甚至超過從前的亞歷山大圖書館的輝煌。卡爾是一個有著強大信念的“牛虻”式的人物,他是如此執(zhí)著于自己的夢想,并且因這個夢想而激動不已,早已將妨礙他實現(xiàn)夢想的種種可能最小化。他很隨便地就做出斷言,整個美國國會圖書館的藏書數(shù)字化工作只需要花費1億美元就可以完成??枦]有解釋他是如何計算出這個數(shù)字的,但他卻樂觀地認為美國國會圖書館會愉快地將其所有藏書裝船,并統(tǒng)一送往位于印度的海得拉巴進行掃描――之前卡爾在堪薩斯市購買的那批圖書就是在那里實現(xiàn)的數(shù)字化。
2002年,谷歌的研究小組在總結(jié)各個圖書數(shù)字化項目的經(jīng)驗教訓時發(fā)現(xiàn),是花費10美元還是100美元來完成一本書的數(shù)字化,取決于許多因素。如果按照平均一本書需要50美元費用計算的話,完成世界范圍內(nèi)的3000萬冊圖書數(shù)字化所需要的費用將會是一個驚人的數(shù)字:15億美元。當時的谷歌正處于財富迅速增長的階段,從2000年的年收益1900萬美元、凈虧損1500萬美元,躍升為2002年的年收益億美元、凈利潤約1億美元,這是振奮人心的增長。但是,以它當時的規(guī)模去花費15億美元的龐大數(shù)目進行圖書數(shù)字化,從財務(wù)角度來說顯然是不可行的。
谷歌決定,在佩奇和他的同事找到并制定出一套辦法來獲得書頁上的圖像之前,公司不會開始圖書數(shù)字化項目。他們要求找到的辦法所花費的成本必須要遠遠低于正在進行此類項目的其他公司??▋?nèi)基?梅隆大學的“百萬圖書項目”采用的做法從來就不在谷歌管理層的考慮范圍之內(nèi)。還有一種可能降低勞動力成本的辦法,那就是依靠機器人掃描儀代替工人來完成工作,但這樣的做法會使在勞動力成本上省下來的資金用于得不償失的資產(chǎn)投資上。
谷歌應(yīng)對圖書數(shù)字化項目進行中出現(xiàn)的高費用問題的解決辦法是,從兩個渠道來獲得圖書的“書源”:一是還在印刷中的圖書;一是尚未獲得出版權(quán)的圖書。如果出版商愿意幫忙的話,這些正在付印的圖書就能夠以非常低廉的費用進行數(shù)字化。出版商可以提出用同樣的數(shù)字文件來給圖書進行電子排版,但在許多情況下,這樣的電子排版并不能使用,因為許多的網(wǎng)頁內(nèi)容不夠規(guī)范,不合乎圖書出版的頁碼要求。在這種情況下,谷歌可以利用現(xiàn)成的技術(shù),而且不需要太多花費,將裝訂好的圖書進行所謂的“破壞性掃描”:將書頁拆開,然后對每一頁進行快速掃描。這只是容易操作的部分。不容易的部分則是數(shù)字化――非破壞性地――90%的圖書都不會再付諸印刷。