正文

第89節(jié):“掌上”視頻拉近你我的距離(1)

揭秘微軟亞洲研究院:微軟的夢(mèng)工場(chǎng) 作者:微軟亞洲研究院


“掌上”視頻拉近你我的距離

作者:李江

2004年6月,美國(guó)知名的學(xué)術(shù)雜志麻省理工學(xué)院《技術(shù)評(píng)論》在當(dāng)月的封面赫然放上了“微軟肖像”的巨幅圖片,并且把微軟亞洲研究院譽(yù)為“世界上最火的計(jì)算機(jī)實(shí)驗(yàn)室”。作為被編輯有幸挑選出來(lái)成為最能代表研究院創(chuàng)新成果的技術(shù),“微軟肖像”隨著雜志的甫一付梓,越來(lái)越多地受到了全世界計(jì)算機(jī)學(xué)術(shù)界和工業(yè)界的關(guān)注。它也讓更多的讀者相信在科幻作品中虛構(gòu)出來(lái)的那些移動(dòng)視頻通信技術(shù)終于可以在現(xiàn)實(shí)生活中看到端倪了。

(2004年6月,麻省理工學(xué)院《技術(shù)評(píng)論》以“掌上視頻”為封面照片,用六頁(yè)的篇幅全方位報(bào)道了微軟亞洲研究院的歷史和成果)

N多雙眼睛的集合

如今,隨著手機(jī)功能的日益強(qiáng)大,通過(guò)手機(jī)拍照或者錄制一段視頻已經(jīng)屢見(jiàn)不鮮了,可是,通過(guò)手機(jī)進(jìn)行實(shí)時(shí)視頻通信卻仍然沒(méi)有普及。早在2001年,由微軟亞洲研究院多媒體通信組研發(fā)出的“微軟肖像”軟件,就已經(jīng)較為逼真地實(shí)現(xiàn)了雙向交流的實(shí)時(shí)視頻通信。這一技術(shù)不僅可以支持個(gè)人電腦、掌上電腦、手持電腦等設(shè)備,而且可以運(yùn)行于局域網(wǎng)、撥號(hào)網(wǎng)絡(luò),甚至帶寬為9.6千比特/秒的無(wú)線網(wǎng)絡(luò)。特別值得一提的是,這項(xiàng)技術(shù)還具有自適應(yīng)性。如果用戶只有低帶寬網(wǎng)絡(luò),微軟肖像就會(huì)傳送黑白視頻;而如果用戶擁有較高的寬帶的話,則可以傳送真彩色的視頻。在低帶寬時(shí),相比傳統(tǒng)的視頻技術(shù)而言,肖像視頻能夠提供更清晰的輪廓、更流暢的運(yùn)動(dòng),并且具有更短的延時(shí)以及更低的計(jì)算消耗?!拔④浶は瘛笔俏以谖④泚喼扪芯吭簠⑴c過(guò)的第一個(gè)重要項(xiàng)目,也是持續(xù)時(shí)間最長(zhǎng)的項(xiàng)目之一。

從2001年8月18日“微軟肖像”第一個(gè)版本的誕生,我們組就把這個(gè)技術(shù)上傳在微軟研究院網(wǎng)站上供用戶自由下載。令我們感到意外的是,雖然這還是比較稚嫩的第一個(gè)版本,但是用戶對(duì)它的反響還是很不錯(cuò)的。因?yàn)殡S著掌上電腦在當(dāng)時(shí)的問(wèn)世,很多用戶也很想在上面看看通話狀態(tài)的對(duì)方是什么樣子,而之前從來(lái)沒(méi)有這樣一種軟件出現(xiàn)過(guò),所以,有段時(shí)間,大概有幾萬(wàn)用戶下載試用了我們的軟件,使得“微軟肖像”成為了微軟研究院網(wǎng)站上下載量最大的軟件之一。

很多用戶在下載了我們的產(chǎn)品后,非常巧妙地將這項(xiàng)技術(shù)應(yīng)用在了日常生活或者工作環(huán)境中,給他們的生活與工作帶來(lái)了很大的便利,于是他們也紛紛通過(guò)網(wǎng)上留言的形式把這些新奇的用法分享給了我們團(tuán)隊(duì)。

我印象比較深的是兩個(gè)外國(guó)朋友對(duì)這項(xiàng)技術(shù)獨(dú)具匠心的使用故事。John是一位新生兒的父親,當(dāng)周末妻子出去購(gòu)物,留下他和孩子兩個(gè)人在家的時(shí)候,他時(shí)常為寸步不能離開(kāi)孩子而煩惱。當(dāng)他從網(wǎng)上下載了“微軟肖像”之后,他在嬰兒床前按了一臺(tái)攝像頭。于是他可以帶著掌上電腦隨心所欲地在房子的每個(gè)角落活動(dòng),通過(guò)視頻觀察孩子的一舉一動(dòng),他甚至還能放心地在院子里除草,而這往往是周末最占用他時(shí)間的一項(xiàng)勞動(dòng)了。

Peter是一家醫(yī)院的見(jiàn)習(xí)醫(yī)生,經(jīng)常會(huì)輪到晚上值班巡視病房的差事??墒且?yàn)樽≡翰∪硕啵t(yī)生少的緣故,很多發(fā)生突發(fā)情況的病人往往無(wú)法得到及時(shí)的救護(hù)。于是,當(dāng)他擁有了“微軟肖像”技術(shù)之后,他在巡視某一個(gè)病房的時(shí)候,也可以通過(guò)掌上電腦看到安在其他病人床前的攝像鏡頭做提供的情況。他可以在移動(dòng)中實(shí)時(shí)“觀察”每個(gè)病人,一有緊急情況便可以跑過(guò)去處理或者通知其他醫(yī)護(hù)人員。Peter說(shuō)有了“微軟肖像”,就像有了N多雙眼睛同時(shí)在幫他巡視病房。

上面的主人公只是很多用戶中的兩位。他們對(duì)這項(xiàng)技術(shù)的認(rèn)可和別出心裁的應(yīng)用也極大鼓舞了我們對(duì)“微軟肖像”不斷改進(jìn)的信心。直到2007年5月20日,我們組推出了最近也是最新一款試用版本為止,細(xì)數(shù)下來(lái),“微軟肖像”前前后后經(jīng)歷了20個(gè)版本的更新和改進(jìn)。在這八年中,“微軟肖像”項(xiàng)目也經(jīng)歷了一段曲折的發(fā)展歷程。

難題迎刃而解

退回去想想,也許你很難想象2000年時(shí)9.6千比特/秒的手機(jī)網(wǎng)絡(luò)的帶寬能做些什么?可是,就在當(dāng)時(shí)網(wǎng)絡(luò)帶寬較低的情況下,我們便在捉摸:如何實(shí)現(xiàn)移動(dòng)設(shè)備的可視通信呢?顯然用傳統(tǒng)的彩色視頻技術(shù)是實(shí)現(xiàn)不了的,因?yàn)椴噬曨l對(duì)傳輸速度和網(wǎng)絡(luò)帶寬的要求都比較高。9.6千比特/秒的帶寬就把這個(gè)可能給否決了。另外,既然是手機(jī),CPU的處理能力就不如臺(tái)式計(jì)算機(jī)那樣強(qiáng)大,所以本來(lái)在臺(tái)式計(jì)算機(jī)上運(yùn)用的視頻壓縮和解碼技術(shù)就不能被照搬到手機(jī)上。我們就要對(duì)壓縮和解碼算法進(jìn)行一些簡(jiǎn)化,才能最終運(yùn)用到手機(jī)上。在綜合考慮上述兩種條件的基礎(chǔ)上,我們開(kāi)始了“微軟肖像”的研究。

當(dāng)時(shí),在跟我們的研究主管、視覺(jué)計(jì)算領(lǐng)域的專家沈向洋博士討論中,我們認(rèn)識(shí)到:既然,視頻壓縮技術(shù)已經(jīng)相當(dāng)成熟,想要從這方面尋求突破幾乎不大可能,那么是否可以結(jié)合視覺(jué)技術(shù)從數(shù)據(jù)本身來(lái)尋求解決呢?要進(jìn)行實(shí)時(shí)通訊,使得你講話的意思能夠被對(duì)方了解,除了語(yǔ)音之外,表情也很重要。那么表情怎么來(lái)傳遞,我們就想到了用線條的方法來(lái)傳遞,想著用線條的方式帶寬是不是就可以占用得少一些。

當(dāng)時(shí)我們注意到,在實(shí)時(shí)視頻通信中,人們對(duì)圖像的要求,并不像在定睛觀看一幅圖畫(huà)時(shí)那么高。人們不太注意形象,而更注重表情;不太注意細(xì)節(jié)紋理,而更注意整體輪廓。從這個(gè)意義上而言,在視頻通信中,通話者大腦真正感興趣的有效信息并不多,所以通過(guò)提取通話者的表情輪廓和線條等簡(jiǎn)單信息,就可以有效表達(dá)一幀視頻的絕大部分內(nèi)容。如果只壓縮和傳輸這部分用線條表示的信息,將會(huì)大大降低計(jì)算和通信的負(fù)荷。

靜態(tài)“素描”一幀的線條雖然看上去依稀可辨,但是如果要實(shí)現(xiàn)由靜至動(dòng),讓多幀靜態(tài)“素描”連續(xù)動(dòng)起來(lái),就會(huì)出現(xiàn)很多問(wèn)題。首先,在光線強(qiáng)度常易變化等條件的影響下,兩幀之間的過(guò)渡非常不平穩(wěn)、閃爍不定。另外,用線條表示出的通話者頭發(fā),因?yàn)槠浒l(fā)跡覆蓋處沒(méi)有黑色填充而顯得非常的不自然。在這種情況下,我們研究組就想到用“二值視頻”技術(shù)來(lái)解決這兩個(gè)問(wèn)題:在0-256之間確定一個(gè)亮度的閾值,圖像像素灰度值高于該值則為白,低于該值則為黑。非黑即白(一般用1和0表示)。這種技術(shù)不只區(qū)分出了線條,而且內(nèi)部什么地方是白,什么地方是黑,都可以填充進(jìn)去,這樣頭發(fā)的問(wèn)題就解決了。


上一章目錄下一章

Copyright ? 讀書(shū)網(wǎng) ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)