正文

第91節(jié):讓語音技術(shù)改變?nèi)藗兊纳?/p>

揭秘微軟亞洲研究院:微軟的夢工場 作者:微軟亞洲研究院


讓語音技術(shù)改變?nèi)藗兊纳?/p>

作者:余鵬

在MSRA的辦公區(qū)墻上,貼著比爾?蓋茨曾經(jīng)說過的一段話:“每天清晨當(dāng)你醒來的時候,都會為技術(shù)進(jìn)步給人類生活帶來的發(fā)展和改進(jìn)而激動不已?!边@句話也詮釋了MSRA這10年來成就的動力源泉――用技術(shù)改變?nèi)藗兊纳睢?/p>

我在清華大學(xué)的博士課題是語音識別,畢業(yè)后進(jìn)入MSRA的語音組。語音技術(shù)經(jīng)過多年的發(fā)展取得了長足的進(jìn)步,但是在應(yīng)用領(lǐng)域,卻面臨著一個尷尬的局面:一些在實驗室的理想環(huán)境下表現(xiàn)完美的技術(shù),很難找到現(xiàn)實的應(yīng)用;而在現(xiàn)實生活中,目前語音技術(shù)的穩(wěn)健性和適應(yīng)性卻又達(dá)不到應(yīng)用場景的需求標(biāo)準(zhǔn)。

如何找到連接技術(shù)和應(yīng)用的橋梁,是我們語音組的研究員考慮最多的問題。

此路不通?換條道!

2003年春天,正是北京SARS肆虐的日子。也就是在那時候,我們開始了語音識別用于音頻檢索的研究。我們選取的第一個應(yīng)用是搜索個人的語音郵件,針對的場景是10小時以內(nèi)的語音數(shù)據(jù)。

最開始,我們直接用語音識別系統(tǒng)將語音郵件轉(zhuǎn)換成文字來搜索。但很快發(fā)現(xiàn)即使最好的語音識別系統(tǒng),針對語音郵件的準(zhǔn)確性也僅僅只有70%左右,而這種情況下,搜索的準(zhǔn)確性無法令人滿意。為了解決這一問題,我們提出了基于詞格的音頻檢索方法,簡單的說,就是除了在語音識別的首選結(jié)果上搜索外,加入多候選識別結(jié)果的信息。比如,語音識別的第一候選是“研究院”,但同時給出許多次優(yōu)候選,如“研究員”。通過索引這些多候選結(jié)果,搜索的準(zhǔn)確性有了大幅度的提高。

但我們很快發(fā)現(xiàn)了另一個問題,常用的語音識別系統(tǒng)依賴于一個事先選取的詞典,而不在詞表中的詞是不可能被識別出來的,這在語音識別中稱之為“集外詞”問題。對于音頻檢索,這個問題變得尤為嚴(yán)重,因為很多集外詞都是可能被搜索到的關(guān)鍵詞。針對這一問題,我們采用了基于音素的語音識別系統(tǒng),將音頻內(nèi)容和用戶關(guān)鍵詞都分拆成音素來匹配,取得了很好的效果。

在那一年的Director Review和第二年的TechFest,我們演示了這一技術(shù),得到了廣泛的好評。

跨越“100小時”這座大山

在我們演示了基于音素的音頻檢索技術(shù)之后,得到最重要的一條反饋是,這一技術(shù)要做到實用,必須解決數(shù)據(jù)集的尺度問題。在我們的解決方案中,搜索時間和數(shù)據(jù)集尺度是成正比的,這稱之為“線型搜索”。在數(shù)據(jù)集小于10小時的情況下,搜索的時間在2秒以內(nèi)。但當(dāng)數(shù)據(jù)集到了100小時的時候,搜索時間就不可接受了。而100小時,是一個實際應(yīng)用的基本要求。

其實在文本搜索領(lǐng)域,通過基于詞的倒排索引,海量數(shù)據(jù)集的搜索早就不成為難題。但在我們的系統(tǒng)中,因為采用音素為基本單元,使得簡單的倒排毫無用處:基本上一個音素會出現(xiàn)在所有的文件中。100小時難題成為橫亙在我們面前的一座難以跨越的大山。

經(jīng)過幾次的推倒重來,反復(fù)的爭辯討論和大量的實驗驗證,最后我們提出了索引可變音素串的方法,即通過倒排較長的音素串實現(xiàn)加速,同時借鑒n元文法的backoff方法解決集外詞問題,成功地解決了音素一級的索引問題。當(dāng)最后的演示系統(tǒng)成功地在1秒以內(nèi)搜索100小時數(shù)據(jù)集的時候,我們都情不自禁地歡呼起來。

(余鵬 (中) 與項目同事在一起展示語音搜索所用的道具)

出租車上寫出來的程序

在微軟做研究有一個別的地方無法比擬的優(yōu)勢,那就是,你會有機(jī)會把自己的想法和技術(shù)應(yīng)用到微軟的軟件產(chǎn)品中去,真正做到改變?nèi)藗兊纳?。在演示了我們最新的音頻檢索技術(shù)之后不久,Microsoft Office ? OneNote產(chǎn)品組找到我們,表示出應(yīng)用這一技術(shù)的興趣。

但是我們很快發(fā)現(xiàn)要把技術(shù)產(chǎn)品化并不那么簡單。由于OneNote產(chǎn)品組自己的產(chǎn)品進(jìn)度非常緊,他們沒有足夠的人力資源來把這一技術(shù)付諸實現(xiàn)。如果我們不想放棄將這一技術(shù)付諸產(chǎn)品的機(jī)會的話,我們必須親自參與具體的產(chǎn)品開發(fā),而那意味著我們需要付出大量的努力和時間在一個作為研究員來說并不熟悉的領(lǐng)域。

我們最終選擇了全力以赴地將技術(shù)實現(xiàn)到產(chǎn)品中,因為我們都相信,沒有實現(xiàn)的技術(shù),終究只是技術(shù)。那段時間,是我進(jìn)入MSRA后最為忙碌的日子。除了參與產(chǎn)品進(jìn)度,我們還有其它的研究課題,加班是經(jīng)常的事情。舉一個例子可以看出當(dāng)時的緊張程度,因為軟件版權(quán)問題,我們需要重寫音素識別的解碼器,而這一工作是我的同事賽德用了一個月的時間,每天坐出租上班的路上用筆記本寫的。后來我常常和他開玩笑說那是他的“Taxi Project”。

我們最后提交給OneNote產(chǎn)品組的代碼整整有10萬行。由于我們的努力,音頻檢索成功地隨著OneNote軟件于2006年底發(fā)布。那一年的Director Review,我們驕傲的宣布了這一消息,得到了院長們由衷的掌聲。

邁出“技術(shù)改變生活”的第一步

OneNote的音頻檢索只是我們邁出的第一步,隨后,我們的研究方向轉(zhuǎn)向數(shù)據(jù)量更大,內(nèi)容更復(fù)雜,需求更多樣化的互聯(lián)網(wǎng)音頻/視頻搜索和企業(yè)級音頻/視頻的搜索。微軟龐大的產(chǎn)品線也讓我們找到了更多連接語音技術(shù)和用戶需求的渠道。

當(dāng)我們致力于用語音技術(shù)改變?nèi)藗兩钸@一目標(biāo)的同時,我們發(fā)現(xiàn)這也同樣指引我們做出更多更有用的研究。在我們摸索技術(shù)實用化的過程中所解決的很多問題,對于學(xué)術(shù)領(lǐng)域也帶來非常大的影響。從2003年開始,我們發(fā)表的一系列關(guān)于音頻檢索的文章,現(xiàn)在正引起越來越多的關(guān)注。

在MSRA,“用語音技術(shù)改變?nèi)藗兊纳睢?,這一當(dāng)初我選擇語音識別作為我的專業(yè)課題時的夢想,正在一點點地成為現(xiàn)實。

作者介紹:

余鵬,浙江紹興人,2002年畢業(yè)于清華大學(xué),獲信號于信息處理博士學(xué)位。之前于上海交通大學(xué)獲通訊工程學(xué)士學(xué)位?,F(xiàn)為微軟亞洲研究院語音組研究員,研究方向包括信號處理,語音識別,音頻搜索,信息檢索等。最大的業(yè)余愛好是籃球,在球場上是一名出色的投手。


上一章目錄下一章

Copyright ? 讀書網(wǎng) ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號