潘悟云談漢藏語的歷史起源研究

鄭詩亮 2019-05-27 來源：澎湃新聞

4月25日，復旦大學金力院士團隊在《自然》雜志發(fā)表了以《語言譜系證據(jù)支持漢藏語系在新石器時代晚期起源于中國北方》為題的論文，揭示了世界第二大語系漢藏語系分化成現(xiàn)代語言的最

潘悟云（澎湃新聞蔣立冬繪）

4月25日，復旦大學金力院士團隊在《自然》雜志發(fā)表了以《語言譜系證據(jù)支持漢藏語系在新石器時代晚期起源于中國北方》為題的論文，揭示了世界第二大語系漢藏語系分化成現(xiàn)代語言的最早年代和地點，這是中國語言學的研究成果首次在《自然》發(fā)表，引發(fā)了廣泛的關注和討論。對此，《上海書評》采訪了論文團隊重要成員、復旦大學人文社會科學數(shù)據(jù)研究所東亞語言數(shù)據(jù)中心負責人潘悟云教授，請他介紹這一研究的相關情況。

《自然》官方網(wǎng)站頁面

《語言譜系證據(jù)支持漢藏語系在新石器時代晚期起源于中國北方》一文在《自然》發(fā)表之后，引起很多人好奇：為什么語言學這種“文科”的研究成果，能夠在頂級的理工科學術雜志發(fā)表？

潘悟云：我們這篇論文看上去是語言學研究，其實是人類學研究，關注人類早期語言的形成，特別是東亞語言當中漢藏語尤其是漢語的形成。

我們都知道，人類學分為好多種，既有你說到的“文科”——文化人類學，也有體質人類學、分子人類學。我所在的復旦研究團隊主要做的是分子人類學，關注的是基因的構成，這次研究成果發(fā)表之后，可能會進一步關注體質人類學，就是人的外貌、身高、膚色、發(fā)色，等等，這些實際上都屬于自然科學的范疇。

至于語言屬于什么學科范疇，其實很難說——它是跨類的，一頭伸進自然科學，如語音合成、語音識別，都是計算機學科在做；一頭伸進人文社科，涉及人的社會特性。正因如此，語言學就有很特殊的意義，它是溝通文科理科的橋梁。另外，它也的確是一個很值得研究的對象。人類一產生，就同語言掛鉤。我一直說，人類同動物的區(qū)別，就在于語言。以前都說區(qū)別在于人類會制造工具，現(xiàn)在發(fā)現(xiàn)很多動物不僅會利用工具，也會制造工具。而人類的語言和動物有本質不同。動物也有傳遞信息的工具，比如猿猴發(fā)出各種聲響、蜜蜂跳出各種舞蹈，它們用各種方式傳遞信息。人類語言具有模式二重性。動物用一種聲音來代表一種事物、一種現(xiàn)象，聲音和事物、現(xiàn)象是一對一的關系。人類語言則有雙層結構，語音先構成具有某種意義的語素，語素再與具體的事物、現(xiàn)象關聯(lián)。這樣，通過這種意義組合，可以表達大千世界的諸多概念。

我曾經猜想，人類產生之初，有各種的人，考古發(fā)掘已經發(fā)現(xiàn)了很多古人類，這些古人類與現(xiàn)代智人相比有許多優(yōu)勢，例如尼安德特人的力氣比智人要大，但是前者在與后者的競爭之中逐漸消亡，最重要的原因就是語言。智人通過語言，能夠有效地交流、溝通，將發(fā)明創(chuàng)造保存和傳遞下去。有了語言，才有文字，才有文獻，進而才有文化和文明——所謂文化，本質就是一代代能傳下去的、大家形成的知識。所以，很多學者關心語言的起源問題。關心語言起源，就意味著關注人類的起源、文明的起源。這些問題，不管什么學科，都會共同關注。

既然如此，想請您簡單介紹一下，學者是如何針對語言起源問題展開研究的。

潘悟云：關于這個問題，最開始大家都是猜測，提出各種假說。有人說是游戲產生的，有人說是勞動產生的。以至于巴黎的語言學會一度禁止這方面的討論，因為過于主觀，與近代科學思潮不相符。好在隨著科學的發(fā)展，產生了現(xiàn)代語言學，也就有了許多科學方法來推測語言從何時起源、最初的形式如何。這里面尤其值得一提的，是十九世紀的歷史比較法。這種研究方法的基本思路，是對眾多現(xiàn)代語言的共同特征加以比較。學者猜測，現(xiàn)代語言的共同特征不是偶然產生的，而是來源于早期的共同語。這方面的代表性學者是威廉·瓊斯（William Jones），他在東印度公司工作時，看到梵文與拉丁文、古希臘文有相似之處，猜測它們一定有共同祖先。后來，有許多語言學家通過大量比較，參之于古代文獻，將古代的共同語構擬出來。這是很科學的做法。迄今為止，我們進行語言歷史研究的時候，歷史比較法還是最重要的一種方法。

但是，歷史比較法也有局限性，它只能解決語言的譜系問題。它根據(jù)不同的現(xiàn)代語言的同源詞多少，來推斷這些語言之間的親疏遠近關系，然后畫出譜系樹。這里面的道理很簡單：如果一群親屬語最早來自同一種語言，后來才分化，那么這些語言最初的詞匯肯定是相同的。分化以后，由于語言是不斷變化的，過去相同的詞匯不斷地流失。分化早的，流失的就多，分化晚的，流失的就少。所以，憑語言中同源詞的多少，大體上可以斷定語言分化的早晚。

但是這種方法解決不了分化的年代問題。例如，印歐語分化成十個語族，是什么時候開始的，斯拉夫語族分化為俄語、波蘭語、捷克語，是什么時候開始的？分化的地點問題也很難解決。例如，印歐語誕生地的確定，靠的還是這些語言所共有的生物，其中最重要的是山毛櫸與鮭魚，語言學家根據(jù)這些動植物的分布，把印歐語的起源地鎖定在維斯杜拉河與易北河之間的地域。地點確定以后，根據(jù)考古學的證據(jù)，這些地區(qū)在公元前3000年以前才出現(xiàn)印歐語中普遍出現(xiàn)的馬與羊。于是語言學家認為，印歐語在公元前4000年晚期開始在德國波羅的海沿岸使用。但是，這些方法都不是語言學本身的。

那么，這個問題是如何得到解決的呢？

潘悟云：一直到二十世紀，美國的斯瓦迪士（Morris Swadesh）提出一個新的方法——語言年代學，語言的發(fā)生年代才能夠得到確定。要理解這個方法，可以參照地質學用放射性物質碳14對年代的測定?；钌矬w內的碳14的含量是固定的，死了之后，體內碳14衰減的速度是恒定的。打個比方來說，如果考古隊從地下挖出一頭鹿，根據(jù)碳14的現(xiàn)存含量與衰減速率，就能算出這頭鹿的死亡時間。那么，語言學變化的速度，是不是也像碳14那樣，是恒定的呢？如果是的話，那么，根據(jù)兩種語言中現(xiàn)存同源詞的多少，就可以知道它們分化的時間。

斯瓦迪士給語言學找到的碳14，就是“核心詞”，或者“核心語義”。人類認知的共同性，決定了有些詞大家都會常說。比如太陽、月亮、身體部位名稱，還有人稱代詞、數(shù)詞，這些都是核心語義，而且變化比較慢，原因在于人的交際需要。比如，小孩今天晚上叫“媽媽”，明天上午叫“嬤嬤”，媽媽就聽不懂了，最核心的語義一定是變得比較慢的。斯瓦迪士經過統(tǒng)計，認為核心語義的變化速率也是恒定的，于是提出一個語言年代學的公式，利用這個公式，通過計算兩種親屬語言中現(xiàn)存的同源詞多少，來計算分化的年代。

但是，這種方法遭到了很多質疑。第一個原因是，語言的變化速度肯定是不一樣的。戰(zhàn)爭頻繁的地方，語言變化的速度就快，一打仗人死光了，其他地方的人遷移過來，語言就發(fā)生變化了。中國歷史上大的動亂，例如唐朝的安史之亂、黃巢起義，北宋的靖康之難，都導致了北方移民大量南下，一旦與當?shù)厝私佑|，就會引起語言的借用。第二個原因是，詞匯的變化速度也不一樣，核心詞變得慢一點，文化詞就變得很快。甚至有些印歐歷史比較語言學認為很穩(wěn)定的詞，實際上并不穩(wěn)定，比如說人稱代詞。漢語里的第三人稱先秦還沒有，出現(xiàn)時已經很晚了。上海人喜歡說的“儂”最早是第一人稱，古吳語以“儂”或“阿儂”表示“我”，現(xiàn)代上海話“儂”則變成了第二人稱“你”。所以印歐語中一些最穩(wěn)定的語義，在漢語中就不一定如此。

盡管如此，我們還是采用了斯瓦迪士的理論。不少中國學者，如孫宏開、黃布凡、鄭張尚芳等，都認識到斯瓦迪士的理論對東方語言不完全適用，進而提出了東亞語言的核心詞。但是我們認為，絕大部分核心詞全世界都是一樣的，如太陽、月亮，大家都常用，例外只是少數(shù)。中國學者提出的核心詞同斯瓦迪士相比，絕大部分也還是一樣的。

具體計算年代的方法，我們采用的是貝葉斯統(tǒng)計方法。我在網(wǎng)上看到了不少評論，很有意思。比如有一位學者，他看到我們用了貝葉斯統(tǒng)計方法，大約在網(wǎng)上檢索了一番，發(fā)現(xiàn)貝葉斯學派是“主觀概率學派”，就認定我們是在“主觀”臆測。實際上，主觀概率學派相對于頻率學派而言，是對概率論的一大發(fā)展，在無法通過重復試驗得出概率的情況下，根據(jù)有限的觀察提出一個主觀假設，通過大量的材料不斷作出修正，逐漸逼近事實。這更接近經驗科學的普遍做法。就算相對論也是一種假設，還在不斷接受經驗世界的檢驗。這個方法首先用在物種分化，后來語言學也采用了，并且產生較大的影響。

有了這種語言譜系樹，還可以用譜系地理學（phylogeography）的方法推斷分化的地理位置。譜系樹上最接近的語言，通常地理距離也比較接近。例如，上海與蘇州地理上比較接近，語言也比較接近。上海與廣州，距離比較遠，語言的關系也比較遠。當然，也會有不同的情況，武漢與昆明的距離比較遠，語言卻比較接近。但是大多數(shù)的情況下，語言的距離與地理的距離是相關的。同時，這種方法還假定，原始人從一個地方開始向四處分化的時候，他們的遷移是隨機性的。根據(jù)這些假設，我們算出原始漢藏語的發(fā)源地在四川一帶。但是，漢藏人向四處遷移并不是很隨機的，更多的是從北向南遷移。所以，漢藏人的發(fā)源地一定在四川以北，即陜甘寧一帶，就是仰韶與馬家窯文化的分布區(qū)域。

漢藏語系語言的分化與中國西北、西南地區(qū)的人口擴張相關

關于研究團隊的構成、不同成員的分工，能麻煩您介紹一下嗎？

金力團隊合照，左起：嚴實博士、金力院士、潘悟云教授、張夢翰博士

潘悟云：金力教授統(tǒng)領整個研究團隊。他一直關注人群的遺傳結構、人群的遷徙和自然選擇這些問題。斯坦福大學的卡瓦利·斯福扎（Cavalli-Sforza）是以分子人類學解構語言、從基因角度研究人類演化的鼻祖，金力教授做博士后研究就在斯福扎的實驗室。上世紀九十年代，金力教授采集了十萬例東亞人基因，研究之后得出結論：整個東亞地區(qū)的各個人種都是從非洲遷移過來的，一下子推翻了中國人由“北京猿人”演化而來的假說。

1996年，金力教授回國之后，在《文匯報》發(fā)表了一篇關于東亞人來自非洲的文章，我讀到之后，很振奮，因為他做的研究與我的研究是互相印證的。亞洲大陸的幾個語系，阿爾泰語系、漢藏語系、南亞語系和南島語系，傳統(tǒng)觀點認為，說這些語言的人種沒有什么發(fā)生學上的聯(lián)系，因而這些語系當然是毫無關聯(lián)的。比如，過去大家都認為，爪哇猿人和北京猿人是兩個人種，那么南島人和中國人作為他們的后裔，也應該說兩種不同的語言。但是后來我們發(fā)現(xiàn)，南島語系和漢語的一些核心詞很接近，這一點是法國語言學家沙加爾（Laurent Sagart）最早提出來的。舉兩個例子，女性生殖器涉及人類的繁衍，是很重要的詞，國內說的最多的發(fā)音就是pi，現(xiàn)在的南島語也說pi；女性的乳房涉及哺育后代，也是很重要的詞，上古漢語的發(fā)音是njo，南島語是nu。

漢語和南島語有這么多核心詞相似，過去一直讓我很困惑。讀到金力教授的文章以后，我就明白了，原來他們都是從同一祖先演化來的。后來金力教授很快就和我見面了。要探索文明起源，文獻、考古這些傳統(tǒng)手段都存在局限性，只有兩樣東西是既便宜又無處不在的：語言和基因。通過語言學和遺傳學方法，我們可以往上追溯，探討東亞人群、語言、文明的起源和演化。從此，我們就展開了合作。

論文第一作者張夢翰是我的碩士和博士，他本科就讀于上海師范大學數(shù)學系，曾在中美大學生建模競賽中獲獎，有很高的數(shù)學才能。博士生階段我讓他去金力教授處和中科院上海生物研究所旁聽，借著這些機會，他熟練掌握了生物和遺傳方面的各種數(shù)學模型。而且他對相關文獻很熟悉，最近幾年，《自然》《科學》和《美國科學院院報》上連續(xù)發(fā)了好幾篇用貝葉斯方法來研究語言起源，解釋印歐語、南島語分化的論文，這給了張夢翰很大啟發(fā)，他認為漢藏語也可以使用這個方法來研究，于是才有了這個題目。

嚴實是復旦生命科學院的博士后，他主要負責處理材料。我們這個研究，光有合適的方法還不夠，還需要大量的材料，樣本越多，統(tǒng)計越精確，當然，工作量相應地也就大了。我們用了美國著名漢藏語專家馬提索夫（James A. Matisoff）教授的STEDT數(shù)據(jù)庫。馬提索夫用了三十年的時間建設這個數(shù)據(jù)庫，收錄了全世界漢藏語研究者認定的同源詞，共有六百種語言。我們這篇論文選取了斯瓦迪士前一百個核心語義中的九十八個，從馬提索夫的STEDT數(shù)據(jù)庫中選取了一百零九種語言。不算前期的材料處理，光是最后的運算，在四核八線程的電腦上就連續(xù)運行了四天，工作量的確很大。

事實上，我們本來打算和國際學者展開合作的。首先聯(lián)系的就是馬提索夫，經得他的同意之后，使用了他的數(shù)據(jù)庫。

對這一百零九種漢藏語材料的處理，最后呈現(xiàn)出的成果是一棵譜系樹，這是怎么畫出來的？

漢藏語系中一百零九種語言的譜系樹

潘悟云：譜系樹是根據(jù)同源詞畫的，但是要辨認同源詞是一件很麻煩的事情。例如，太陽這個詞，漢語最早是“日”，上古音讀njit，藏語的太陽是nima，ma是后綴，ni是詞根。上古漢語的nit與藏語的ni，一眼就能看出它們之間的同源關系。這是比較容易辨認的同源詞。但是有的同源詞就很難辨認，比如數(shù)字“七”，漢語讀t?hi，羌族讀?in，景頗語讀?anit，彝語讀s?，這幾種語言之間的同源關系就需要我們深入、系統(tǒng)地加以比較，才能得出正確結論。如果僅憑看上去是否相似，來斷定不同語言之間是否存在同源關系，這顯然是不行的。

畫譜系樹采用的貝葉斯統(tǒng)計方法，不單是對計算年代有其長處，對畫譜系樹也有其特殊的長處。關于同源詞的比較，傳統(tǒng)的歷史比較方法只考慮數(shù)量，打個比方，語言A和B有二十個同源詞，A和C有十個，二十個比十個多，可見A和B更有親緣關系。但是詞與詞的重要性是不一樣的，比如身體部位名稱就比人稱代詞重要，馬提索夫曾說過，身體部位名稱是核心詞中的核心詞。這很對，因為人類認識世界總是從認識自己開始。因此，身體部位名稱變化的速度比人稱代詞要慢。貝葉斯方法把語言變化速度納入考量，給每一個同源詞加權，速度變化快的，次要一點，變化慢的，重要一點。所以，我們現(xiàn)在是計算加權以后的同源詞。這樣畫出來的譜系樹，會更精確一些。

這次的研究成果對語言學有什么樣的意義和價值？能請您談談嗎？

潘悟云：首先是對有關漢藏語系起源假說的證實。主要就是兩種假說，主流意見是“北方說”，認為黃河中上游——也就是陜西甘肅寧夏一帶——是漢藏語系的起源地，馬提索夫，國內的許多學者都持這種觀點；另外一種“南方說”，以歐洲的范德利姆（George van Driem）教授為代表，認為漢藏語系的起源地是中國西南到印度東北這一帶地區(qū)。這兩大派針鋒相對，其實都還是用傳統(tǒng)的歷史比較做出的猜想，誰都不能解決時間和地點的互動問題。我們的文章支持了“北方說”。

這次的研究成果，更有利于歷史語言學的發(fā)展。最早的語言是怎么樣的？年代一久，誰都說不清楚?，F(xiàn)在的學者就像盲人摸象一樣，有些人摸到鼻子，有些人摸到耳朵，有些人摸到尾巴，其實把各個方面的研究拼起來，才能還原古代語言的面貌。前面說過，我們目前采用的貝葉斯方法，能夠解決年代跟地點的問題，這兩點恰巧是歷史比較法的軟肋。但是貝葉斯方法不能解決語音構擬問題，例如中古、上古漢語和原始藏語的讀音怎么樣，這是歷史比較法的強項。

把原始語言每一個階段怎么發(fā)音弄清楚，這有什么意義呢？它不只是解決古人怎么說話的問題，最終會使得整個歷史語言學的面貌煥然一新。十九世紀，整個歐洲的語言學家都投身歷史語言學研究，到了二十世紀初，研究者漸漸減少。其中很大一個原因，就是傳統(tǒng)的歷史比較法存在一個很大的缺陷——不確定性，這與現(xiàn)代科學思潮是相抵觸的。歷史比較法無法做到定量化、形式化，因而逐漸退出語言學家的視野。大概是從上世紀六七十年代開始，美國的一些語言學家開始用新的方法去做歷史語言學研究。最核心的內容是音變。這更符合現(xiàn)代科學的思路：人的語音為什么會變化？

人的語音變化。最重要受制于兩個因素：一個是發(fā)音器官，一個是聽覺器官。這兩種器官，古今中外是一樣的，所以由這兩個器官引起的音變現(xiàn)象，古今中外也是一樣的。于是，音變規(guī)律就有其普適性，就可以把演繹、推理的方法引入歷史語音研究。

現(xiàn)在大家都在研究，全世界的語言到底有哪些音變規(guī)律？其中最重要的就是自然音變（nature process），它是漸變的，而且可以從發(fā)音、感知上加以解釋。如果我們通過歷史語言學研究，把這些音變規(guī)律一條條研究出來，將來的歷史語言學就是另外一種面貌。確定了漢語與藏語、緬甸語是同一個祖先，即從同一種語言變化而來，就可以通過歷史比較，把這些語音的演變規(guī)則找出來。

另外，這次研究還有一個重大意義，有利于我們回答一個問題：中華五千年文明的根據(jù)是什么？甲骨文記載也只有三千多年。而我們通過研究漢藏語的起源、漢語和藏緬語的分化時間，可以確定漢語有五千九百年的歷史。這與中華文明探源工程定下來的五千八百年是相當接近的。中華文明探源工程的依據(jù)是考古，我們的依據(jù)是語言比較，大家從各自獨立的研究，得出了接近的結論。

這個研究還要繼續(xù)推進。漢語和藏緬語分化以后，漢語如何走向東南演化為各種漢語方言？藏緬語往西南怎么演化為藏語支和彝緬語支？彝緬語支又怎么分化為緬甸語和彝語？發(fā)生在什么時候，什么地點？整個中國版圖上這么多民族的來源和演變，都要弄清楚。

您覺得這次研究當中體現(xiàn)出來的這種跨學科研究方法，對我們來說有什么啟發(fā)？

潘悟云：現(xiàn)在的語言學研究，有幾個學科要合在一起做。

一個是古文字研究。我是做上古音研究的，最近幾年我才意識到，古文字研究、考古發(fā)掘，對上古音研究的意義有多大。去年5月份北大文研論壇請我去做了一次講座，那次以后我就認識了好多年輕的古文字學家。后來又到香港去開了一次會，又認識了一批古文字學家。我覺得很欣慰，這批年輕的古文字學家可了不得，不僅懂古文字，而且懂上古音。

一個是前面提到的分子人類學。復旦有金力教授和他的科研團隊，將來肯定會形成一個古代人類學、古代語言學研究的國際學術中心。

另一個是民族語研究。我現(xiàn)在很關注民族語的搜集和整理。我?guī)ьI的團隊經常去少數(shù)民族地區(qū)進行語言調查，這些搜集到的語言樣本，是很寶貴的進行歷史語言比較的資料。

0 好文

下一篇:敘詭筆記：從“揚州分尸案”看清末黑店

上一篇:重新理解顏真卿與當下書寫的潛能，“致顏真卿”引發(fā)書寫討論

潘悟云談漢藏語的歷史起源研究

熱門文章排行