正文

2.1 引言

基于語料庫的莎士比亞戲劇漢譯研究 作者:胡開寶 著


2.1 引言

莎士比亞研究一直是西方文學(xué)研究的“顯學(xué)”之一,相關(guān)著作可謂“汗牛充棟”。自20世紀初以來,莎劇的多個漢譯本相繼問世,其中影響較大的譯本有朱生豪(1947)、梁實秋(1947)和方平(2000)等翻譯的漢譯本。這些譯本對我國現(xiàn)代戲劇和文學(xué)創(chuàng)作產(chǎn)生了深遠的影響,而且很大程度上豐富了漢語的表現(xiàn)形式。然而,莎劇漢譯研究的廣度和深度仍然比較有限?,F(xiàn)階段莎劇漢譯研究局限于具體詞匯或修辭手法的翻譯研究,而關(guān)于句法和語篇層面的研究成果比較少見,且多為定性研究,較少進行定量研究,鮮有成果。此外,鮮有成果利用語料庫方法對莎劇的漢譯開展系統(tǒng)和深入的研究。

很顯然,這與莎劇漢譯本在中國文學(xué)乃至文化發(fā)展歷程中的重要地位十分不相稱。究其原因,主要是因為莎劇劇本多,內(nèi)容博大精深,莎劇漢譯研究因而費時費力。顯見,建設(shè)莎士比亞戲劇英漢平行語料庫,開展基于語料庫的莎劇漢譯研究十分重要。研究人員可以充分利用語料庫儲存數(shù)據(jù)大、計算機運行速度快、語料庫工具能準確對大量數(shù)據(jù)進行分析的優(yōu)勢,系統(tǒng)、全面地對多個莎劇漢譯本進行比較分析,通過數(shù)據(jù)分析和功能闡釋相結(jié)合,獲得客觀可信的研究結(jié)果。

為此,我們自2005年起便開始著手建設(shè)莎士比亞戲劇英漢平行語料庫。經(jīng)過數(shù)年的努力,我們已建成莎士比亞戲劇英漢平行語料庫,并開展了一系列前期研究。該語料庫收入莎劇原著,這些戲劇的梁譯本、朱譯本及方譯本,以及漢語原創(chuàng)戲劇,總庫容為3068634字(詞),具體情況如表2.1所示。

表2.1 莎士比亞戲劇英漢平行語料庫的構(gòu)成

根據(jù)表2.1,漢語原創(chuàng)戲劇的形符數(shù)與方譯本和朱譯本的形符數(shù)相當接近,與梁譯本的形符數(shù)也相差不大。因而,漢語原創(chuàng)戲劇與莎劇的以上漢譯本之間具有較為理想的可比性。

應(yīng)當指出,建設(shè)平行語料庫,尤其建設(shè)能夠?qū)崿F(xiàn)一個原著與三個譯本句級對齊,且?guī)烊葸_數(shù)百萬字的語料庫,不僅要耗去大量的人力和物力,而且技術(shù)層面亦具有較大難度。本節(jié)擬介紹莎士比亞戲劇英漢平行語料庫的創(chuàng)建過程。

一般而言,英漢平行語料庫的創(chuàng)建步驟主要為:①中英文語料的選擇與輸入;②語料的預(yù)處理;③語料的標注和分詞;④語料的平行對齊;⑤語料庫出版;⑥語料庫網(wǎng)上檢索。目前,莎士比亞戲劇英漢平行語料庫已完成第1至第4個步驟。至于語料庫的出版和網(wǎng)上檢索,待完成所有語料的輸入和深加工,并解決相關(guān)版權(quán)問題之后方可進行。

2.2 中英文語料的選擇與輸入

自莎劇全集問世以來,英文版本為數(shù)眾多,受到人們推崇的版本主要有牛津版(1743)、撒繆爾·約翰遜版(1765)、里德版(1803)、和河畔版(1974),以及阿登系列版本(1899,1958,1995),等等。牛津版是托馬斯·漢默(Sir Thomas Hanmer)編輯的6卷本《莎士比亞作品集》,分別于1743年和1770年在牛津出版。該版本是早期版本中校勘比較仔細的。撒繆爾·約翰遜版是由《英語辭典》編撰者撒繆爾·約翰遜編輯的8卷本《莎士比亞戲劇集》,1765年在倫敦出版。該版本收入許多莎學(xué)名家的相關(guān)評論和編者所作的注釋。里德版是里德主編的莎學(xué)史上規(guī)模最大的21卷本《第一集注本》(The First Variorum)。該版本收入相關(guān)莎學(xué)評論和注釋,并附有詞匯索引。河畔版,即伊文斯(G.Blakemore Evans)主編的一卷本《河畔本莎士比亞》(The Riverside Shakespeare)(波士頓,1974),是目前在莎士比亞課堂教學(xué)中受到師生歡迎的版本?!栋⒌前嫔勘葋啞肥装嬷骶幨侵勘葋唽W(xué)者克雷格(W.J.Craig,1899——1906),后由另一著名莎士比亞學(xué)者珂斯(R.H.Case,1909——1924)繼任主編。第二版又稱《新阿登版莎士比亞》,主編是莎學(xué)家厄里斯-菲莫爾(UnaEllis-Fermor,1946——1958)教授,由繆修安出版公司(Methuen&Co.Ltd.)出版,收入莎士比亞37個劇本、兩首長詩和所有十四行詩。第3版《阿登版莎士比亞》由倫敦勒爾寧(Thomson Learning)公司出版,共收38個劇本。經(jīng)過討論,我們選擇莎劇全集的牛津版作為語料庫的英文語料。牛津版是公認??睖蚀_的版本,而且莎劇的不同語言譯本均譯自該版本。本語料庫擬選擇梁實秋、朱生豪和方平翻譯的3種莎劇全集作為中文語料,其中梁譯本和朱譯本都譯自牛津版。此外,牛津版莎劇全集的電子版可以從互聯(lián)網(wǎng)上免費下載,能省去英文語料輸入的大量工作。

就莎劇全集的漢譯本而言,比較知名的主要有曹未風(fēng)譯本、朱譯本、梁譯本和方譯本。曹未風(fēng)譯本由貴陽文通書局于1942年至1944年之間出版,收入曹未風(fēng)譯的莎劇劇本11部。朱譯本最早由世界書局出版(1947),后來分別由作家出版社(1954)、人民文學(xué)出版社(1978)、時代文藝出版社(1996)和譯林出版社(1998)等出版,收入莎劇共37部,其中31部為朱生豪所譯。梁實秋譯本由臺灣遠東圖書公司出版(1967),收入梁實秋翻譯的全部莎劇劇本。1995年,內(nèi)蒙古文化出版社和中國廣播電視出版社同期出版梁實秋翻譯的《莎士比亞全集》。方譯本《新莎士比亞全集》(河北教育出版社,2000),是由方平和梁宗岱參照歐美當代備受重視的Bevington全集本(1992年)與Riverside全集本(1974年),以詩體方式譯出,以更接近原作體裁和風(fēng)格,重現(xiàn)原作的意境與情態(tài)。我們根據(jù)譯本的影響及所收莎劇劇本是否齊全,最終確定了朱譯本、梁譯本和方譯本為語料庫的中文語料。

確定語料庫的中英文文本之后,我們便開始進行中英文語料的輸入。牛津版莎劇全集和朱譯本可從網(wǎng)上直接下載,并直接轉(zhuǎn)化成TXT格式。梁譯本也可從網(wǎng)上下載,但其格式為PDF格式,需轉(zhuǎn)換成TXT格式。方譯本目前還不能從網(wǎng)上下載,還需要使用高速掃描儀掃描或人工輸入。為保證語料庫的語料質(zhì)量以及研究的可靠性,我們組織人力仔細校對輸入后的語料,檢查語料是否有倒碼、拼寫錯誤以及具體內(nèi)容與藍本出入等現(xiàn)象,并及時予以更正。

2.3 語料的預(yù)處理

語料的預(yù)處理主要包括格式的統(tǒng)一、各種雜質(zhì)的清除和中英文語料的分存等。作為中文語料的3個漢譯本分別由不同出版社出版,文本格式如字體、段落編排和文檔格式等各不相同,加之語料輸入方法不同,語料格式問題十分突出。為此,我們首先確保3個漢譯文本格式的一致。應(yīng)當指出,直接從網(wǎng)上下載的語料,往往有多余的空格及空行、斷行、多余的語言符號,以及不必要的一些圖形或符號等。這些雜質(zhì)對于研究而言沒有什么實質(zhì)意義,直接影響著英漢語料平行的質(zhì)量。為去掉語料中多余的空行,我們采用word的替換功能,打開編輯菜單的“替換”對話框。在“查找內(nèi)容”的輸入框中單擊“高級”按鈕,選擇特殊字符“段落標記”兩次,這時輸入框中會顯示“^p^p”,然后在“替換為”輸入框中用上面所提的方法插入一個段落標記,即一個“^p”,再點擊“全部替換”,多余空行會被刪除。至于空格的刪除,我們采用替換功能把要刪除的空格復(fù)制一行粘貼于“要替換的內(nèi)容”里,下面“替換為”保持空,并按“全部替換”,便可刪除多余的空格。另外,上述莎劇漢譯本均附有數(shù)量不等的注釋,與研究內(nèi)容沒有多大關(guān)聯(lián),我們均將它們刪除。

在輸入并校對語料,清除雜質(zhì),統(tǒng)一語料格式之后,我們將每部莎劇的中英文語料分存,分存的每個文件均以英語命名,以便于文件的查詢和加載。文件名需交代戲劇名稱和語言載體等信息,中文語料的文件名還需說明譯者的姓名,如:戲劇《李爾王》英文語料文件名為King Lear_en.txt,中文語料文件名分別為King Lear_cn_liang.txt,King Lear_cn_zhu.txt和King Lear_cn_fang.txt。en意即“英語”,cn表示“漢語”,分別注明文本語言是英語還是漢語。liang,zhu和fang分別表示漢語語料的譯者為梁實秋、朱生豪和方平。

2.4 語料的分詞和標注

莎士比亞戲劇英漢平行語料庫選用ParaConc軟件對中英文語料進行平行處理,但與英語不同,漢語文字之間沒有空格,國外軟件不能對漢字進行識別和自動計算,常常出現(xiàn)倒碼現(xiàn)象。為此,我們選用漢語詞法分析軟件ICTCLAS對語料進行分詞處理。該軟件由中國科學(xué)院計算機技術(shù)研究所開發(fā),其分詞規(guī)范采用了中國國家標準GB13715“信息處理用現(xiàn)代漢語分詞規(guī)范”。該軟件的功能主要為詞匯切分和詞性標注。點擊該軟件的圖標,便出現(xiàn)以下窗口:

圖2.1 ICTCLAS菜單選項

在圖2.1中,選擇“操作選項”欄目下的“詞語切分”和“一級標注”或“二級標注”,以及“輸出格式”欄目下的“北大標準”、“973標準”或XML格式??紤]到“北大標準”與該軟件的兼容性很強,我們將“輸出格式”確定為“北大標準”。然后,選中“處理文件”,上載需進行詞語切分和詞性標注處理的中文語料,最后選中“運行”。這樣,漢語語料的分詞和詞性標注便可自動完成。

此外,我們還運用EmEditor軟件對中英文語料進行段落標注處理。由于戲劇通常以人物名稱作為段落的開始,故而將人物名稱作為段落標注的開始。我們在查找欄目中輸入正則表達式“n X”?!皀”表示“匹配一個新行”,“X”為具體人物名稱。在“替換為”欄目中依次輸入“</seg>n<seg>X”。<seg>標記表示“segment”。

然后,選中“使用正則表達式”和“全部替換”,這樣便完成了所有人物對話段落的標注。操作完成后的文檔如圖2.2所示。

圖2.2 進行分詞和段落標注處理的中文語料

2.5 語料的平行對齊

如前所述,英漢戲劇均以人物對話作為段落單位,我們故而運用ParaConc軟件,實現(xiàn)英語原著和漢譯本在人物對話層面的對齊,即段落對齊,之后在此基礎(chǔ)上進一步實現(xiàn)英漢語料句級層面的對齊。

首先,點擊ParaConc的“File”(文件)選項中的“Load Corpus Files”(加載語料庫文件),便會彈出語料庫文件加載對話框(見圖2.3)。

在“Parallel Texts”(平行文本)選項處選擇需要對齊的文本數(shù)目。本語料庫旨在實現(xiàn)一個英語文本與3個漢譯文本的對齊,故需要對齊的文本數(shù)應(yīng)為4。然后分別點擊“Add”(添加文本)選項,加載需要對齊的英漢語料,并將“align format”(對齊格式)設(shè)定為“start/stop tags”。ParaConc內(nèi)設(shè)“start/stop tags”(標記對齊)和“delimited segment”(定界符對齊)。前者支持句與句之間的對齊,后者支持段落之間的對齊。

其次,點擊“options”(選項)將段落標注的格式設(shè)定為“seg”和“/seg”,并單擊“OK”。這樣,ParaConc自動對英漢語料進行段落對齊處理。之后,點擊“Files”(文件)菜單下的“View Corpus Alignment”,選擇需要查看對齊狀態(tài)的英漢語料,并點擊“alignment”,便彈出語料平行對齊瀏覽窗口(見圖2.4)。

圖2.3 ParaConc語料庫文件加載對話框

圖2.4 ParaConc語料平行對齊瀏覽窗口

圖2.4顯示的是英漢語料段落之間的對齊,其中不同顏色表明語句之間的界限,即語句的開頭和結(jié)尾。在句子的開頭或結(jié)束,單擊鼠標右鍵,便會彈出語料句級對齊處理窗口。

圖2.5 ParaConc語料句級對齊處理窗口

選中“split segment”(分割對齊單位),或“merge with next/previous segment”(向下或向上合并對齊單位),對英漢語句進行拆解或合并處理,通過手工對齊的方式實現(xiàn)英漢語料之間句級對齊。

最后,在file(文件)菜單中選擇“Save Workspace”,保存實現(xiàn)英漢句級對齊的英漢語料。

2.6 小結(jié)

莎士比亞戲劇英漢平行語料庫的創(chuàng)建比較復(fù)雜,而且技術(shù)難度較大。該語料庫的建設(shè)主要包括語料的選擇和預(yù)處理、語料的標注和分詞處理,以及一個英語原著與3個漢語譯本的句級對齊。經(jīng)過幾年的探索和努力,我們最終掌握了英漢平行語料庫的建庫原則、路徑和具體方法,建成了現(xiàn)有庫容300余萬字詞的莎士比亞戲劇英漢平行語料庫。


上一章目錄下一章

Copyright ? 讀書網(wǎng) ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號