漢、藏、蒙、維多民族語言語音翻譯方法研究

日期：2014-02-28 | 閱讀：

漢語與少數(shù)民族語言之間機(jī)器翻譯的研究對于促進(jìn)少數(shù)民族地區(qū)經(jīng)濟(jì)文化發(fā)展具有很重要的意義，目前這方面可投入的人力物力是十分有限的。

漢語與少數(shù)民族語言之間機(jī)器翻譯的研究對于促進(jìn)少數(shù)民族地區(qū)經(jīng)濟(jì)文化發(fā)展具有很重要的意義，目前這方面可投入的人力物力是十分有限的。對于漢、藏、蒙、維語言之間互譯來說，基于中間語言的翻譯方法，是一種經(jīng)濟(jì)有效的途徑。介紹了一種基于中間語義表示(IF)實現(xiàn)漢、藏、蒙、維多語言語音翻譯的基本思想，并介紹了面向IF的魯棒的漢語口語解析方法以及基于IF的漢語英語生成方法。

2014年2月28日，據(jù)譯雅馨翻譯公司了解到，我國有56個民族，大多數(shù)的民族都有自己獨特的語言。隨著社會的發(fā)展，各民族之間的經(jīng)濟(jì)文化交流越來越頻繁，在此過程中，語言的差異是一個客觀現(xiàn)實，由此帶來的相關(guān)問題，是制約少數(shù)民族地區(qū)經(jīng)濟(jì)文化發(fā)展一個重要因素，因此，有必要進(jìn)行少數(shù)民族語言與漢語之間的多語言機(jī)器翻譯研究，這對促進(jìn)少數(shù)民族地區(qū)經(jīng)濟(jì)發(fā)展、促進(jìn)各民族之間文化交流以及民族團(tuán)結(jié)都具有重大的意義。另外，各個少數(shù)民族都有自己獨有的風(fēng)俗文化，對這些風(fēng)俗文化進(jìn)行研究、保護(hù)和開發(fā)，無論從社會還是經(jīng)濟(jì)上，都有著深遠(yuǎn)的意義，而語言是這些風(fēng)俗文化最直接的載體，這也對語言翻譯提出了要求。目前，少數(shù)民族語言的機(jī)器翻譯研究，雖然取得了一定的成績，但是，由于經(jīng)濟(jì)、文化、資源、歷史等眾多的原因，還停留在起步階段，很多問題都有待進(jìn)一步研究[12]。少數(shù)民族中，藏族、蒙古族和維吾爾族各自擁有本民族的語言，在自然語言處理方面的研究起步也比較早，有了一定的基礎(chǔ)，而且這三個民族地區(qū)人口比較多，因此，有必要把漢、藏、蒙、維語言之間的機(jī)器翻譯研究作為當(dāng)前的少數(shù)民族語言機(jī)器翻譯研究的一個主要任務(wù)。目前蒙古文機(jī)器翻譯系統(tǒng)有王斯日古楞等人研制的英蒙機(jī)器翻譯(English Mongolian Machine Translation,簡稱EMMT)系統(tǒng)，內(nèi)蒙古大學(xué)那順烏日圖等研制的漢蒙機(jī)器翻譯系統(tǒng),這兩個系統(tǒng)目前都尚處于研究階段[12]。藏語的計算機(jī)處理目前的研究重點大致包括藏文編碼標(biāo)準(zhǔn)及平臺建設(shè)、藏語語法研究、分詞標(biāo)準(zhǔn)、電子詞典建設(shè)等階段，也有一些機(jī)器翻譯系統(tǒng) [15]。關(guān)于維吾爾族語的計算機(jī)處理方面研究也主要集中在維吾爾語的編碼標(biāo)準(zhǔn)及平臺建設(shè)方面。

在諸多的機(jī)器翻譯實現(xiàn)方法中，有一種基于中間語言的方法，這種方法利用一種人工制定的標(biāo)準(zhǔn)語言作為語言翻譯的中介，即首先把源語言解析為中間語言的表示形式，然后再由這種中間語言生成目標(biāo)語言。對于一個多語言翻譯系統(tǒng)，如果采用轉(zhuǎn)換的方法，則不同方向的翻譯需要不同的翻譯模塊，比如英譯漢和漢譯英分別需要一個翻譯模塊。假設(shè)有N種語言需要進(jìn)行互譯，總共則需要N*(N-1)個翻譯模塊，而采用中間語言的方法，由于對每一種語言只需實現(xiàn)將該種語言翻譯成中間語言和把中間語言翻譯成該種語言這兩個模塊，對于N種語言之間的互譯，總共只需要2N個翻譯模塊，這一過程如圖 1所示，因此，采用基于中間語言的翻譯方法進(jìn)行多語言的互譯，能夠降低系統(tǒng)的復(fù)雜性，是一種經(jīng)濟(jì)有效的途徑。

非基于中間語言的方法，包括基于規(guī)則的轉(zhuǎn)換方法和基于語料庫的統(tǒng)計方法?；谝?guī)則的方法，首先需要對源語言進(jìn)行分析，然后根據(jù)目標(biāo)語言的特點，把分析結(jié)果轉(zhuǎn)換成目標(biāo)語言。這一過程中，除了要對源語言進(jìn)行各方面的研究外，還要對目標(biāo)語言進(jìn)行研究，需要懂源語言和目標(biāo)語言的專業(yè)人員編寫大量的規(guī)則和建立詞典。而基于語料庫的統(tǒng)計方法，則首先需要收集大量的雙語語料，即一句源語言對應(yīng)一句目標(biāo)語言，然后對雙語語料進(jìn)行對齊，在此基礎(chǔ)之上，進(jìn)行統(tǒng)計模型的訓(xùn)練?？傊?，無論是基于規(guī)則的轉(zhuǎn)換方法還是基于語料庫的統(tǒng)計方法，都需要投入比較多的人力和物力，而少數(shù)民族語言的機(jī)器翻譯研究，受到各種條件的限制，可投入的資源特別是人力是很有限的，因此，采用中間語言作為中介進(jìn)行翻譯，每個民族只需負(fù)責(zé)把本民族語言轉(zhuǎn)換為中間語言和把中間語言產(chǎn)轉(zhuǎn)換為本民族語言，就可以實現(xiàn)本民族語言和其他語言的互譯，這在一定程度上，能夠節(jié)省人力和物力，不失為一種可行的途徑。

早期的中間語言主要有法國的CETA實驗室的“樞軸語言”(pivot language)，該中心利用它進(jìn)行了數(shù)學(xué)、物理文獻(xiàn)方面的俄－法翻譯系統(tǒng)[16]， 2000年日本聯(lián)合國大學(xué)的Uchida提出了一種UNL(Universal Network Language)語言[19]，用來進(jìn)行多種語言的翻譯。成立于1990年的成立C-STAR(Consortium of Speech Translation Advanced Research)，提出了一種中間語義表示格式IF(Interchange Format)[8]。IF是針對特定領(lǐng)域的多語言電話語音同聲翻譯而設(shè)計的，目前IF涵蓋的領(lǐng)域包括旅游、就醫(yī)、體育比賽等特定場景。C-STAR由11個國家的著名研究機(jī)構(gòu)組成，目前該組織采納的語言包括漢語，英語，日語，德語，韓語，意大利語，法語等多種語言，并且其成員國以及包括的語言正在逐年地增加。我國中科院自動化所模式識別實驗室是C-STAR的中文代表，在2002年3月，他們與韓國電信研究所聯(lián)合演示了一個電話對話翻譯的原型系統(tǒng)，該系統(tǒng)面向旅館預(yù)定領(lǐng)域，首次實現(xiàn)了漢語－韓語之間的電話雙向翻譯。利用IF作為中介進(jìn)行語音翻譯的過程如圖 2所示。