10年專業(yè)筆譯品牌?
10年數(shù)萬場口譯
專業(yè)留學移民翻譯
多語言網(wǎng)站翻譯
89種語言服務(wù)
據(jù)譯雅馨翻譯公司了解到,話語翻譯技術(shù)研究是國家重點基礎(chǔ)研究發(fā)展規(guī)劃項目(973項目)“圖象、語音、自然語言理解與知識挖掘”的子課題之一(編號:G1998030504-01)。在該項目的資助下,課題組在數(shù)據(jù)資源建設(shè)、翻譯方法研究、實驗系統(tǒng)開發(fā)和國際合作等方面均確立若干主要的研究成果。
1 數(shù)據(jù)資源建設(shè)
大規(guī)模真實語料和數(shù)據(jù)是口語信息處理的基礎(chǔ)。但國內(nèi)真實口語語料資源十分缺乏,大規(guī)模的雙語對照口語語料尤其匱乏。因此,我們把基礎(chǔ)語料資源的建設(shè)作為一項首要的工作,有針對性地進行了口語語料、多語對照語料的收集和處理,建立了一個現(xiàn)場收錄的自然口語語料庫及一個通用的口語語料庫,并建立了多個大規(guī)模多語口語對照語料庫及專用語料庫。主要包括:
(1)收集旅游咨詢真實場景下的口語對話約90段,3000個對自然口語句,并在此基礎(chǔ)上對全部口語語料進行了標注和分析。
(2)與國際語音翻譯聯(lián)盟(C-STAR)成員聯(lián)合收集旅行過程中最常用的中-英-日三語對照句子各2萬多句,其中每個中文語句又由3個意義相近的句子構(gòu)成,約7萬句的規(guī)模。另外,與C-STAR成員聯(lián)合收集日常多領(lǐng)域多語言口語對照語句(每種語言)約20萬句。
(3)與國外有關(guān)研究機構(gòu)聯(lián)合收錄中國人名地名及機構(gòu)名約300多萬個,經(jīng)過分析處理后,用于識別人名地名、及機構(gòu)名稱。
2 基于多策略的口語翻譯方法
在口語翻譯方法研究中,我們先后提出了基于靈活模板的漢英口語直接翻譯方法、交互式口語翻譯方法,以及多翻譯引擎的串行工作策略等。這些新方法在我們的實驗系統(tǒng)中均取得了初步的成功。
基于靈活模板的直接翻譯方法是多引擎口語翻譯系統(tǒng)中采用的基本翻譯策略,使翻譯機制與語言保持較好的相對獨立性,便于實現(xiàn)語言擴充和系統(tǒng)向多領(lǐng)域移植。我們還提出了靈活的“柔性”翻譯模板匹配策略,既允許模板中出現(xiàn)關(guān)鍵詞和詞性變量,也允許多個候選關(guān)鍵詞以邏輯“或”的形式出現(xiàn),還允許跳過任意詞匯,并且語義特征可作為限制條件,目標語言生成也采用了靈活的處理方式。這個策略有效地克服了一般基于模板的翻譯方法對于翻譯句型缺乏靈活性、翻譯結(jié)果過于死板的弱點。測試結(jié)果表明基于模板的翻譯器可以對完全正確的文本輸入的語句得到70%以上的正確翻譯結(jié)果,對于語音識別模塊給出的前10個候選結(jié)果,可以獲得68%的翻譯正確率。
根據(jù)前面的分析,目前的語音翻譯實驗系統(tǒng)主要存在魯棒性差、翻譯正確率低的問題,其主要原因一方面源自于語音識別器有限的正確率和魯棒性,另一方面翻譯系統(tǒng)缺乏人機交互的能力,因此,我們提出了基于對話管理的交互式語音翻譯方法。在這種翻譯方法中,綜合了基于模板的翻譯方法、基于中間語義表示(IF)的翻譯方法、基于統(tǒng)計的翻譯方法和基于對話管理引導的槽填充翻譯模式等多種翻譯方法[Zong, 2002a],該方法在理論上體現(xiàn)了人充當翻譯角色時的基本工作方式和思維過程。
3 實驗系統(tǒng)開發(fā)
基于上述工作基礎(chǔ),我們先后開發(fā)了多個口語翻譯實驗系統(tǒng),其中包括上面提到的LodeStar中日、中英語音翻譯實驗系統(tǒng),基于C-STAR III翻譯平臺的中英雙向電話語音翻譯實驗系統(tǒng)和與韓國電子通信研究院(ETRI)聯(lián)合開發(fā)的基于C-STAR III翻譯框架的中韓雙向電話語音翻譯實驗系統(tǒng)。中韓雙向電話語音翻譯實驗系統(tǒng)建立在旅館預定領(lǐng)域,可識別韓語詞匯約16000個,中文詞匯約12000個,系統(tǒng)可以約2到3倍的實時速度運行。該系統(tǒng)于2002年3月在C-STAR III國際口語翻譯聯(lián)盟首次在我國召開的C-STAR研討會上成功地演示。
值得提及的是,目前自動化所模式識別國家重點實驗室正與北京首都信息集團公司等多家單位聯(lián)合開展面向2008年北京奧運會的多語言網(wǎng)絡(luò)信息服務(wù)系統(tǒng)的聯(lián)合攻關(guān)研究,其中,語音翻譯是重要的技術(shù)模塊之一。
4 國際合作
在本項目的資助下,口語翻譯研究在國際合作方面取得了重要進展,自動化所作為核心成員參與了國際七國語言電話語音自然口語互譯合作計劃,與國際上本研究領(lǐng)域最具實力和水平的大學和研究所共同合作。同時與日本ATR、韓國ETRI建立了長期的合作關(guān)系,與日本松下公司實現(xiàn)了富有成效的合作開發(fā)聯(lián)合實驗;與國際著名的法國機器翻譯研究所(GETA, IMAG)建立了良好的合作關(guān)系,雙方聯(lián)合開展中法口語翻譯技術(shù)的研究,雙方曾多次互派訪問學者,并就雙邊聯(lián)合培養(yǎng)碩士生、博士生一事達成協(xié)議;與Nokia中國研發(fā)中心建立了良好的合作關(guān)系,雙方就口語翻譯中的若干基礎(chǔ)問題,包括語料收集,語音識別等方面,聯(lián)合攻關(guān),并在已有的工作基礎(chǔ)上聯(lián)合參與了歐共體項目“面向多語種口語翻譯的詞匯處理(LC-STAR)”