譯雅馨10年翻譯品牌,20000家企業(yè)見(jiàn)證的深圳翻譯公司
文件翻譯

文件翻譯

10年專業(yè)筆譯品牌?

陪同翻譯

陪同翻譯

10年數(shù)萬(wàn)場(chǎng)口譯

證件翻譯

證件翻譯

專業(yè)留學(xué)移民翻譯

本地化翻譯

本地化翻譯

多語(yǔ)言網(wǎng)站翻譯

小語(yǔ)種翻譯

小語(yǔ)種翻譯

89種語(yǔ)言服務(wù)

當(dāng)前位置:主頁(yè) > 翻譯者手冊(cè)

現(xiàn)有翻譯系統(tǒng)的技術(shù)瓶頸及發(fā)展趨勢(shì)

日期:2012-09-24 | 閱讀: 翻譯系統(tǒng), 發(fā)展趨勢(shì)
從商業(yè)觀點(diǎn)來(lái)看,目前的機(jī)器翻譯確已可以達(dá)成一些經(jīng)濟(jì)效益,協(xié)助需要大量翻譯的機(jī)構(gòu),迅速獲得外文資料。但從研究者的角度來(lái)看,許多機(jī)器翻譯的研究議題仍未有適當(dāng)?shù)慕鉀Q之道

從商業(yè)觀點(diǎn)來(lái)看,目前的機(jī)器翻譯確已可以達(dá)成一些經(jīng)濟(jì)效益,協(xié)助需要大量翻譯的機(jī)構(gòu),迅速獲得外文資料。但從研究者的角度來(lái)看,許多機(jī)器翻譯的研究議題仍未有適當(dāng)?shù)慕鉀Q之道。加以大部份的機(jī)器翻譯研究人員,并沒(méi)有實(shí)際運(yùn)轉(zhuǎn)機(jī)器翻譯系統(tǒng)的經(jīng)驗(yàn),因此,所研究的議題或方向難免偏向?qū)W院式的作法。而傳統(tǒng)的機(jī)器翻譯發(fā)展策略,大抵上是傳統(tǒng)語(yǔ)言學(xué)、形式語(yǔ)言學(xué)及少數(shù)人工智慧技術(shù)的綜合體。利用這些技術(shù)所發(fā)展的機(jī)器翻譯,在歷經(jīng)數(shù)十年的研究后,還是未能大量使用,顯示以往的作法有其先天上的限制。以我們多年發(fā)展及運(yùn)轉(zhuǎn)機(jī)器翻譯系統(tǒng)的經(jīng)驗(yàn)來(lái)看,傳統(tǒng)的機(jī)器翻譯架構(gòu)、發(fā)展模式及方法,主要的缺陷可以歸結(jié)為幾點(diǎn):

1. 缺乏一致性的歧義解決方案

由前面的架構(gòu)及原理,大家可以發(fā)現(xiàn)機(jī)器翻譯系統(tǒng)所要處理的細(xì)節(jié)相當(dāng)繁瑣。就技術(shù)層面來(lái)看,機(jī)器翻譯最大的問(wèn)題,即在於每一個(gè)處理步驟都充滿了不確定性 (uncertainty)及歧義性(ambiguity)。例如,"bank"可能當(dāng)動(dòng)詞或名詞使用,這是詞類的歧義;當(dāng)它做為名詞時(shí),可能是"銀行",也可能是"河岸",這是字義 (word sense)上的歧義;"I saw a girl with a telescope."可能是"看到一個(gè)帶著望遠(yuǎn)鏡的女孩"或者"用望遠(yuǎn)鏡看到一個(gè)女孩",這是修飾語(yǔ)修飾不同詞組所造成的語(yǔ)法歧義;"The police were ordered to stop drinking by midnight."句中的"police"可能是要阻止別人喝酒 (或其它飲料) 的人,也可能是被阻止繼續(xù)喝酒的對(duì)象,這是語(yǔ)意角色不同所造成的歧義;"She was elected the president of the United States bythe public."可以翻成被動(dòng)式的"她被大眾推選為美國(guó)總統(tǒng)"或主動(dòng)式的"大眾推選她為美國(guó)總統(tǒng)",這是轉(zhuǎn)換及生成過(guò)程產(chǎn)生不同句法結(jié)構(gòu)所造成的歧義。

這些歧義現(xiàn)象涵蓋的層次,包括分析(詞匯分析、句法分析、語(yǔ)意分析)、轉(zhuǎn)換(詞匯轉(zhuǎn)換、結(jié)構(gòu)轉(zhuǎn)換)、合成(結(jié)構(gòu)合成、詞素合成)等各個(gè)階層。每一種歧義現(xiàn)象都需要其它的訊息來(lái)幫忙解決。傳統(tǒng)的機(jī)器翻譯系統(tǒng),主要是依靠語(yǔ)言學(xué)家或電腦專家依現(xiàn)有的語(yǔ)言知識(shí),構(gòu)建一條條的規(guī)則,來(lái)決定在何種情況下該採(cǎi)取什麼行動(dòng)。這就是所謂的規(guī)則式機(jī)器翻譯 (rule-based MT)。遇有某一個(gè)層次不能解決的問(wèn)題,就利用更多細(xì)瑣的知識(shí),作更深一層的分析。無(wú)可否認(rèn)的,這種作法可以直接利用一些現(xiàn)有的語(yǔ)言學(xué)理論及人工智慧的理論,來(lái)構(gòu)建基本的機(jī)器翻譯系統(tǒng)。但是,當(dāng)系統(tǒng)由實(shí)驗(yàn)室的雛形系統(tǒng)轉(zhuǎn)化到大型的實(shí)際系統(tǒng),面對(duì)各式各樣的文章時(shí),問(wèn)題就來(lái)了。

首先遇到的問(wèn)題是,不管加入多少知識(shí),只要是沒(méi)有辦法把所需知識(shí)加全,不確定性及歧義現(xiàn)象就會(huì)存在。由於系統(tǒng)的整體績(jī)效直接與系統(tǒng)誤判的機(jī)率成正比,因此,降低系統(tǒng)誤判的機(jī)率,就成了首要的工作。在此情況下,系統(tǒng)必需利用一個(gè)評(píng)分的標(biāo)準(zhǔn),來(lái)作最少風(fēng)險(xiǎn)的判斷。目前各系統(tǒng)主要是以規(guī)則式系統(tǒng)為主,故鮮少對(duì)不確定之情況予以評(píng)分;許多系統(tǒng)在實(shí)驗(yàn)室發(fā)展時(shí),一遇到問(wèn)題就希望透過(guò)更深層的分析,或加入一些經(jīng)驗(yàn)法則進(jìn)去,來(lái)解決眼前所遇到的問(wèn)題,使得這樣的規(guī)則式系統(tǒng)混亂異常。事實(shí)上,要想利用一些一般性的規(guī)則,來(lái)解決復(fù)雜的語(yǔ)言問(wèn)題并不容易。而且,每加深一層分析時(shí),又會(huì)引入另一個(gè)層次的歧義現(xiàn)象。因此,并無(wú)法真正解決歧義及不確定性的問(wèn)題。

雖然有些規(guī)則式系統(tǒng)也採(cǎi)用評(píng)分的方式來(lái)處理不確定的情況,但所用的評(píng)分標(biāo)準(zhǔn)多數(shù)是缺乏學(xué)理根據(jù)的經(jīng)驗(yàn)法則。這種經(jīng)驗(yàn)式也許在實(shí)驗(yàn)室裡能針對(duì)少數(shù)例子予以調(diào)整至最佳狀況,但整體而言,并不能推廣到其它文章及領(lǐng)域,達(dá)到最佳化的結(jié)果,也無(wú)法用一種有系統(tǒng)、可控制的方式持續(xù)地改進(jìn)系統(tǒng)績(jī)效;當(dāng)系統(tǒng)修正某些法則或參數(shù)來(lái)處理某些問(wèn)題時(shí),表面上解決了這些問(wèn)題,實(shí)際上對(duì)其它問(wèn)題及整個(gè)系統(tǒng)的影響卻無(wú)法評(píng)估,甚至於造成不良影響。因此,系統(tǒng)會(huì)一直在反覆修正這些經(jīng)驗(yàn)法則的過(guò)程中打滾,很難擴(kuò)充到大型系統(tǒng)。

要突破這種技術(shù)瓶頸,唯有發(fā)展出一套客觀的評(píng)分函數(shù),利用有鑑別力的詞匯、語(yǔ)法及語(yǔ)意特徵作判斷,才能用最少的知識(shí),作最不具風(fēng)險(xiǎn)的判斷,同時(shí)隨時(shí)保持系統(tǒng)整體的績(jī)效。目前BehaviorTran所使用的評(píng)分方法,是結(jié)合詞匯、語(yǔ)法及語(yǔ)意模式與貝式?jīng)Q策法 (Baysian Decision Rule)所發(fā)展出來(lái)的一套評(píng)分函數(shù)[Su 88, 91, Liu 90, Chan 92a, Lin 92]。由於是利用最佳化的決策法則在語(yǔ)言模式之上,因此,理論上可以達(dá)到最少?zèng)Q策成本的最佳化結(jié)果。

2. 知識(shí)抽取不易

另一個(gè)問(wèn)題是,如何抽取這些繁瑣的知識(shí) (knowledge acquisition)而達(dá)到相當(dāng)?shù)暮w面,且在不斷更新的過(guò)程中,仍能維持這些知識(shí)的一致性。一般的機(jī)器翻譯系統(tǒng)最起碼要有一、二十萬(wàn)個(gè)詞匯、一兩千條分析文法,及一兩千組轉(zhuǎn)換規(guī)則才足敷使用。如何用人工把這些詞典資料一一填齊,而使得這裡面的規(guī)則保持一致,不會(huì)互相衝突,是個(gè)相當(dāng)耗時(shí)費(fèi)力、高成本、高難度的工程問(wèn)題。不要說(shuō)這種工作需要透過(guò)一群人來(lái)作,就算一個(gè)人包辦整個(gè)工作,也很難保持資料及規(guī)則的一致性。事實(shí)上,即便是將同一個(gè)詞給予適當(dāng)?shù)恼Z(yǔ)意分類,早上跟下午的想法都可能不一樣。更何況一套機(jī)器翻譯系統(tǒng)通常要?dú)v經(jīng)數(shù)年的時(shí)間,由一群不同知識(shí)背景的人經(jīng)手呢。這種人工抽取知識(shí)的方式,對(duì)一個(gè)實(shí)驗(yàn)式的系統(tǒng)也許已經(jīng)足夠,但對(duì)於實(shí)際運(yùn)作的大型系統(tǒng)而言,其涵蓋面和一致性就值得懷疑。而要維護(hù)一個(gè)這樣的系統(tǒng)也極為困難。

目前的趨勢(shì)是利用大量的語(yǔ)料,透過(guò)一些自動(dòng)或半自動(dòng)的統(tǒng)計(jì)方式來(lái)抽取必要的知識(shí)。例如,利用相鄰詞類間共存的頻率或機(jī)率,可以很準(zhǔn)確地由數(shù)百以至於數(shù)千種可能的詞類組合中,決定各個(gè)字的正確詞類。而以往使用規(guī)則來(lái)限制這種詞類共生現(xiàn)象時(shí),并無(wú)法作很完善的處理。

然而,純粹使用統(tǒng)計(jì)方式而不顧及語(yǔ)言本身的規(guī)律,也容易造成參數(shù)數(shù)目過(guò)大,而必需用極為龐大的語(yǔ)料,才能學(xué)習(xí)到語(yǔ)言學(xué)上已熟知的現(xiàn)象。例如,最近有些學(xué)者企圖利用極為簡(jiǎn)單的語(yǔ)言模式來(lái)表達(dá)翻譯的內(nèi)在行為,利用數(shù)百萬(wàn)句的雙語(yǔ)語(yǔ)料(加拿大國(guó)會(huì)會(huì)議記錄),來(lái)求取這種翻譯模式的參數(shù)。其結(jié)果雖然顯示部份的可行性,但由於所需的語(yǔ)料庫(kù)極為龐大,故受到學(xué)界相當(dāng)多的質(zhì)疑與批評(píng)。

因此,比較好的方式應(yīng)該是將一些已知的高層次語(yǔ)言學(xué)現(xiàn)象加以模式化,再利用統(tǒng)計(jì)的方式由語(yǔ)料中求得適當(dāng)?shù)哪J絽?shù)。如此,既可發(fā)揮語(yǔ)言學(xué)家歸納一般性語(yǔ)言規(guī)則及建立語(yǔ)言學(xué)模式的長(zhǎng)才,又可將繁瑣的知識(shí)抽取工作交給擅長(zhǎng)處理大量資料的電腦來(lái)處理,獲取一致性的模式參數(shù),避免人工抽取的問(wèn)題,同時(shí)減輕人工成本,可謂一舉數(shù)得。這種以語(yǔ)料為基礎(chǔ),架構(gòu)在高層語(yǔ)言知識(shí)上的統(tǒng)計(jì)方式,簡(jiǎn)稱CBSO (Corpus-Based Statistics-Oriented)方式[Su 92a],在最近一次召開(kāi)的機(jī)器翻譯理論與技術(shù)會(huì)議(TMI-92, 1992)中,已被評(píng)為綜合傳統(tǒng)語(yǔ)言學(xué)與統(tǒng)計(jì)技術(shù)的一種最可能的未來(lái)趨勢(shì)。

3. 單向式的系統(tǒng)設(shè)計(jì)

機(jī)器翻譯的另一個(gè)重要問(wèn)題,在於傳統(tǒng)的機(jī)器翻譯系統(tǒng)是一種單向式的設(shè)計(jì)。由於傳統(tǒng)的轉(zhuǎn)換式機(jī)器翻譯是遵循著『分析』、『轉(zhuǎn)換』及『生成』三個(gè)步驟一路作下來(lái),使得『轉(zhuǎn)換』及『生成』帶有濃厚的原始語(yǔ)言色彩。因此,英中翻譯系統(tǒng)的輸出通常成了『英文式的中文』,日中翻譯系統(tǒng)通常產(chǎn)生的是『日文式的中文』,而非道地的『中文式中文』。換言之,用來(lái)產(chǎn)生中文的生成文法與一般用的中文 (分析) 文法并不相同,而是由英文或日文文法套過(guò)來(lái)的文法。這種輸出,自然需要相當(dāng)?shù)男蘅槃?dòng)作,才能達(dá)到使用者的期望。為了避免使用這種具有原始語(yǔ)言傾向的目標(biāo)語(yǔ)生成文法,釜底抽薪的方式,乃是利用原始語(yǔ)言及目標(biāo)語(yǔ)言兩套文法,來(lái)?yè)?dān)任分析及生成語(yǔ)法,并利用原始語(yǔ)言及目標(biāo)語(yǔ)言所構(gòu)成的雙語(yǔ)語(yǔ)料庫(kù)(bilingual corpus)自動(dòng)學(xué)習(xí)轉(zhuǎn)換動(dòng)作及生成動(dòng)作[Chan 92b]。

4. 忽略語(yǔ)言特徵的鑑別力及強(qiáng)健性

由於許多機(jī)器翻譯研究人員具有計(jì)算機(jī)科學(xué)的學(xué)識(shí)背景,而人工智慧又強(qiáng)調(diào)知識(shí)表達(dá)方式 (knowledge representation)的重要,因此,不少機(jī)器翻譯的研究人員都相信,良好的知識(shí)表達(dá)方式有助於機(jī)器翻譯品質(zhì)的提昇。同樣地,許多語(yǔ)言學(xué)家也不斷尋求較適當(dāng)?shù)奈姆ㄐ褪?(grammar formalism),企圖用比較適當(dāng)?shù)恼Z(yǔ)法理論來(lái)表達(dá)或解釋同一種語(yǔ)言現(xiàn)象。這種作法并非沒(méi)有好處。但是,嚴(yán)格地說(shuō),知識(shí)表達(dá)方式只跟系統(tǒng)的表達(dá)能力(expressive power)有關(guān),而與最重要的歧義解決能力無(wú)關(guān)。一個(gè)看似簡(jiǎn)單的表達(dá)方式,就學(xué)理來(lái)看,可能與一個(gè)復(fù)雜的語(yǔ)法理論具有相同的表達(dá)能力 (例如,兩者可能都可以處理context-free型態(tài)的語(yǔ)言);其主要差別通常只在於表達(dá)的適切性及剖析的效率 (linguistic felicity, expressiveness, computational effectiveness),而非歧義解決能力。

一般而言,歧義解決能力主要視系統(tǒng)所採(cǎi)用的語(yǔ)言特徵(feature set)、這組語(yǔ)言特徵在實(shí)際語(yǔ)料中的行為或機(jī)率分佈(probabilistic distribution),及系統(tǒng)所採(cǎi)用的決策模式(decision rules)而定。因此,改善系統(tǒng)績(jī)效可以由幾方面來(lái)進(jìn)行。就語(yǔ)言特徵之選取而言,可以利用較有鑑別力的鑑別性特徵(discriminative features),來(lái)作決策依據(jù),而不一定是用很容易觀察到的特性式特徵(characteristic features)。採(cǎi)用良好的語(yǔ)言特徵及語(yǔ)言模式,有助於讓每一種不同的語(yǔ)言行為,在觀察空間中,都有個(gè)比較突出的機(jī)率分佈。如此,較容易判定某類行為應(yīng)該採(cǎi)取何種特定行動(dòng)。而良好的決策模式則可降低誤判所造成的風(fēng)險(xiǎn)。通常鑑別性的特徵可以由各種特性式特徵加權(quán)之后獲得,因此,使用具有增強(qiáng)鑑別力及強(qiáng)健性的學(xué)習(xí)策略,可在使用相同資料的情況下,改善系統(tǒng)的績(jī)效。

然而,一般的機(jī)器翻譯系統(tǒng)多數(shù)採(cǎi)用階層式的分析方法,詞匯分析無(wú)法解決的問(wèn)題即推給語(yǔ)法分析,語(yǔ)法分析無(wú)法解決的即推給語(yǔ)意分析,再無(wú)法解決的,便寄望於所謂的一般性知識(shí) (real world knowledge, common sense knowledge),較少?gòu)?qiáng)調(diào)在使用同樣的資訊下,如何強(qiáng)化系統(tǒng)的鑑別力 (discrimination power)及強(qiáng)健性 (robustness)。

實(shí)際上,一般系統(tǒng)雖然可依詞匯、語(yǔ)法、語(yǔ)意等步驟逐一分析。然而,系統(tǒng)分析的深度并非一成不便;有些資料未必有用,有些資料則與其它資料帶有相同的訊息,而形成冗贅的資料。這種加深分析層次的作法大致相當(dāng)於增加系統(tǒng)所用的語(yǔ)言特徵的維度(dimensionality)。依據(jù)語(yǔ)音處理及樣型識(shí)別等類似技術(shù)的經(jīng)驗(yàn),一味加深及加細(xì)系統(tǒng)分析深度,或增加系統(tǒng)據(jù)以制定決策的特徵,容易導(dǎo)致系統(tǒng)的知識(shí)庫(kù)過(guò)份偏向某些特定知識(shí),使系統(tǒng)對(duì)測(cè)試用的例句顯得相當(dāng)有效,但卻降低了系統(tǒng)對(duì)一般輸入的整體績(jī)效。

因此,目前新的作法是強(qiáng)調(diào)使用有鑑別力的語(yǔ)言特徵及語(yǔ)言模式,利用強(qiáng)健性的自動(dòng)學(xué)習(xí)策略來(lái)調(diào)整系統(tǒng)參數(shù);能在低層次分析中解決的問(wèn)題,儘量利用提高系統(tǒng)鑑別力及強(qiáng)健性的方式,在低層次分析中加以解決,而不再一味地加深分析的層次。這種作法,不僅使得系統(tǒng)能對(duì)可用的語(yǔ)言特徵作最有效的運(yùn)用,也因不過(guò)份使用深層的語(yǔ)言特徵,而減輕了知識(shí)抽取的負(fù)擔(dān)[Chia 92, Lin 92]。

5. 設(shè)計(jì)者與使用者的期望不同,系統(tǒng)改善的方向無(wú)法隨客戶需求變動(dòng)

前面已經(jīng)說(shuō)過(guò),目前研究人員已經(jīng)比較能認(rèn)清機(jī)器翻譯難以達(dá)成FAHQMT的事實(shí),故在設(shè)計(jì)系統(tǒng)時(shí),是以資訊抽取 (informationretrieval)等不需太高翻譯品質(zhì)的應(yīng)用為目標(biāo),系統(tǒng)改善則主要是以增加輸出的可讀性為主,以期減少譯后修繕的工作。不幸的是:(1)要求高品質(zhì)翻譯的使用者還是佔(zhàn)絕大多數(shù),這些使用者的基本要求是翻譯結(jié)果要能以出版品的型態(tài)出現(xiàn) (publishable),而不只是可以讀得通 (readable, understandable);(2)改善輸出的可讀性,一般是可以減少譯后修繕工作。但是,實(shí)際的實(shí)驗(yàn)顯示,兩者并非直接相關(guān);有時(shí)甚至於還會(huì)稍微增加修繕的成本。因?yàn)?,修繕成本正比於修繕到客戶所能接受的成品所需的編輯指?(editing stroke)個(gè)數(shù),而不是無(wú)法具體衡量的『可讀性』。

要解決這樣的問(wèn)題,首先要有客觀的方法,來(lái)衡量客戶可接受的標(biāo)準(zhǔn)與系統(tǒng)輸出的差距,并直接利用這樣的差距當(dāng)作回饋,來(lái)調(diào)整系統(tǒng)的參數(shù),以達(dá)到特定客戶所指定的詞匯及風(fēng)格。所謂客戶可接受的標(biāo)準(zhǔn),具體地說(shuō),就是客戶所提供的翻譯范例,或者以前為該特定客戶所翻譯的完稿稿件。根據(jù)這些客戶已接受的稿件,以及系統(tǒng)對(duì)這些稿件所產(chǎn)生的原始初稿,我們可以很客觀地計(jì)算出,兩者之間的差距到底要用多少個(gè)編輯指令才能修正過(guò)來(lái),以及需修正部份到底是因何原因而導(dǎo)致錯(cuò)誤。如此,即可將『客戶的期望』與『系統(tǒng)輸出』的差距,用具體的『修繕成本』表示出來(lái),并以此修正系統(tǒng)的行為。

要能實(shí)現(xiàn)這種架構(gòu),系統(tǒng)本身必需具有調(diào)適性 (adaptable)及可控制性 (controllable),而且可以將使用者的需求利用一條回饋的路徑併入系統(tǒng),隨使用者的需求調(diào)整系統(tǒng)的執(zhí)行行為,以達(dá)到整體的最佳化。因此,機(jī)器翻譯系統(tǒng)本身必需是一個(gè)可參數(shù)化的回饋系統(tǒng) (parameterized feedback control system);系統(tǒng)核心重要的決策模組,如辭匯分析、句法分析、語(yǔ)意分析、轉(zhuǎn)換模組及生成模組,都要能夠參數(shù)化,才有可能將客戶的回饋納入系統(tǒng),直接降低可能的修繕成本。

這種參數(shù)化的系統(tǒng),其特性是容易利用系統(tǒng)的參數(shù),以可預(yù)期的方式控制系統(tǒng)的執(zhí)行績(jī)效。而一般規(guī)則式系統(tǒng),基本上很難掌握不同規(guī)則之間的互動(dòng)關(guān)系及相互影響,無(wú)法預(yù)測(cè)增刪規(guī)則對(duì)整體績(jī)效可能造成的影響。因此,BehaviorTran 大約在開(kāi)始研究后的第三年,即開(kāi)始轉(zhuǎn)向這方面的研究。去 (1992)年,在全世界最大的計(jì)算語(yǔ)言學(xué)會(huì)議COLING-92上,提出參數(shù)化的回饋系統(tǒng)架構(gòu)時(shí),也引起不少學(xué)者的興趣與討論[Su 92b]。這種融合使用者期望的系統(tǒng)架構(gòu),勢(shì)將在未來(lái)的機(jī)器翻譯發(fā)展中,扮演一個(gè)重要的角色。

 

上一篇:機(jī)器翻譯與人工翻譯

在線預(yù)約,獲取專屬優(yōu)惠報(bào)價(jià)
您的姓名
您的電話
翻譯類別
在線咨詢
與我們?nèi)〉寐?lián)系
電話咨詢
免費(fèi)熱線:18038126442
關(guān)注微信
返回頂部