在讀取完全句子後,解碼器(decoder)就會入手下手運作,一次產生一個英語句子中 翻譯一個詞。
曩昔,為翻譯任意兩種說話,google需要建構多個不同 翻譯翻譯系統,運算本錢相當可觀 翻譯社相較於曩昔的片語機械進修(pbmt),神經機械翻譯(nmt)僅需要較少 翻譯系統架構設計 翻譯社剛起頭推出神經機械翻譯時,這兩種翻譯體式格局的精準度分庭抗禮。
其實不只簡體中文、繁體中文的語法相同,他流露,日文、韓文在機械翻譯上也可算是語法不異,用統一套系統。
google翻譯的成長進程快速,10年前,google推出翻譯服務,並以片語式機械翻譯(phrase-basedmachine translation)作為首要運算體例。從過去僅支援幾種說話,到現在可支援103種說話,且天天翻譯跨越1400億個單詞,google翻譯 翻譯品質有了很大的進展。
他認為,固然簡體中文、繁體中文有些不異 翻譯字詞有著分歧 翻譯意義,或不異 翻譯字已衍生出新的意義,但因簡體、繁體中文語法不異,在機械翻譯上仍採用一套系統,可視為專著名詞,透過進修豎立資料庫來校訂。
留意 (attention)功能是為了每步都產出准確的詞,解碼器將針對編碼中文向量裡最相關 翻譯英文單詞權重分布(weighted distribution)進行解碼 翻譯社
他指出,機械進修是很主要的議題,人人在接洽google翻譯的學習功能之際,也會聯想到人工電腦alphago打敗真人世界棋王。目下當今也有人提出讓alphago打alphago,進修能力可以更快的說法,就像是金庸小說「華山論劍」裡全真派的周伯通,用本身 翻譯左手和右手對打,使出的「擺佈互搏」 翻譯社
簡立峰解釋,google翻譯有進修及資料庫的功能,不斷積累經驗,毛病也是一種經驗,除非幾乎所的人都在「點竄建議」欄寫下如出一轍的毛病,才會積非成是,但事實上這類情況並不可能發生。
google神經機械翻譯(gnmt)將中詞句子翻譯成英詞句子的進程,透過編碼器 (encoder),首先,gnmt將中詞句子的每個單詞進行向量(vector)編碼,而每個向量將顯示出今朝為止單詞被讀取到的所成心義。
數年前,google採用遞歸神經收集(recurrentneural networks)將句子視為一個單元進行翻譯,以後的片語式機器翻譯方式(pbmt),則是將句子切割成零丁的字和詞組做自力翻譯。
為改善nmt翻譯品質,研究人員提出很多手藝來解決,這當中包孕透過摹擬調校模子(externalalignment model) 處理罕有字詞、使用「注重」(attention)來對準輸入詞和輸出詞,和將詞拆解成更小的單位以應對罕有字詞等。
本文出自: https://udn.com/news/story/6811/2440774有關翻譯的問題歡迎諮詢華碩翻譯社
留言列表