色爽av-日本欧美国产-成人片在线播放-精品久久网-狠狠狠狠干-免费a在线观看-色老头一区二区三区-www.狠狠撸.com-少妇aa-free性欧美hd另类-欧美激情久久久久-国产视频手机在线观看-欧美91精品-www.欧美com-国产精品女同一区二区-www.猫咪av.com-www.av麻豆-亚洲永久精品在线观看-青青草华人在线视频-丰满少妇被猛烈进入高清播放

蒙狼科技logo
設(shè)為首頁| 聯(lián)系我們
咨詢熱線: 13917498722
  您的位置: 首頁 > 網(wǎng)站資訊 > 谷歌神經(jīng)翻譯引擎進(jìn)步了多少?

谷歌神經(jīng)翻譯引擎進(jìn)步了多少?

發(fā)布日期:2017/7/9

美國時(shí)間9月27日,谷歌公布推出谷歌神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯體系(GNMT),采用神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯(NMT)技術(shù)大幅提拔機(jī)器翻譯的水平,《麻省理工學(xué)院技術(shù)評(píng)論》雜志MIT TR 報(bào)道稱“幾乎與人類無異”。

效果是讓人耳目一新的。翻譯界偕行Michael Zhang在其微信公眾號(hào)“譯言千金”做了一次谷歌翻譯引擎新老版本和人工翻譯的對(duì)比:下文的“GT1”代表2016年3月份GT機(jī)譯效果;“GT2”代表2016年10月中旬GT機(jī)譯效果。

老版本的谷歌譯文是讓人你認(rèn)識(shí)的“機(jī)器文”:詞是對(duì)的,整句必要你在腦子里調(diào)整語序后再理解。新版本的譯文和人說話的語序幾乎一樣,和人工翻譯沒有大區(qū)別。

觸手可及的體感轉(zhuǎn)變觸動(dòng)了用戶和媒體的心弦:它就是我們通常認(rèn)為的那個(gè)會(huì)說人話的人工智能,科技的力量很推翻,至少“推翻了翻譯行業(yè)”。

谷歌引擎到底提高了多少?谷歌在發(fā)表的論文中列舉了幾個(gè)語向的翻譯錯(cuò)誤降落率。

其中英語到西班牙語降落了87%,英文到中文降落了58%。

“錯(cuò)誤率降落”是怎么回事?我的同事懸臂箱,商鵲網(wǎng)CTO魏勇鵬在接受雷鋒網(wǎng)的記者采訪時(shí)詮釋了谷歌是如何做的:

比如漢譯英。谷歌隨機(jī)從中文維基百科遴選500個(gè)句子,讓基于統(tǒng)計(jì)的老引擎PBMT、基于神經(jīng)網(wǎng)絡(luò)的GNMT和諳練譯員各自做一次上海做網(wǎng)站站百度搜索排行,譯文質(zhì)量打分從0到6分不等,6分為滿分。效果就是老引擎得分3.694,新引擎得分4.263,人工翻譯得分4.636。

錯(cuò)誤率計(jì)算體例為:

勇鵬告訴記者:“一、從3.6提拔到4.2,和從4.2提拔到4.6,這兩個(gè)所必要支出的努力程度,后者可能是前者的10倍以上都不止,但Google就簡單的線性計(jì)算為縮小了60%的差距。二、中英的人工翻譯,得到的評(píng)分也就只是4.6,比英西的人工翻譯要低得多,這點(diǎn)說明用來作為基準(zhǔn)的‘人’未必是靠譜的,以它為基準(zhǔn)來評(píng)估也未必靠譜。”

加拿大國家研究委員會(huì)NRC多語言處理研究組陳博興研究員在他的微信同伙圈發(fā)文給了一個(gè)評(píng)價(jià):

“谷歌所做的事情是將這兩年學(xué)術(shù)界神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯的多種技術(shù)做了一個(gè)整合集成,行使他們壯大的工程能力和計(jì)算能力,搭了一個(gè)很好的體系。他們的單體系比我行使開源訓(xùn)練的體系在統(tǒng)一個(gè)數(shù)據(jù)集上要好了也許3個(gè)多BLEU值。【注:BLEU標(biāo)準(zhǔn)是美國商務(wù)部部屬的國家標(biāo)準(zhǔn)與技術(shù)研究所NIST舉辦的一項(xiàng)機(jī)器翻譯研究水平評(píng)測,其原理是比較機(jī)譯效果和人譯效果的相似度,完全同等得分為100(當(dāng)然不同的人的翻譯很難“完全同等”,所以得分100為理想值)。2008年NIST的英文-中文的機(jī)器翻譯評(píng)測效果,谷歌翻譯得分41.42。】3個(gè)多BLEU的差距,假如由人來判斷,細(xì)心看的話,是能感覺到的,但是也就是一個(gè)小的提高,談不上突破什么的。

“對(duì)于他們(谷歌發(fā)表)的文章,我覺得有兩個(gè)遺憾的地方:1.所采用的技術(shù)都是之前發(fā)表過的,沒有全新的技術(shù)(對(duì)google的要求天然要高一點(diǎn),呵呵)。2. 假如我們有那么大的計(jì)算和工程能力以及那么多人力可以投入,即使只是整合已有技術(shù),我覺得我們可以做得更好,比如我會(huì)加上清華大學(xué)劉洋他們首先采用的風(fēng)險(xiǎn)訓(xùn)練方法來進(jìn)行訓(xùn)練,等等。”

陳先生提到的劉洋在接受媒體采訪時(shí)淡淡地說:“谷歌做的其實(shí)是把目前學(xué)術(shù)界的一些技術(shù)集成在一路。谷歌自己的數(shù)據(jù)、運(yùn)算能力,還有工程師水平都特別很是高,所以他們通過集成做了一個(gè)特別很是強(qiáng)的體系,這個(gè)體系和傳統(tǒng)方法相比有比較明顯的進(jìn)步。但媒體的報(bào)道有點(diǎn)夸張,并不能說機(jī)器翻譯已經(jīng)接近人的水平,或者完全庖代人。谷歌這項(xiàng)工作還達(dá)不到 ‘推翻性突破’ 這種程度。”

專業(yè)人士的評(píng)價(jià)和通俗用戶的體感不完全同等。于是懂行的故意人找出了一些風(fēng)趣的谷歌翻譯案例。加拿大博芬翻譯公司的趙杰打算寒假回過年,在網(wǎng)上查詢找到一家合適的酒店,各種條件都不錯(cuò),但是看到價(jià)錢時(shí)含糊了,“The price is quite high”。老趙找到酒店的原版中文介紹,原文是“性價(jià)比相稱高”,谷歌給的譯文把意思給弄反了。

谷歌新翻譯引擎在穩(wěn)當(dāng)處理原文譯文語序的同時(shí),出現(xiàn)了一些莫名其妙的題目。

引擎把“美美”翻成了“美國和美國”,而一個(gè)標(biāo)點(diǎn)或者一個(gè)近義詞的改變,會(huì)讓它的譯文發(fā)生很大的轉(zhuǎn)變,甚者譯文會(huì)意思迥異。相比之下,采用統(tǒng)計(jì)原理訓(xùn)練的有道翻譯則把“我想美美地睡一覺”和“我要美美地睡一覺”給出了同樣的英文譯文。

“谷歌的新引擎的錯(cuò)誤無法追溯。”中科院主動(dòng)化所的張家俊副研究員說,多層神經(jīng)網(wǎng)絡(luò)的算法模型的計(jì)算過程是一個(gè)黑盒子,人無法理解息爭釋程序主動(dòng)學(xué)習(xí)的過程。“谷歌的新引擎在語言流利性有大幅度進(jìn)步,但是在原文忠誠度上沒有顯明轉(zhuǎn)變。”張家俊說。

普通化的話來講,統(tǒng)計(jì)型翻譯引擎的基礎(chǔ)數(shù)據(jù)是雙語對(duì)齊的詞、短語和句子,數(shù)據(jù)對(duì)齊的精度越高翻譯質(zhì)量也越高。但是數(shù)據(jù)精度越高,也意味著在現(xiàn)實(shí)應(yīng)用中命中的概率也越低。曩昔以谷歌的壯大計(jì)算能力和的語言數(shù)據(jù),也無法在窮盡各種語境、各種文句上可以再上一個(gè)臺(tái)階,谷歌的統(tǒng)計(jì)型翻譯引擎的BLEU值好幾年維持在40+的水平而無法顯明進(jìn)步。

神經(jīng)網(wǎng)絡(luò)的算法不再依靠人對(duì)語言的理解(詞、短語和句子的對(duì)齊譯法),在許多語種中把詞切分到字母的層級(jí)(即Subword),比如詞根、后綴等,對(duì)原文各個(gè)詞之間的關(guān)系也計(jì)算得更加過細(xì)。谷歌新翻譯引擎的神經(jīng)網(wǎng)絡(luò)達(dá)到了八層,計(jì)算的過程耗費(fèi)了偉大的計(jì)算能力。這有賴于谷歌本身開發(fā)專門面向深度學(xué)習(xí)的TPU處理器,其單位耗電量的性能達(dá)到GPU和FPGA的10倍,且不外賣。

“神經(jīng)機(jī)器翻譯NMT體系是個(gè)好東西,但相對(duì)傳通盤計(jì)機(jī)器翻譯SMT來說,體系部署所需硬件投入至少漲十幾倍。舉個(gè)例子,拋開翻譯性能而言,像采用我們組裝的支撐4塊GPU的服務(wù)器,NMT體系在如許一臺(tái)價(jià)值4萬多元的服務(wù)器上運(yùn)行速度和吞吐,才接近于SMT體系在3000多元的PC機(jī)上的性能。假設(shè)用戶為了知足大規(guī)模吞吐和翻譯工作的話,比如必要100臺(tái)機(jī)器的話,基于小牛翻譯SMT版本只必要投入30多萬硬件,但知足同樣的性能假如采用小牛翻譯NMT體系可能必要投入400多萬硬件。真的期待硬件成本繼承降落,才能真正讓小牛翻譯NMT體系真正走入中小企業(yè)啊。”小牛翻譯的創(chuàng)始人、東北大學(xué)朱靖波教授感觸道。

谷歌新引擎的發(fā)布讓機(jī)器翻譯行的專業(yè)人士達(dá)成了同等:神經(jīng)網(wǎng)絡(luò)算法的翻譯引擎庖代傳統(tǒng)引擎是行業(yè)趨勢。但“庖代”是拋棄照舊迭代?這是一個(gè)龐大的題目,它意味著諸多傳統(tǒng)機(jī)器翻譯研究學(xué)者和行業(yè)從業(yè)者如何跨入下一步?

張家俊在10月下旬發(fā)表了一篇論文,宣布了他做的一項(xiàng)研究。他使用了一些傳統(tǒng)詞典的雙語數(shù)據(jù)支撐神經(jīng)網(wǎng)絡(luò)的翻譯引擎。因?yàn)樗惴ǖ牟煌@些詞典的詞對(duì)齊數(shù)據(jù)無法直接被神經(jīng)網(wǎng)絡(luò)的引擎使用。佳俊找到一些使用這些詞的公開語句,行使傳統(tǒng)引擎翻譯成英文,再把這些復(fù)活成的數(shù)據(jù)作為神經(jīng)網(wǎng)絡(luò)引擎的源數(shù)據(jù)。在訓(xùn)練后的翻譯引擎測試數(shù)據(jù)中,假如有100個(gè)低頻詞被詞典覆蓋,接近80個(gè)可以得到譯文,匹配度接近80%。

“把現(xiàn)有的詞典都照你的方法處理成神經(jīng)網(wǎng)絡(luò)引擎的語料,它的詞的正確度就能大幅度進(jìn)步嗎?”筆者問張先生。家俊說:“不是的。我給的數(shù)據(jù)是傳統(tǒng)翻譯引擎的譯文,有很大的噪音,因此不能說數(shù)據(jù)越多結(jié)果越好。”

張家俊說傳統(tǒng)研發(fā)的積累,讓他得以在新舊引擎之間找到了一些可以繼續(xù)并創(chuàng)新的方法,為神經(jīng)網(wǎng)絡(luò)翻譯引擎的提高提出補(bǔ)缺的新思路。

陳博興研究員說:“機(jī)器翻譯在可以預(yù)見的將來庖代不了人工翻譯。尤其是如今的人工翻譯的市場跟機(jī)器翻譯的市場基本上不重合,人工翻譯對(duì)準(zhǔn)的是高端市場,要求很的翻譯需求,而機(jī)器翻譯則是1,要求不那么的翻譯情景,比如旅游,比如網(wǎng)頁欣賞,比如信息監(jiān)控等等。2,機(jī)器翻譯幫助專業(yè)翻譯人員進(jìn)步服從。假如中國對(duì)交際流的程度達(dá)到歐美如今的程度,那么中國的高端翻譯市場將會(huì)是無比偉大的。有志于從事翻譯的同窗,放心勇敢地進(jìn)來吧。”

“舉例來說,理想的法律翻譯是100分,現(xiàn)實(shí)工作達(dá)到95或98分就很好了,80分、85分、95分的質(zhì)量,收入/報(bào)酬的差別不是以五個(gè)百分點(diǎn)計(jì)算,而是以倍數(shù)計(jì)算。PE(注:譯后編輯,一種新的翻譯工作模式,譯員基于機(jī)器翻譯的效果進(jìn)行校對(duì)編輯優(yōu)化)假如沒有能力提拔那幾個(gè)百分點(diǎn),那和機(jī)器翻譯沒啥差別,報(bào)價(jià)、收入一樣上不去。”微博上的一個(gè)資深法律譯者,@readthinker99 對(duì)譯后編輯的看法。

神經(jīng)網(wǎng)絡(luò)翻譯引擎NMT對(duì)翻譯行業(yè)的益處是它給出的效果更吻合人的敘述風(fēng)俗,可用的部分更多,而從事譯后編輯的譯員可以更專注在垂直的專業(yè)術(shù)語短語上給出好的翻譯,是一石二鳥服從進(jìn)步成本降低的好事情。

——————————

后記:

大賭注

面對(duì)神經(jīng)網(wǎng)絡(luò)計(jì)算的黑盒子,身在現(xiàn)實(shí)研究和開發(fā)中的專家基本上都和陳博興老師持雷同態(tài)度:機(jī)器翻譯離理解人類語言還很遠(yuǎn),可見的時(shí)間里跨語種的深入交流必要借助有專業(yè)外語能力的人工幫助。由于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)體例和基于統(tǒng)計(jì)的機(jī)器翻譯算法一樣,都沒有涉及到語義的理解。無論如今神經(jīng)翻譯引擎讀起來有多接近人的話語,這個(gè)軟件其實(shí)“不理解”它計(jì)算出來的譯文的意思。

人類對(duì)本身身認(rèn)知過程的運(yùn)轉(zhuǎn)機(jī)制,還處于很淺層的研究階段,腦科學(xué)還無法還原大腦在思考一個(gè)題目的心理過程。英國物理學(xué)家、認(rèn)知學(xué)家戴維·多伊奇教授的看法是:“由于在其核內(nèi)心有一個(gè)懸而未決的哲學(xué)題目:我們還不了解創(chuàng)造性如何運(yùn)作。”所以人類也就無法復(fù)制創(chuàng)造的過程。這幾乎是人對(duì)自身認(rèn)知、對(duì)人工智能AI的清醒的一個(gè)出發(fā)點(diǎn),但是神經(jīng)網(wǎng)絡(luò)研究者給了另外一條路徑。

清華大學(xué)的韓鋒先生給一本譯著《重新定義智能》作序著文《讓“人腦”走下神壇》,該文寫于Alphago與李世石大戰(zhàn)的過程中。其重要論點(diǎn)是,物理研究已經(jīng)知道事物或體系有自相似性,基于一種重整化群的方法,使用神經(jīng)網(wǎng)絡(luò)的算法和夠大的計(jì)算能力,可以計(jì)算出有計(jì)算機(jī)智能的邏輯,并得以詮釋對(duì)象,比如Alphago克服了李世石。(詳細(xì)闡述過程請參見原文)

韓先生的點(diǎn)出了大部分機(jī)器翻譯專家面對(duì)的一個(gè)隱蔽題目:他們認(rèn)為以可靠的能力和認(rèn)知,機(jī)器無法理解人。但是誰也不能確認(rèn)下一步神經(jīng)網(wǎng)絡(luò)會(huì)算出什么?那么韓鋒先生提出來得可能性不能被證偽。霍金、馬斯克說的機(jī)器威脅人類,也同樣不能被證偽。

真風(fēng)趣啊。AI時(shí)代,人類認(rèn)知學(xué)的大家伙廣告策劃,擁有大數(shù)據(jù)的公司都在面對(duì)、覬覦或憂慮有一個(gè)潘多拉的盒子被打開。更多的人則充滿熱情和信念、欣喜地預(yù)備歡迎新的AI的提高,并計(jì)算現(xiàn)有的數(shù)據(jù)和能力,在那能做什么。萬一沒實(shí)現(xiàn)呢,我們也不會(huì)失去將來。

(本文得到了我的同事魏勇鵬、胡日勒的專業(yè)支撐)

作者:鄒劍宇





其他相關(guān)文章
  • 跳出低價(jià)怪圈是網(wǎng)站建設(shè)公司持續(xù)運(yùn)營的先決條件
  • 破解電子商務(wù)“燒錢”之謎
  • 探討404頁面的作用和如何設(shè)置
  • 基本配色——熱情
  • 選擇網(wǎng)站空間要注重的問題
  • 網(wǎng)站設(shè)計(jì)做好不容易 如何打造出不一樣的企業(yè)網(wǎng)站?




  • 企業(yè)網(wǎng)站后臺(tái)使用
    購物網(wǎng)站后臺(tái)使用
    網(wǎng)站產(chǎn)品圖片的處理



    農(nóng)業(yè)銀行支付
    建設(shè)銀行支付
    郵政儲(chǔ)蓄銀行支付



    企業(yè)網(wǎng)站建設(shè)
    整站建設(shè)
    購物網(wǎng)站



    企業(yè)網(wǎng)站建設(shè)建議
    注冊適合自己的域名
    什么是虛擬主機(jī)




    售前咨詢QQ: 838821345
    售后服務(wù)QQ: 464698733
    應(yīng)急手機(jī):13917498722


    微信掃一掃
    添加24小時(shí)微信客服


    郵箱:lang@MENGL.CN
    地址:上海寶山區(qū)城銀路555弄2號(hào)樓3樓
    ICP備案:滬ICP備12042844號(hào)-3
     滬公網(wǎng)安備:31011402002917號(hào)
    做網(wǎng)站 | 企業(yè)網(wǎng)站建設(shè) | 上海做網(wǎng)站 | 企業(yè)網(wǎng)站制作 | 做網(wǎng)站的公司 | 關(guān)于蒙狼 | 整站建設(shè) | 購物網(wǎng)站 | 企業(yè)網(wǎng)絡(luò)營銷 | 成功案例 | 加盟代理 | 在線訂單
    服務(wù)區(qū)域: 臨港新區(qū)做網(wǎng)站 徐匯做網(wǎng)站 閔行做網(wǎng)站 長寧做網(wǎng)站 虹口做網(wǎng)站 黃浦做網(wǎng)站 盧灣做網(wǎng)站 靜安做網(wǎng)站 浦東做網(wǎng)站 楊浦做網(wǎng)站 普陀做網(wǎng)站 閘北做網(wǎng)站 寶山做網(wǎng)站 嘉定做網(wǎng)站 松江做網(wǎng)站 昆山做網(wǎng)站
    Copyright 2012-2025 上海蒙狼網(wǎng)絡(luò)科技有限公司 www.zyoil.cn All Rights Reserved