以人為本,本在心;以厚為道,道在行
厚溥官網(wǎng) 景寧人力

厚溥·2018年(第一批)產(chǎn)學(xué)合作協(xié)同育人: 點(diǎn)擊查看申報指南

企業(yè)郵箱 中文 English

新聞中心

您的位置:HOME > 新聞中心 > 內部周刊
  • 武漢厚溥企業(yè)
  • Wuhan HOPU

人工智能,能否助人類(lèi)重建“巴比倫塔”

發(fā)布時(shí)間:2016-12-20 來(lái)源:


假如上帝真的存在,他最近可能有些心事。
 
在猶太人的古老傳說(shuō)中,人類(lèi)曾試圖修建一座通向天堂的“巴比倫塔”。為阻止這個(gè)瘋狂的計劃,上帝想出一個(gè)絕招——賦予不同族群不同語(yǔ)言,讓人們難以溝通。
 
最終,語(yǔ)言的隔閡讓“巴比倫塔”計劃擱淺。直到今天,即便信息和交通技術(shù)把世界變成了“地球村”,語(yǔ)系之間的交流,依然只能依靠對彼此語(yǔ)言的專(zhuān)業(yè)學(xué)習。
 
但是現在,人工智能在語(yǔ)言翻譯領(lǐng)域的突飛猛進(jìn),又讓人們重新看到了“巴比倫塔”竣工的希望。
 
九成六級考生不如“它”
 
這段時(shí)間,機器翻譯技術(shù)可謂高調。
 
微軟剛剛在12月13日放出“大招”——推出實(shí)時(shí)語(yǔ)音翻譯應用MicrosoftTranslator,支持多人、多語(yǔ)言、跨設備交流。國內企業(yè)并未示弱。上個(gè)月底科大訊飛在其年度發(fā)布會(huì )上也展示了類(lèi)似的技術(shù),可以將中文會(huì )議演講實(shí)時(shí)翻譯成英、日、韓、維吾爾等多種語(yǔ)言顯示在大屏幕上。發(fā)布會(huì )上推出的語(yǔ)音翻譯機“曉譯”還瞄準了更廣闊的應用場(chǎng)景——出國游玩。
 
平時(shí)不顯山不露水的在線(xiàn)翻譯應用也已華麗升級。今年9月,谷歌翻譯啟用了谷歌神經(jīng)機器翻譯(GNMT)系統,在人工智能界引起騷動(dòng)。而追溯至去年5月,則是百度翻譯發(fā)布基于神經(jīng)網(wǎng)絡(luò )的機器翻譯(NMT)系統的時(shí)間。
 
機器翻譯的高調,依賴(lài)于人工智能技術(shù)在這一領(lǐng)域的顯著(zhù)進(jìn)展。
 
百度主任架構師何中軍介紹,自上世紀40年代起,基于規則、實(shí)例以及統計的機器翻譯方法漸次登場(chǎng)。2014年起,人工神經(jīng)網(wǎng)絡(luò )開(kāi)始在機器翻譯領(lǐng)域引領(lǐng)風(fēng)騷。
 
“最終的翻譯效果就是更加流暢了。”科大訊飛機器翻譯研究主管劉俊華告訴科技日報記者,科大訊飛所展示的會(huì )議實(shí)時(shí)翻譯系統和“曉譯”翻譯機便應用了基于神經(jīng)網(wǎng)絡(luò )的機器翻譯方法。
 
若問(wèn)人工智能的到來(lái)把機器翻譯“提”到了什么水平,何中軍舉出一道大學(xué)英語(yǔ)六級翻譯真題。這道題需要把一句中文翻譯成英文,而百度翻譯應用給出的答案,從詞匯和語(yǔ)法來(lái)看都挑不出什么毛病。
 
無(wú)獨有偶,科大訊飛在推介其“曉譯”翻譯機時(shí)也曾表示它可以達到大學(xué)英語(yǔ)六級水平。“大學(xué)英語(yǔ)六級的翻譯題目滿(mǎn)分為15分,目前機器翻譯答題可以達到11分。”劉俊華解釋說(shuō),這意味著(zhù)機器翻譯技術(shù)大概可以超過(guò)90%的英語(yǔ)六級考生。
 
“煉丹爐”取代了“流水線(xiàn)”
 
就在兩三年前,“流暢”和“自然”還是讓機器翻譯研究人員感到頭痛的字眼。那時(shí),基于統計的機器翻譯方法是大熱門(mén)。
 
短短兩年多時(shí)間內,基于神經(jīng)網(wǎng)絡(luò )的機器翻譯系統,就在多個(gè)公開(kāi)測試集上超越了基于統計的機器翻譯系統。
 
單從翻譯步驟來(lái)看,劉俊華的體會(huì )是,基于神經(jīng)網(wǎng)絡(luò )的機器翻譯比其前任“簡(jiǎn)潔了非常多”。比如,要把一句中文翻譯成英文,基于統計的機器翻譯方法首先要對句子的詞匯、短語(yǔ)進(jìn)行切分,然后分別對每個(gè)單元進(jìn)行翻譯,再把翻譯結果組合起來(lái),最后還要進(jìn)行調序等等。每個(gè)步驟都對應著(zhù)十分復雜的模型。
 
形象地說(shuō),如果基于統計的方法是一條長(cháng)長(cháng)的流水線(xiàn),基于神經(jīng)網(wǎng)絡(luò )之后只需一個(gè)“煉丹爐”。
 
新方法被稱(chēng)為“從端到端”的翻譯。“基本的神經(jīng)機器翻譯模型包含兩個(gè)部分,編碼器和解碼器。”何中軍解釋說(shuō),編碼器將源語(yǔ)言句子表示為一個(gè)向量,解碼器根據此向量逐詞產(chǎn)生目標譯文。也就是說(shuō),一個(gè)句子經(jīng)過(guò)一次“加工”就能夠直接輸出目標語(yǔ)言。
 
不僅翻譯效率得到了極大提高,結果也更加流暢自然。這是因為,神經(jīng)機器翻譯方法是對整個(gè)句子進(jìn)行編碼處理,可以照顧到詞匯的上下文信息,因此翻譯出的答案不像統計機器翻譯方法那樣生硬。
 
正是“流暢”和“自然”將機器翻譯技術(shù)推向更加實(shí)際的應用。而且在與其他人工智能技術(shù)相結合后,機器翻譯可以真正觸到人們語(yǔ)言不通的“痛點(diǎn)”,從而深度切入商務(wù)、旅行、學(xué)習等多個(gè)場(chǎng)景。
 
例如,無(wú)論是微軟的MicrosoftTranslator,還是科大訊飛的會(huì )議實(shí)時(shí)翻譯系統以及“曉譯”翻譯機,都結合了語(yǔ)音識別技術(shù)來(lái)為語(yǔ)言交談架起橋梁。而融入了光學(xué)字符識別(OCR)技術(shù)的百度翻譯APP,則可以在國外購物或旅游的場(chǎng)景下,幫助人們翻譯看不懂的英文路牌、菜單和說(shuō)明書(shū)等。
 
等待打破“嘆息”之墻
 
可以看到,人工智能正在一點(diǎn)一點(diǎn)“捅破”人與人之間的語(yǔ)言隔閡。有網(wǎng)友戲言,或許不久后的一天,揣著(zhù)裝了高效語(yǔ)言翻譯APP的手機,鄰居大媽也能來(lái)一場(chǎng)說(shuō)走就走的世界旅行。所有國家的學(xué)生將徹底掙脫外語(yǔ)課的“黑暗統治”。
 
不過(guò),要把重建“巴比倫塔”的美夢(mèng)寄托給當前、乃至未來(lái)一段時(shí)間內的機器翻譯技術(shù),還是有點(diǎn)不太現實(shí)。
 
“基于神經(jīng)網(wǎng)絡(luò )的翻譯技術(shù)雖然帶來(lái)了機器翻譯質(zhì)量的較大提高,但是本身還存在諸多技術(shù)挑戰。”何中軍說(shuō)。他把神經(jīng)網(wǎng)絡(luò )比作一個(gè)“黑盒子”,中文句子進(jìn)去,英文句子出來(lái),但是這個(gè)“黑盒子”為何要這么翻譯,技術(shù)人員還難以對其進(jìn)行合理的解釋。
 
更重要的是,復雜、多變,我們自己都掌握不住的“人性”,仍然是所有人工智能發(fā)展的嘆息之墻。
 
雖然對單個(gè)句子的翻譯可以實(shí)現流暢和自然,但是在整個(gè)篇章的上下文理解方面,機器翻譯并不給力。一旦涉及歇后語(yǔ)、詩(shī)句、雙關(guān)語(yǔ)甚至口語(yǔ)化的表達,機器翻譯更會(huì )毫不掩飾地掉鏈子。而對于如何將知識融合到機器翻譯系統中,讓機器真正“理解”人類(lèi)的語(yǔ)言,目前還沒(méi)有較好的解決方案。
 
從另一個(gè)角度來(lái)看,無(wú)論是基于統計的機器翻譯,還是基于神經(jīng)網(wǎng)絡(luò )的機器翻譯,都以龐大的語(yǔ)料庫為基礎。然而劉俊華告訴科技日報記者,雖然中、英等主要語(yǔ)種的語(yǔ)料相對充足,一些小語(yǔ)種的翻譯,比如科大訊飛目前關(guān)注的國內少數民族語(yǔ)言的翻譯,依然會(huì )面臨語(yǔ)料短缺的問(wèn)題。
 
“目前的成果可以證明,神經(jīng)網(wǎng)絡(luò )在語(yǔ)言翻譯領(lǐng)域的應用效果不錯,但它的潛力還沒(méi)有完全發(fā)揮出來(lái)。”劉俊華給出的方案是,可以考慮將其他技術(shù)路線(xiàn)與基于神經(jīng)網(wǎng)絡(luò )的機器翻譯方法融合起來(lái),使其各施所長(cháng),實(shí)現更好的翻譯效果。
 
人工智能會(huì )不會(huì )取代專(zhuān)業(yè)的同聲傳譯?這個(gè)簡(jiǎn)單的問(wèn)題竟讓機器翻譯領(lǐng)域的專(zhuān)家們感到為難。何中軍用“任重道遠”作為回答,而在劉俊華看來(lái),對照傳統的翻譯規則——“信、達、雅”,人工智能目前僅能實(shí)現“信”,離后二者尚有距離。
 
這么說(shuō)來(lái),上帝或可放寬心:就算人工智能要幫助人類(lèi)重建“巴比倫塔”,也不過(guò)剛剛撿起幾塊磚瓦而已。
 
只是,未來(lái)呢?
亚洲午夜无码影片免费_亚洲中文字幕网站你懂得_91亚洲人成手机在线观看_尹人在线最新香蕉视频