新華社重慶8月29日電? 特稿:人工智能助力保護(hù)“多彩鄉(xiāng)音”
新華社記者彭茜 黎華玲
“干啥子喲?”“你瞅啥?瞅你咋地?”
在2019中國國際智能產(chǎn)業(yè)博覽會(huì)(簡稱“智博會(huì)”)上,一款內(nèi)嵌了最新人工智能方言識(shí)別技術(shù)的智能翻譯機(jī)逗樂了來自天南海北的觀眾。
無論是四川話、東北方言,還是吳儂軟語,都被科大訊飛翻譯機(jī)逐字逐句轉(zhuǎn)換成漢語文本,再實(shí)時(shí)翻譯成英文。
此次參展的阿里巴巴人工智能實(shí)驗(yàn)室也開發(fā)了可識(shí)別四川方言的智能音箱“天貓精靈”,預(yù)計(jì)今年9月后正式發(fā)布,未來還會(huì)以智能音箱終端為基礎(chǔ),通過語音交互采樣建立覆蓋全國的動(dòng)態(tài)方言數(shù)據(jù)信息庫。
人工智能,正在幫助我們留下“多彩鄉(xiāng)音”。
方言是中國語言文化的瑰寶,傳承豐富的歷史文化內(nèi)涵;方言也是人們鄉(xiāng)情的根系,具有豐富的人文價(jià)值。在我國,部分“小方言”在經(jīng)濟(jì)社會(huì)飛速發(fā)展的背景下有消失風(fēng)險(xiǎn),方言的保護(hù)和留存極具緊迫性。
長期在中國進(jìn)行漢語方言調(diào)研的韓國首爾大學(xué)中文系主任樸正九教授接受新華社記者采訪時(shí)說,漢語方言使用人口多、地域廣,在全球語言學(xué)研究中占有非常重要的地位,漢語方言有助于研究人類語言的共性和個(gè)性。
早在2012年,科大訊飛就以粵語為突破口,開展方言識(shí)別技術(shù)攻關(guān)。2017年,科大訊飛輸入法聯(lián)合中國聲谷發(fā)起“方言保護(hù)計(jì)劃”,近3年來已收集超過86萬條方言語音,支持23種方言語音輸入,實(shí)現(xiàn)包括粵語、四川話、湖南話等11種方言的語音合成;微信小程序“我AI說方言”還方便公眾隨時(shí)隨地上傳方言,建設(shè)中國方言庫。
阿里巴巴人工智能實(shí)驗(yàn)室今年也宣布,正式成立方言保護(hù)專項(xiàng)小組,投入1億元人民幣對(duì)漢語方言進(jìn)行保護(hù)和開發(fā)。
科大訊飛輸入法業(yè)務(wù)部副總經(jīng)理、“方言保護(hù)計(jì)劃”發(fā)起人李強(qiáng)軍介紹,方言語料的采集、記錄和歸納是方言識(shí)別的基礎(chǔ)。以前,這項(xiàng)工作很大程度依賴于調(diào)查者主觀感知,而歸納完整的語音變化、進(jìn)行句法和語義分析等工作難以單靠人力完成,所以有必要建立分屬不同方言的數(shù)據(jù)庫,利用人工智能系統(tǒng)地對(duì)方言文字、發(fā)音等進(jìn)行整理。
“各種漢語方言在語法語音上的特征都不相同,很難被系統(tǒng)整理。用上人工智能技術(shù),對(duì)方言保護(hù)和研究大有幫助。”樸正九說。
其實(shí),外語語音識(shí)別與方言識(shí)別的人工智能訓(xùn)練方法是相通的。隨著技術(shù)進(jìn)步,可用統(tǒng)一的語音識(shí)別模型,導(dǎo)入各地方言等不同語料進(jìn)行無監(jiān)督訓(xùn)練。我國語言學(xué)界將現(xiàn)代漢語方言分為十大方言區(qū),方言識(shí)別難度有所不同,落實(shí)到輸入法產(chǎn)品中,識(shí)別準(zhǔn)確率也略有差異。
“適配不同的方言識(shí)別,對(duì)整體語音識(shí)別技術(shù)也會(huì)是一種促進(jìn)和優(yōu)化?!卑⒗锇桶腿斯ぶ悄軐?shí)驗(yàn)室高級(jí)產(chǎn)品專家張平介紹,做方言是為了讓更多地域人群能更好地交流,同時(shí)也更多保護(hù)地域文化。“我們第一款先做四川方言,就是因?yàn)樗拇ǚ窖栽谥袊窖灾杏脩粽急却蟆薄?/p>
開發(fā)“方言版”語音識(shí)別,還有助于設(shè)計(jì)出更貼合消費(fèi)者需求的智能語音交互產(chǎn)品。美國“風(fēng)險(xiǎn)投資節(jié)奏(Venturebeat.com)”網(wǎng)站數(shù)據(jù)顯示,中國已超過美國成為全球最大的智能語音市場,2019年第一季度智能音箱出貨量占全球總出貨量一半以上。
國外智能語音產(chǎn)品廠商也在努力開發(fā)能識(shí)別各種英語口音的版本。有趣的是,曾經(jīng)有一位美國消費(fèi)者投訴亞馬遜公司的智能語音助手“亞歷克薩(Alexa)”,因?yàn)樗荒茏R(shí)別自己母親的口音。
目前,亞馬遜的“亞歷克薩”、蘋果的Siri和谷歌助手均可以識(shí)別標(biāo)準(zhǔn)美音、“印度味”英語和“中國味”英語。不過,據(jù)Vocalize.ai實(shí)驗(yàn)室測評(píng),這三種產(chǎn)品識(shí)別中國口音英語的準(zhǔn)確率最低。另外,它們都沒有識(shí)別漢語方言的功能。
由此可見,獨(dú)具中國特色的“方言版”語音識(shí)別產(chǎn)品還有助于中國企業(yè)開展差異化競爭。
-
大數(shù)據(jù)"坑熟客",技術(shù)之罪需規(guī)則規(guī)避
2018-03-02 08:58:39
-
高質(zhì)量發(fā)展,怎么消除“游離感”?
2018-03-02 08:58:39
-
學(xué)校只剩一名學(xué)生,她卻堅(jiān)守了18年
2018-03-01 14:40:53
-
有重大變動(dòng)!騎共享單車的一定要注意了
2018-03-01 14:40:53
-
2018年,樓市會(huì)有哪些新變化?
2018-03-01 09:01:20