“中文十級”難題,AI怎樣解讀
產(chǎn)業(yè)界
陶玉祥 本報(bào)記者 盛 利
在人工智能領(lǐng)域,“懂語言者得天下”是普遍的共識。其中,可幫助人工智能識別人類語言的自然語言處理(NLP)被譽(yù)為人工智能語言“皇冠上的明珠”。
當(dāng)人工智能自然語言處理技術(shù)遇到“要你管和不要你管”“掉地上和掉地下”“我一把把把把住了”等中文“繞口令”,“小意思”“意思意思”等多義詞時(shí),及“俺們那疙”“中不中”等方言時(shí),該怎樣“聽懂”這些“中文十級”語句呢?日前在成都舉辦的科大訊飛未來科?;顒?dòng)上,記者采訪了相關(guān)專家。
能分詞會(huì)斷句 機(jī)器尚在努力
NLP就是機(jī)器讓計(jì)算機(jī)來理解和處理人類自然語言的技術(shù),它和計(jì)算機(jī)視覺、語音處理的區(qū)別在于信息處理的類型。
“計(jì)算機(jī)視覺主要處理圖像,語音技術(shù)處理聲音,而NLP主要是對文字的理解。”云浮科技的創(chuàng)始人兼CEO張文斌說,在人工智能中,語音識別是耳朵,語音合成是嘴巴,計(jì)算機(jī)視覺是眼睛,而NLP則負(fù)責(zé)將抽象的文字符號轉(zhuǎn)化為計(jì)算機(jī)能理解的語言。
“‘中文十級’的某些語句,人類去理解都有很大難度,何況是計(jì)算機(jī)。”張文斌說,在口語和書寫上,漢字往往沒有詞與詞之間的邊界,即便機(jī)器能夠準(zhǔn)確識別文字,但理解它的意思卻很難;再比如各種五花八門的地方口音和方言,也是“絆腳石”。
“自然語言處理一般從最小的語意單位‘詞’開始,即分詞算法。這最簡單,也最成熟。”張文斌說, NLP的算法分為語法級別、句子級別分析等,其中分詞就是將字詞切開,讓機(jī)器明白哪幾個(gè)字組成一個(gè)詞,哪幾個(gè)詞組成一句話,從而理解整句、整段的意思。但在“分詞”實(shí)際的應(yīng)用過程中,仍有各種問題。
張文斌解釋,首先是分詞標(biāo)準(zhǔn)不確定、存在歧義,及新詞和實(shí)體詞困擾等問題。如“乒乓球,拍賣完了”和“乒乓球拍,賣完了”無論怎么切分都正確,這就要依賴上下文語境。其次,每年都會(huì)涌現(xiàn)出的網(wǎng)絡(luò)詞匯,“神馬”“不明覺厲”“佛系”等原來不存在的詞也需要計(jì)算機(jī)理解。
聽語氣判關(guān)系 AI有新招
如何讓機(jī)器讀懂上下文語境,從而進(jìn)一步了解整段話的含義?
“我們會(huì)嘗試?yán)寐犎祟愓f話時(shí)的停頓信息,作為一種分詞算法的輔助。”訊飛翻譯業(yè)務(wù)負(fù)責(zé)人翟吉博說。
對于AI工程師們來說,更重要的是深層次的算法,如實(shí)體識別、屬性抽取等。“就是把人名、地名、機(jī)構(gòu)名等實(shí)體識別出來后,再抽取實(shí)體之間的關(guān)系,搞清楚不同實(shí)體在句子中的不同屬性。”張文斌說,五花八門的算法還有很多,比如情感分析,分析文本里面蘊(yùn)藏了什么樣的情感,是正面、負(fù)面還是中性的;文檔摘要,把長文生成一兩百字簡短的摘要等。而基于這些算法層,又可以做很多NLP的衍生應(yīng)用,包括自動(dòng)問答、機(jī)器翻譯等。
那如何識別方言呢?在科大訊飛的新款翻譯機(jī)設(shè)備中,首次推出方言翻譯功能,實(shí)現(xiàn)河南話、東北話、粵語等方言互譯,或?qū)⒅g成外語。翟吉博說,針對不同類型方言,機(jī)器采用不同翻譯流程——對同屬北方方言區(qū)的河南話、東北話等,可先翻譯成普通話再翻譯成外語;對于粵語等南方語言,則建立獨(dú)立的語料庫,直接從粵語到外語進(jìn)行翻譯。“考慮到方言中帶有許多地方特色的說法、語言、詞匯,‘雄起’‘中不中’等也可以作為獨(dú)立的語料,由機(jī)器單獨(dú)學(xué)習(xí)。”他說,人工智能的優(yōu)勢是在自然語言處理方面能夠不斷從用戶處積累語料,學(xué)習(xí)新的詞匯和表達(dá)方式,不斷完成自身數(shù)據(jù)庫和語料庫的更新。
