Alexa語音規(guī)范化AI可將錯(cuò)誤減少高達(dá)81%
文本規(guī)范化是大多數(shù)自然語言系統(tǒng)中的基本處理步驟。對于亞馬遜的Alexa,“在下午5點(diǎn)給我預(yù)訂一張桌子”可能會(huì)被助理的自動(dòng)語音識別器轉(zhuǎn)錄為“下午五點(diǎn)”并進(jìn)一步重新格式化為“下午5點(diǎn)”。然后,Alexa可能會(huì)轉(zhuǎn)換為“5 :00PM“至”下午5點(diǎn)30分“為其文字轉(zhuǎn)語音合成器。
那么這是如何工作的呢?根據(jù)Alexa AI集團(tuán)應(yīng)用科學(xué)家Ming Sun和Alexa語音機(jī)器學(xué)習(xí)科學(xué)家Yuzong Liu的說法,目前,亞馬遜的語音助手依賴于“數(shù)以千計(jì)”的日期,電子郵件地址,數(shù)字,縮寫和其他表達(dá)的手寫規(guī)范化規(guī)則。對于英語而言,這一切都很好,但由于這種方法不能特別適應(yīng)其他語言(沒有大量的手工勞動(dòng)),亞馬遜科學(xué)家正在研究一種由機(jī)器學(xué)習(xí)驅(qū)動(dòng)的更具可擴(kuò)展性的技術(shù)。
在計(jì)劃語言學(xué)協(xié)會(huì)北美分會(huì)(NAACL)上發(fā)布的預(yù)印紙(“ 帶有子詞單元的神經(jīng)文本標(biāo)準(zhǔn)化”)中,Sun,Liu及其同事描述了一種打破輸入詞的AI文本規(guī)范化系統(tǒng)。并將流輸出為稱為子字單元的較小字符串。這些子詞單元,Sun和劉在博客文章中解釋,減少機(jī)器學(xué)習(xí)模型必須學(xué)習(xí)的輸入數(shù)量,并清除像“博士”(可能意味著“醫(yī)生”或“驅(qū)動(dòng)器”)和“2”這樣的片段中的含糊不清/ 3“(可能意味著”三分之二“或”二月三分之一“)。
此外,子字單元使AI模型能夠更好地處理之前從未見過的輸入字。不熟悉的單詞可能包含熟悉的子詞組件,這些有時(shí)足以幫助模型決定一個(gè)行動(dòng)方案。
研究人員的系統(tǒng)通過將訓(xùn)練數(shù)據(jù)集中的單詞減少為單個(gè)字符來創(chuàng)建子單詞單元,該算法用于識別最常出現(xiàn)的雙字符單元和三字符單元,直到達(dá)到容量(大約2,000個(gè)子字)。這些組件用于訓(xùn)練AI系統(tǒng)輸出子字單元,單獨(dú)的算法將這些單元拼接成完整的單詞。
在對來自公共數(shù)據(jù)集的500,000個(gè)示例進(jìn)行系統(tǒng)訓(xùn)練之后,研究人員表示,與先前報(bào)告的性能最佳的機(jī)器學(xué)習(xí)系統(tǒng)相比,錯(cuò)誤率降低了75%,延遲減少了63%,或者花費(fèi)的時(shí)間減少了63%。收到對單個(gè)請求的響應(yīng)。通過考慮附加信息,例如詞性,句子內(nèi)的位置和大小寫,它進(jìn)一步降低了81%的錯(cuò)誤率并且單詞錯(cuò)誤率僅為0.2%。