Facebook建立了一個(gè)名為Rosetta的AI來每天分析用戶圖像
Facebook Inc.超過22億用戶每天在平臺(tái)上共享數(shù)量驚人的圖像,這家社交巨頭需要對其分類,添加到搜索結(jié)果以及掃描有害內(nèi)容。這些圖像的很大一部分還包含必須分析的文本。
為了處理這項(xiàng)艱巨的任務(wù),該公司構(gòu)建了一個(gè)復(fù)雜的人工智能,稱為Rosetta。它在今天發(fā)布的博客中 揭示了該系統(tǒng)的存在。
每天,Rosetta都會(huì)從Facebook和Instagram上十億多個(gè)公開共享的圖像中提取多種語言的文本。該系統(tǒng)不僅可以分析獨(dú)立文件的內(nèi)容,還可以分析視頻中的各個(gè)幀的內(nèi)容。它使用不同于傳統(tǒng)文本識別軟件的技術(shù)掃描所有圖像。
通常,此類別的系統(tǒng)僅識別一段文本中的單個(gè)字符,而不理解其含義或其他更高級別的細(xì)節(jié)。Facebook的需求更高。該公司試圖構(gòu)建一個(gè)可以在覆蓋其圖像的上下文中進(jìn)行書寫的系統(tǒng),這導(dǎo)致其工程師為Rosetta配備了預(yù)測功能。
該系統(tǒng)將文本分析作為所謂的序列預(yù)測問題進(jìn)行處理。它分析圖像并使用歷史數(shù)據(jù),而不僅僅是單個(gè)字符的視覺輪廓來理解文字。Facebook表示,這種方法使Rosetta能夠識別任何長度的單詞,甚至包括在開發(fā)的培訓(xùn)階段未曾接觸過的單詞。
“一旦獲得圖像上單詞位置的邊界框,它們就會(huì)被裁剪并調(diào)整為32個(gè)像素的高度,并保持寬高比,”處理Rosetta的Facebook工程師詳細(xì)說道。“所有此類圖像作物都根據(jù)需要以零填充填充到一個(gè)張量中,然后由文本識別模型立即進(jìn)行處理。”
Facebook正在使用Rosetta來提供幾種不同的功能。該系統(tǒng)可通過Facebook和Instagram各自的搜索功能對圖像進(jìn)行探索,幫助確定圖像應(yīng)如何顯示在新聞源中并查找令人反感的內(nèi)容。該公司計(jì)劃隨著時(shí)間的推移將其擴(kuò)展到更多地區(qū)。
Facebook的工程師寫道:“當(dāng)我們超越圖像時(shí),最大的挑戰(zhàn)之一就是從視頻中有效地提取文本。” “由于平臺(tái)上視頻的大量增長,將基于圖像的文本提取應(yīng)用于每個(gè)單個(gè)視頻幀的幼稚方法無法擴(kuò)展,這只會(huì)導(dǎo)致計(jì)算資源的浪費(fèi)。”
他們還表示,他們正在開始探索應(yīng)用3-D卷積的方法,以改善用于文本提取的視頻幀的選擇。