新的AI計(jì)算機(jī)視覺系統(tǒng)模仿人類如何可視化和識(shí)別物體

導(dǎo)讀來自加州大學(xué)洛杉磯分校Samueli工程學(xué)院和斯坦福大學(xué)的研究人員展示了一種計(jì)算機(jī)系統(tǒng)，該系統(tǒng)可以基于人類使用的相同視覺學(xué)習(xí)方法發(fā)現(xiàn)和識(shí)

來自加州大學(xué)洛杉磯分校Samueli工程學(xué)院和斯坦福大學(xué)的研究人員展示了一種計(jì)算機(jī)系統(tǒng)，該系統(tǒng)可以基于人類使用的相同視覺學(xué)習(xí)方法發(fā)現(xiàn)和識(shí)別它“看到”的真實(shí)世界物體。

該系統(tǒng)是一種稱為“計(jì)算機(jī)視覺”的技術(shù)的進(jìn)步，它使計(jì)算機(jī)能夠讀取和識(shí)別視覺圖像。這是邁向一般人工智能系統(tǒng)的重要一步 - 計(jì)算機(jī)可以獨(dú)立學(xué)習(xí)，直觀，基于推理做出決策，并以更人性化的方式與人類互動(dòng)。盡管當(dāng)前的AI計(jì)算機(jī)視覺系統(tǒng)越來越強(qiáng)大和能力，但它們是特定于任務(wù)的，這意味著它們識(shí)別所看到的內(nèi)容的能力受到人類訓(xùn)練和編程的程度的限制。

即使是今天最好的計(jì)算機(jī)視覺系統(tǒng)也只能在看到對(duì)象的某些部分后無法創(chuàng)建對(duì)象的完整圖像 - 并且系統(tǒng)可能會(huì)被陌生設(shè)置中的對(duì)象查看而被欺騙。工程師的目標(biāo)是使計(jì)算機(jī)系統(tǒng)具備這些能力 - 就像人類可以理解他們正在看狗一樣，即使動(dòng)物躲在椅子后面，只有爪子和尾巴可見。當(dāng)然，人類也可以很容易地直覺到狗的頭部和身體的其他部位，但這種能力仍然無法避開大多數(shù)人工智能系統(tǒng)。

當(dāng)前的計(jì)算機(jī)視覺系統(tǒng)不是為了自己學(xué)習(xí)而設(shè)計(jì)的。他們必須接受有關(guān)學(xué)習(xí)內(nèi)容的培訓(xùn)，通常是通過審查成千上萬的圖像，在這些圖像中，他們?cè)噲D識(shí)別的對(duì)象都是為其標(biāo)記的。

當(dāng)然，計(jì)算機(jī)也無法解釋它們確定照片中物體代表什么的基本原理：基于AI的系統(tǒng)不像人類那樣建立內(nèi)部圖片或?qū)W習(xí)對(duì)象的常識(shí)模型。

“ 美國(guó)國(guó)家科學(xué)院院刊”(Proceedings of the National Academy of Sciences)中描述的工程師的新方法展示了解決這些缺點(diǎn)的方法。

該方法由三個(gè)主要步驟組成。首先，系統(tǒng)將圖像分成小塊，研究人員將其稱為“小窗口”。其次，計(jì)算機(jī)學(xué)習(xí)這些視圖如何組合在一起以形成所討論的對(duì)象。最后，它會(huì)查看周圍區(qū)域中的其他對(duì)象，以及有關(guān)這些對(duì)象的信息是否與描述和識(shí)別主要對(duì)象相關(guān)。

為了幫助新系統(tǒng)“學(xué)習(xí)”更像人類，工程師決定將其浸入人類生活環(huán)境的互聯(lián)網(wǎng)復(fù)制品中。

“幸運(yùn)的是，互聯(lián)網(wǎng)提供了兩個(gè)有助于大腦啟發(fā)的計(jì)算機(jī)視覺系統(tǒng)以與人類相同的方式學(xué)習(xí)的東西，”加州大學(xué)洛杉磯分校電氣與計(jì)算機(jī)工程教授和該研究的首席研究員Vwani Roychowdhury說。“一個(gè)是豐富的圖像和視頻，描繪了相同類型的物體。第二個(gè)是這些物體從許多角度展示 - 模糊，鳥瞰，近距離 - 它們被放置在不同的環(huán)境中。 “

為了開發(fā)框架，研究人員從認(rèn)知心理學(xué)和神經(jīng)科學(xué)中汲取了見解。

“從嬰兒開始，我們知道什么是什么，因?yàn)槲覀冊(cè)谠S多情況下看到了許多例子，”Roychowdhury說。“這種情境學(xué)習(xí)是我們大腦的一個(gè)關(guān)鍵特征，它有助于我們構(gòu)建強(qiáng)大的對(duì)象模型，這些模型是一體化世界觀的一部分，其中所有東西都是功能連接的。”

研究人員用大約9,000張圖像對(duì)系統(tǒng)進(jìn)行了測(cè)試，每張圖像都展示了人和其他物體。該平臺(tái)能夠在沒有外部指導(dǎo)且沒有標(biāo)記圖像的情況下建立人體的詳細(xì)模型。

工程師們使用摩托車，汽車和飛機(jī)的圖像進(jìn)行了類似的測(cè)試。在所有情況下，他們的系統(tǒng)表現(xiàn)得更好，或者至少與通過多年培訓(xùn)開發(fā)的傳統(tǒng)計(jì)算機(jī)視覺系統(tǒng)一樣好。

鄭重聲明：本文版權(quán)歸原作者所有，轉(zhuǎn)載文章僅為傳播更多信息之目的，如有侵權(quán)行為，請(qǐng)第一時(shí)間聯(lián)系我們修改或刪除，多謝。

標(biāo)簽：模仿人類

上一篇:大腦如何通過與自己交流來學(xué)習(xí)

下一篇:單獨(dú)的被動(dòng)曝光可以增強(qiáng)外來語音的學(xué)習(xí)

新的AI計(jì)算機(jī)視覺系統(tǒng)模仿人類如何可視化和識(shí)別物體

猜你喜歡

最新文章