
騰訊科技訊 據(jù)國外科技媒體VentureBeat報道,微軟研究人員利用人工智能讓計算機“學(xué)會”了看圖說話——為多張圖片配上注解。
這一技術(shù)具有重大意義,因為計算機不是僅僅辨認出圖片——甚至視頻——中的物體就能將圖片串成一個故事的。
為了讓人工智能學(xué)會講故事,微軟員工先給每一張圖片和按一定順序排列的組圖寫了注解,工程師然后使用這些信息教會機器按圖片順序講出完整的故事。
微軟研究人員使用遞歸神經(jīng)網(wǎng)絡(luò)來訓(xùn)練人工智能看圖說話的能力。微軟研究人員使用了一種機器翻譯常常使用的方法——序列到序列學(xué)習(xí)。
這項技術(shù)有著巨大的應(yīng)用前景,比如幫助視障患者辨認周圍的物體。實際上,研究人員已經(jīng)跟微軟盲人軟件開發(fā)者Saqib Shaikh合作研究這方面的應(yīng)用了。
當(dāng)然,視力正常的人也可以從這項技術(shù)獲益,比如通過看圖講故事幫助人們學(xué)習(xí)外語,激發(fā)小孩的創(chuàng)造性思維。
智能拍照手機越來越普及,人們通常一次性拍下多張照片,讓機器看懂多張照片之間的關(guān)系變得非常重要,而微軟正在往這個方向努力——盡管尚未完全成功。