Facebook 與跨國 13 間大學合作要讓 AI 人工智慧從第一人稱影片學習人眼視角所見內容決策結果更貼近人腦判斷 (167043)

照片中提到了Al today excels at learning from vast amounts of、online photos and videos from a third-person view.、But for the next generation of AR glasses and，包含了歐羅巴公園、過山車、歐羅巴公園、旅遊景點、遊樂園

過去讓人工智慧學習內容，多半是以側錄等視角拍攝影片，雖然也會包含第一人稱視角內容，但絕大部分都會是以側錄方式紀錄影片，因此難以將人工智慧學習判斷決策結果與人眼所見，並且做出判斷的結果拉近，Ego4D便以大量第一人稱視角影片內容，讓人工智慧系統進行深度學習，藉此了解透過第一人稱視角所見景象。

Facebook宣布與位於9個國家地區的13間大學合作，共同打造一款以第一人稱視角累積的影片資料庫Ego4D，藉此讓人工智慧可以透過此類影片內容進行學習，進而知曉以第一人稱視角所見視野內容。

之所以建立Ego4D，最主要是希望能讓人工智慧系統模仿人眼視角方式進行學習，藉此更能理解人眼所見內容，進而做出人類判斷相近的決策結果。

依照Facebook首席科學家Kristen Grauman說明，由於過去讓人工智慧學習內容，多半是以側錄等視角拍攝影片，雖然也會包含第一人稱視角內容，但絕大部分都會是以側錄方式紀錄影片，因此難以將人工智慧學習判斷決策結果與人眼所見，並且做出判斷的結果拉近。

為了解決這樣的問題，Ego4D便以大量第一人稱視角影片內容，讓人工智慧系統進行深度學習，藉此了解透過第一人稱視角所見景象，因此可讓人工智慧學習判斷結果與人眼相近。

在蒐集影片內容中，研究單位向研究參與者提供頭戴式攝影機，以及穿戴在身上的感測元件，藉此在紀錄第一人稱視角影片時，同時也能紀錄身體動作資訊。至於紀錄內容則包含上街購物、騎乘或駕駛車輛，另外也包含與人交談、產生互動，並且將影片拍攝同時的身體活動數據一併紀錄，讓人工智慧能藉此進行深度學習，同時也能理解人類在面臨不同視覺體驗時，身體會做出什麼樣的反應。

目前Ego4D總計吸引超過700名參與者，透過佩戴攝影機，以第一人稱視角收集超過2200小時的影片內容，而參與者分別來自英國、義大利、印度、日本、沙烏地阿拉伯、新加坡、哥倫比亞、盧安達及美國，因此也讓人工智慧能依照人種、年齡與性別等額外差異進行深度學習，進而建立不同學習結果。

Ego4D預計會在今年11月對外公布，同時也將對外開放授權外部研究單位使用。

資料來源

https://mashdigi.com/facebook-is-teaching-ai-to-perceive-the...

Mash Yang

資料來源

Mash Yang

相關消息