Facebook 與跨國 13 間大學合作 要讓 AI 人工智慧從第一人稱影片學習人眼視角所見內容 決策結果更貼近人腦判斷

2021.10.16 12:36PM
照片中提到了Al today excels at learning from vast amounts of、online photos and videos from a third-person view.、But for the next generation of AR glasses and,包含了歐羅巴公園、過山車、歐羅巴公園、旅遊景點、遊樂園

過去讓人工智慧學習內容,多半是以側錄等視角拍攝影片,雖然也會包含第一人稱視角內容,但絕大部分都會是以側錄方式紀錄影片,因此難以將人工智慧學習判斷決策結果與人眼所見,並且做出判斷的結果拉近,Ego4D便以大量第一人稱視角影片內容,讓人工智慧系統進行深度學習,藉此了解透過第一人稱視角所見景象。

Facebook宣布與位於9個國家地區的13間大學合作,共同打造一款以第一人稱視角累積的影片資料庫Ego4D,藉此讓人工智慧可以透過此類影片內容進行學習,進而知曉以第一人稱視角所見視野內容。

之所以建立Ego4D,最主要是希望能讓人工智慧系統模仿人眼視角方式進行學習,藉此更能理解人眼所見內容,進而做出人類判斷相近的決策結果。

依照Facebook首席科學家Kristen Grauman說明,由於過去讓人工智慧學習內容,多半是以側錄等視角拍攝影片,雖然也會包含第一人稱視角內容,但絕大部分都會是以側錄方式紀錄影片,因此難以將人工智慧學習判斷決策結果與人眼所見,並且做出判斷的結果拉近。

為了解決這樣的問題,Ego4D便以大量第一人稱視角影片內容,讓人工智慧系統進行深度學習,藉此了解透過第一人稱視角所見景象,因此可讓人工智慧學習判斷結果與人眼相近。

在蒐集影片內容中,研究單位向研究參與者提供頭戴式攝影機,以及穿戴在身上的感測元件,藉此在紀錄第一人稱視角影片時,同時也能紀錄身體動作資訊。至於紀錄內容則包含上街購物、騎乘或駕駛車輛,另外也包含與人交談、產生互動,並且將影片拍攝同時的身體活動數據一併紀錄,讓人工智慧能藉此進行深度學習,同時也能理解人類在面臨不同視覺體驗時,身體會做出什麼樣的反應。

目前Ego4D總計吸引超過700名參與者,透過佩戴攝影機,以第一人稱視角收集超過2200小時的影片內容,而參與者分別來自英國、義大利、印度、日本、沙烏地阿拉伯、新加坡、哥倫比亞、盧安達及美國,因此也讓人工智慧能依照人種、年齡與性別等額外差異進行深度學習,進而建立不同學習結果。

Ego4D預計會在今年11月對外公布,同時也將對外開放授權外部研究單位使用。

0 則回應