GTC 2015 :百度首席科學家談深度學習如何協助今日的圖像、語音與行為認知

2015.03.20 05:04AM
1270
是GTC  2015 :百度首席科學家談深度學習如何協助今日的圖像、語音與行為認知這篇文章的首圖

在 GTC 第三日的主題演講,由曾參與建設 Google Brain 的百度首席科學家吳恩達再介紹百度的 Deep Learning 深度學習;目前的深度學習應用多半在解決三大類的問題,包括影像、語音與行為的三大類認知。

bfd7588bfdc1b65e03f9d0d3d65afc71

為何深度學習適合解決這三大類問題?因為藉由自主學習能力,系統的辨識能力能夠越來越進化且精確,然而基於早期的系統架構建構的神經網路深度學習系統效果並不好,一直到 2008 年首度將 NVIDIA 的 CUDA 平行運算語言用於神經網路系統才開始獲得改善;而 2011 年則是將基於雲系統的分散式運算再度提升效能, 2015 年則將深度學習系統導入基於大量 GPU 的超級電腦,再度獲得飛躍性的效能突破。

66ab786a3be3e1dab3d821cd8419f75e

吳博士將深度學習的歷程以火箭為例,火箭需要引擎以及燃料,而深度學習的學習邏輯與系統就像引擎,學習的樣本就像是燃料;沒有引擎,燃料無用武之地,沒有燃料,引擎也無法啟動。

60181bda63e5853e086653bc728d549a

86a77aea410d3334e6589fcfaccaca19

影像的深度學習基礎,就是教導系統透過分層檢測特徵的方式,去辨別影像內容是否為目標物;透過給予系統大量的學習教材,以及當回答錯誤解答時告知系統出錯,使系統越來越進化。

1980dbc9807a3e3d2f0c552298439a62

4ea576e2b3a6bf005bbb2a54b8789959

aaa7760547255a88f754fd62f699951d

當系統能夠有系統的辨識簡單的問題,接著就是將影像辨識轉化到影像敘述,透過將一張圖片拆解成多元的特徵,藉此將圖片作出具邏輯性的敘述;圖片的邏輯敘述並不是真正的目的,而是透過正確敘述照片的內容,藉此以圖搜圖,從海量照片中找出具有相同敘述的照片;而百度的系統不僅能將照片轉為英文敘述,將照片進行中文敘述也是百度的強項。

a149a299e4e375e5a278560e0b949bc6

3d021d7a80773297e000374a400398c5

百度也推出過一款 Baidu Eye 的計畫,以智慧眼鏡的方式與使用者進行互動,透過攝影機結合基於雲端的圖像辨識以及圖像敘述,能夠協助使用者將所見的商品進行搜尋,或是把眼前的物體以客觀的方式進行敘事,不光只是一款硬體,更是一項軟體服務計劃。

229b13f6e8fc3183a49db3b6aa1aab23

45a1a858a96887d1d0ab0041e9189ab5

另外,也因為手機使用者的增加,使用者對於語音辨識的需求遽增;百度也有一套專為語音辨識的深度學習系統 Deep Speech ,這套系統不同於傳統語音辨識是以判讀關鍵字詞,而是透過拆解發音音節逐一完成字串,以分散式運算的方式些取得正確的發音與斷句,再將語音內容轉換為文字,百度更自豪的表示其 Deep Speech 系統還具有環境降噪的功能,在吵雜環境下擁有更高的正確辨識率。

fbc22bc862eb769e5fe3c955cab2d6da

de0aaa06d3fe9562793eed28c867c1b5

8d8d643c6392803f0701858e5d1bf0a3

當然,深度學習與大數據也是形影不分,大數據是用於取得樣本的基礎,也是作為深度學習系統驗證的舞台,但同時深度學習也不斷使大數據更進化,例如廣告、資料中心管理以及資安,透過深度學習使系統擁有越來越高的效率;百度不僅是首個針對深度學習建設基於 GPU 資料中心的企業,同時百度還自己建設專屬的客製化網路架構,以乘載大量的資料。

你或許會喜歡

蘋果抄襲德國百靈?

0 則回應