隨著 AI 技術崛起， NVIDIA Research 展出許多結合 GPU 與 AI 的視覺應用，其中今年發表的 GauGAN 透過取自真實風景照為藍本，操作者只需透過象徵各類景物的畫筆描繪幾筆，就可產生栩栩如生的風景照，在今年 GTC 大會宣布開放使用之後，不僅吸引喜歡科技技術的玩家聚精會神創作風景照，更有專業視覺創作者透過 GauGAN 產生電影概念視覺的背景，或是藉其產生的風景畫作為藍本，進而作為作品的參考藍本。

GauGAN 目前免費放在 NVIDIA Research 的網頁上，只要透過瀏覽器即可操作，運算則由雲伺服器進行，有興趣的使用者可打開 GauGAN 網頁體驗塗鴉成風景的樂趣： GauGAN

▲ NVIDIA 首席研究科學家劉洺堉

而 GauGAN 的重要推手，是出自台灣的 NVIDIA Reasearch NVIDIA 首席研究科學家劉洺堉，劉洺堉也在稍早分享了 NVIDIA Research 到底在做甚麼，以及從各類研究到 GauGAN 等計畫的分享，還有一些未來的展望。

▲ Deep Imagination Research 透過機器學習與機器視覺實現三大目標

劉洺堉所屬的團隊為 NVIDIA Deep Imagination Research，其宗旨是藉由深度學習與機器視覺的結合，實現機械創造、即時圖像與內容創作三大目標，而 GauGAN 可說是這一路走來其中的一項重大成果。

在公布 GauGAN 之前， NVIDIA Deep Imagination Research 也發表許多的研究成果，這些研究成果的積累之下，成就現在看到的 GauGAN 。

在 2017 年， NVIDIA Deep Imagination Research 發表了 UNSUPERVISED ，是可將影片中的背景置換成不同季節、氣候，當時的目標是為了可創作自駕車訓練用的行車環境素材，不過當時僅是一對一的對應變化。

以此為契機，而後在隔年推出的新研究則訴求以單一素材輸入、輸出多元結果，當時以將狗的短片輸入系統，而後變化成多種有著一樣神情的貓的短片。

不過說到啟發 GauGAN 計畫的前身，則可追溯到 PIX2PIXHD 研究項目，這是一項可把輸入的影像套用各種名畫的風格，讓原本的風景畫宛若大師畫作的筆觸。而後也將這項技術應用在名為 VID2VID 研究上，可以把一段人物短片的動作套用到另一個人物上，且由原本需要費時 15 分鐘捕捉自動產生動作的人物的時間，在後續以 ADAPTIVE VID2VID ，實現以單張正面靜態照，就可將影片中的人物套用到靜態照的人物上。

上面的無論哪一項研究，都會牽涉到影像分析的領域，要識別影像當中的元素， AI 才能套用到其它元素產生結果，劉洺堉也想到能不能把這樣的過程顛倒過來，讓構成圖像的元素反過來產生完整的影像，於是就有了 GauGAN 雛形的 SPADE 技術，而最後命名為 GauGAN 除了使用到 GAN 對抗生成網路外，也有做為紀念畫家高更的意念。

▲ GAN 對抗生成網路就是一組負責產生內容的 Generator 與負責檢視內容是否屬實的 Discriminator 相互抗衡

▲ GauGAN 利用對抗生成網路訓練 AI 將影像元素還原成風景畫

GauGAN 利用對抗生成網路做為 AI 基礎，以負責產生內容的 Generator 與負責判別內容是否與預期目標相符的 Disvriminator 相互抗衡，而 GauGAN 透過學習百萬張以上的真實風景照做為基礎，並讓 Generator 透過描繪的元素試圖產生畫作，而 Discriminator 再去檢視結果是否像是一張合格的風景畫。

最初 NVIDIA Research 透過一套搭載 8 張 Tesla V100 的 DGX-1 ，耗時約 3 周完成訓練，不過最近 NVIDIA 開始導入可應用 Tensor Core 的 AMP 技術，將訓練流程縮減到兩周內，這也顯示 NVIDIA 持續透過軟體創新使硬體性能得以持續突破。

▲只要把 GauGAN 的 AI 訓練其它類型的影像，亦可產生不同類型的照片內容

值得注意的是，由於 AI 學習來自真實世界的風景照，力在元素上只繪製天空、山與水， GauGAN 仍會依循真實風景畫的風格，自動在水的區塊產生山與天空的倒影。藉由 GauGAN 的技術基礎，除了風景畫以外也可用在許多領域，例如建築、室內環境、動物等等，只要將學習的藍本替換就能變化出不同的塗鴉成畫應用。

劉洺堉表示，目前 NVIDIA Research 也進一步提升 GauGAN 的機能，像是針對專業內容工作者將推出可在單機上執行的版本，其使用介面會比起當前網頁版更豐富；另外 GauGAN 也將繼續挑戰更多的目標，當前有兩大方向，其一是將提供更高解析度的影像，其二是希望能達到產生風景短片。

更高解析度照片的需求來自專業內容創作者的呼聲，不過挑戰在於當前 GauGAN 產生的風景照在細節放大後仍會有破綻，故也無法使用 AI 技術進行影像升頻，畢竟 AI 升頻也需要建立在接近真實的影像，目前也正逐步設法解決；而風景短片的挑戰則在於當前 GauGAN 在產生連續變化的影像時會產生不確定性，導致影像難以連貫，然而相較風景照片，風景短片的藍本的取得與訓練更為複雜。另外 GauGAN 還有一項暫時難解的巨大挑戰，就是太陽，因為太陽不光只有顏色、形狀，還會對周遭的景物產生光影變化，這仍是 AI 短時間難以克服的獨特物件。