Google 提出 Parti 文本轉圖像技術文字描述快速生成精美圖像 #Latent Diffusion Models (178967)

目前在市場上類似的技術越來越多，除了Google此次提出的Parti，還包含先前由NVIDIA提出的GauGAN，或是OpenAI提出的Dall-E，以及諸如VQ-GAN+CLIP 和 Latent Diffusion Models等，均可透過簡單文字描述輸入，即可快速生成擬真影像。

Google提出名為Parti的文本轉圖像技術，透過輸入文字敘述內容，即可快速生成對應圖像結果。

Parti是透過200億組輸入資料進行訓練，全名為「Pathways Autoregressive Text-to-Image」 (路徑自回歸模型文本轉圖像)，同時隨著可使用參數增加，所生成圖像也會更逼真。

而為了避免造成額外影響，目前Google並未透過公眾內容訓練Parti，避免產生潛在偏見風險。

在訓練過程中，Google更表示會加入一些「噪訊」進行干擾，藉此讓人工智慧在訓練過程產生對抗生成訓練效果，避免生成結果變成千篇一律，同時也能讓生成結果精度提高。

Mash Yang

猜你喜歡