微軟與 NVIDIA 合作建造全球最大單一規模語言模型 MT-NLG 能以簡單問句構思完整解答

2021.10.14 12:19AM
照片中提到了你好、a、Hello,跟ATG 商店有關,包含了車速表、微軟公司、網站核心、微軟翻譯、網站核心

透過NVIDIA DGX SuperPOD建構的Selene超級電腦,背後總計以560組DGX A100進行運算,透過NVLink、NVSwitch串接每台DGX A100所搭載80GB記憶體,藉此對應龐大自然語言模型運作時所需巨量資料,並且透過分散式訓練讓系統以更高效率完成學習。

微軟攜手NVIDIA打造全球最大單一規模的變形金剛 (Transformer)語言模型MT-NLG (Megatron Turing Natural Language Generation Model),標榜具備5300億組參數,成為Turing NLG後繼語言模型,更是目前普遍使用、具備1750億組參數的GPT-3語言模型近三倍規模。

依照說明,MT-NLG語言模型將能對應語意預測、閱讀理解、知識推論、自然語言推論,以及分析詞義消歧意,藉此更深度理解人類自然語言表意,更能從中判斷特定所指內容,不會因為不同語言、地理文化背景差異產生理解落差。

而背後訓練則是透過NVIDIA的GPU加速運算,透過分散式深度學習發揮高效率訓練成果,進而建構高精度自然語言模型,並且能發揮穩定互動效果。

透過NVIDIA DGX SuperPOD建構的Selene超級電腦,背後總計以560組DGX A100進行運算,透過NVLink、NVSwitch串接每台DGX A100所搭載80GB記憶體,藉此對應龐大自然語言模型運作時所需巨量資料,並且透過分散式訓練讓系統以更高效率完成學習。

目前研究人員更進一步讓MT-NLG語言模型能透過簡單問句構思完整解答內容,若以過往的語言模型進行此類運算的話,可能需要花費更多時間得出結果,甚至結果可能會是答非所問內容。

另一方面,微軟目前提供語言翻譯工具中,已經支援100種語言,同時語言使用人口約覆蓋56.6億人,近期更加入巴什基爾語、迪維希語、藏語、土庫曼語、維吾爾語和烏茲別克語等語種。

而目前微軟在其翻譯機制內採用名為Z-code的多語言人工智慧模型,可將相同語系語言進行整合學習,例如將印地語、馬拉地語和古吉拉特語等印度語系交互訓練,即可讓不同語言互譯品質提升,而藉由訓練法語、葡萄牙語、西班牙語和義大利語,即可讓屬於相同語系的羅馬尼亞語互譯品質提升。

微軟表示,透過這樣的方式將能改善相同體系語言,或是相近語系語言翻譯品質,甚至可以藉此保留更多使用人口逐漸減少的少數語言。

0 則回應