科技部開放AI語音數據資料集可建立台灣人的精準語音識別模型加速本土中文語音助理服務應用發展 (145329)

科技部開放的AI語音數據資料集，目前總長度約400小時，透過完整的語音數據資料以及正確的資料標註，將能讓電腦系統更有效率學習，製作更精準的語音識別模型，加快更多人工智慧語音識別應用服務發展。

科技部稍早宣布將對外開放AI語音數據資料集內容，首波將提供「科技大擂台與AI對話」競賽所使用語音試題資料，內容長度達400小時，除了自行錄製資料，更結合內政部警政署警察廣播電臺，以及教育部國立教育廣播電臺所提供相關語音資料，透過編輯整理成高品質的數據集，希望藉此讓更多以中文為主的人工智慧語音助理應用加速發展。

由於製作精準的語音識別模型，通常需要完整的語音數據資料，並且配合正確的資料標註，如此才能讓電腦系統更有效率學習，同時讓識別精準度提昇。但因為目前市場缺乏有系統整理且資料長度充裕的中文語音資料集，使得對應中文語音使用的助理服務相對較少，多半仍以中國大陸地區的服務為主，對於台灣地區使用需求相對較無法符合在地用語習慣。

因此，科技部攜手國家實驗研究院科技政策研究與資訊中心 (STPI)打造高品質的中文語音數據集 (Dataset)，同時也由警察廣播電臺宣介慈及教育廣播電臺謝忠武兩位台長協助建立，並且邀請台北科技大學廖元甫副教授協助語音資料標註，預計對外開放民間企業、學術研究單位免費授權使用，希望藉此加速推動人工智慧相關技術應用研發突破，進而提升台灣市場競爭力。

此次釋出長度約達400小時的AI語音數據資料集，將透過國家實驗研究院高速網路與計算中心資料集平台 (NCHC DATA MARKET)上架，預計透過對外開放縮減發展語音助理服務過程中所需資料標註人力和時間成本，藉此加快更多人工智慧語音識別應用服務推行。