Google 持續更新 Gemini 模型技術,推動邁向通用人工智慧(AGI),提升跨場景智慧應用能力。
由於前一週已經提前說明Android相關更新內容,此次Google I/O 2025公布內容裡,不意外地大量聚焦在Google的Gemini人工智慧技術,並且做了不少更新。
「Project Astra」可處理更複雜任務
其中,Google讓可識讀螢幕顯示內容,並且透過Gemini人工智慧回答相關問題的,並且作為Google通用人工智慧雛形設計的「Project Astra」,目前已經能處理更複雜任務,例如協助使用者查詢修理腳踏車的說明書、在YouTube尋找組裝介紹影片,或是協助判斷應該使哪些螺絲零件,甚至可以幫忙播打電話詢問店家正確拆裝方式等。
而Google接下來依然會持續精進「Project Astra」,並且使其能在日常生活作為使用者自然互動的助理服務。
Gemini人工智慧模型更新
在此次Google I/O 2025中,Google宣布在Gemini 2.5 Pro加入Deep Think功能,讓模型在實際回答使用者提問內容前,會進一步深層思考再作回答。不過,此功能目前僅為預覽版本,並且希望在正式開放所有人使用前影更多時間進行安全評估,因此將蒐集更多專家意見,目前僅先透過API形式讓值得信任的開發者進行測試。
而此次也宣布更新Gemini 2.5 Flash,主要針對執行速度、反應速率進行改善,同時也能減少詞元消耗量,其他則是針對推論、多模態運作、程式編輯、前後長文連貫等應用效能作提升,預計會在今年6月初開放所有人使用,目前則是透過Google AI Studio進行預覽。
另外,針對Gemini藉由文字轉語音 (TTS)功能的播報聲音,目前也藉由人工智慧使其變得更加自然,同時也已經可以對應英語、義大利語、韓語、日語、越語、西班牙語、俄語、法語、土耳其語在內24種語言,同時也能在特定語言使用狀態快速切換成另一種語言。
Gemini Live螢幕識讀功能開放更多Android、iOS裝置使用
先前開放Pixel系列手機使用,配合手機相機鏡頭拍攝畫面的螢幕識讀功能,目前將開放所有相容的Android手機,或是相容的iOS裝置使用,將可透過Gemini人工智慧分析螢幕顯示畫面內容。
此外,Gemini Live功能將在未來幾周內進一步與Google Maps、Google行事曆、Keep等服務連動,當使用者向Gemini Live提問時,系統會進一步查看使用者個人存放在服務內的資料,藉此提供更貼切、實用的解答。
而Google強調,此類服務中使用的隱私主要還是由使用者自行控制,同時所有運算都是在裝置端完成,藉此避免有額外隱私爭議。
此外,Google也說明將擴大Gemini Live識讀功能,預期使其能進一步認識更廣泛的「世界」,並且能驅動未來的通用人工智慧,或是讓機器人等實體裝置運作。
以Google Lens為基礎的Google Search Live服務
宣布Google Lens服務已經在全球吸引超過15億人使用消息後,Google也宣布以此為基礎打造的Google Search Live功能,將可透過手機鏡頭拍攝景象,並且由Gemini服務協助搜尋相關解答。
而要使用此功能的話,使用者必須手動點選Google Lens的「Live」圖示,或是將服務切換成AI Mode形式。
Google Search的「AI Mode」功能更新
先前已經開放所有美國境內英語使用者使用的Google Search「AI Mode」功能,目前將換成以Gemini 2.5 Pro模型運作,對比先前採用Gemini 2.0模型,將能提高不少性能,同時也會加入更多應用功能。
例如,可以透過Google Search搜尋特定服飾,並且配合個人照片進行數位「試穿」,甚至也能透過人工智慧協助追蹤價格變化,當商品出現降價時,即可由人工智慧幫忙下單,並且透過Google Pay服務完成結帳。
Gmail變得更聰明
新版Gmail結合Gemini應用之後,接下來將能彙整使用者在不同Google服務間存放資料 (會在事先取得使用者同意存取才能使用),如此一來將能讓Gmail的自動回覆信件功能變得更聰明,甚至可讓Gemini模仿使用者常用詞彙回覆信件。
同時,Google.也將讓使用者能透過Gemini管理Gmail內的信件,例如透過Gemini過濾三年前從未讀取信件,並且將其刪除。
新版Gmail功能將開放Google Workspace服務用戶使用,預計會在今年夏季開放。
Gemini進駐Chrome瀏覽器
除了將Gemini帶到手錶、車載系統等平台,Google此次也將Gemini帶到Chrome瀏覽器,將能讓Gemini回答開啟網頁內容細節。
目前Gemini僅能回答單一分頁內的內容,但Google透露接下來也會對應分析更多分頁顯示內容。
其他更新
此次更新中,Google更讓Google Meet線上視訊功能加入即時口譯功能,讓使用者能在各自以不同語言溝通時,可以透過人工智慧方式將口說內容轉換成不同語言,並且以使用者口語陳述音色呈現,但目前僅先支援英語與西班牙語,之後也會增加支援更多語言。
而本身以Chrome擴充元件形式打造,背後串接Gemini人工智慧功能,讓使用者能透過口述方式下達指令,即可從當前瀏覽網頁內容進行分析,並且進行代理操作的「Project Mariner」,目前也開放讓更多人使用,並且使其可同時執行工作任務數量增加至10個,藉此協助使用者執行更多操作需求。
另一方面,以人工智慧協助開發者編碼,並且能整合GitHub工作流程的「Jules」也在此次Google I/O 2025宣布升級,藉此讓使用者更容易打造各類編碼應用內容。