Google Gemini Live全面升級:螢幕與即時視訊分享功能登場,推動AI互動體驗再進化

· 新聞摘要解讀

InfoAI 全球AI新聞摘要與解讀

InfoAI全球AI新聞精選與解讀|
Google Gemini升級支援即時視訊與螢幕分享,多模態AI正式啟動

Google 正將其旗艦AI助理 Gemini 的互動能力推向全新境界。據報導,Google 已開始為部分使用者釋出 Gemini Live 的全新功能,包含手機螢幕內容分享以及即時相機視訊互動。這項升級背後的技術來自 Google 去年發表的 Project Astra 多模態AI計畫,展現AI從「語言理解」邁向「環境感知」的重大突破。

一位來自 Reddit 的用戶率先發現,他的 Xiaomi 手機出現了 Gemini 能「看懂」螢幕畫面的新功能。當用戶開啟該模式後,Gemini 可辨識當前螢幕上的應用畫面、文字、圖片,並提供語音或文字回覆。例如當螢幕顯示一段文章,Gemini 可即時朗讀重點或回答內容相關問題,功能類似行動版 ChatGPT 加上 Google Lens 的結合體。

更吸引人的是,Google 也開放 Gemini 使用手機相機進行「即時環境分析」。官方展示影片中,使用者將鏡頭對準陶藝作品詢問「我該用哪個顏色上釉?」,Gemini 能根據視覺資訊提供建議,甚至理解物品位置與背景的語境,這標誌著AI助理從語音輸入進化為能「看」、「理解」、「建議」的智慧夥伴。

這些功能目前正逐步開放給訂閱 Gemini Advanced(Google One AI Premium 計劃) 的用戶,並預計會先在 Android 裝置上實裝。Google 尚未公開具體全球推出時程,實際可用性仍取決於用戶所在地區與裝置規格。

解讀分析

Google Gemini 的這波升級,明確吹響了多模態 AI 助理的競賽號角。在 ChatGPT、Claude 等AI仍以文字/語音為主的互動模式下,Gemini 率先將「看得見的 AI」推向市場,這對整體AI應用生態具有重大啟示:

1. 用場景大躍進從閱讀螢幕、幫你挑衣服顏色、導覽商品,到生活小幫手角色,未來每台手機都可能內建一個“有眼睛”的AI助理。

2. AI助理進軍視覺邊界視覺感知代表更高的推理難度,也需要更複雜的模型運算。這顯示Google在算力與模型整合能力上的成熟,未來勢必引起 Apple、Samsung 等平台的回應。

3. 發隱私討論Gemini若能讀取畫面與即時影像,勢必涉及更多個人資料、聊天紀錄、螢幕截圖等隱私問題,未來各界對「AI該看什麼、不該看什麼」將成為監管焦點。

台灣AI應用開發者而言,這波功能開放意味著更多創新空間,也可能激發新一波「以視覺為核心」的應用創業浪潮,例如智慧導覽、互動學習、視覺客服、虛實整合服務等。

延伸閱讀

InfoAI|分享AI知識,賦能工作。

broken image