Google推出 DolphinGemma 模型 AI首次跨足「動物語言」解析領域

· 新聞摘要解讀

InfoAI 全球AI新聞摘要與解讀

InfoAI全球AI新聞精選與解讀|
Google AI 助力破解海豚語言,DolphinGemma 模型開創海洋溝通研究新紀元

Google DeepMind 日前公布一項引發科學與 AI 界高度關注的新計畫:開發名為 DolphinGemma 的人工智慧模型,專門用來解析瓶鼻海豚的溝通聲音。這不僅是生成式 AI 首度應用於非人類語言領域,更可能為動物行為學與海洋生態研究帶來深遠影響。

DolphinGemma 是由 Google DeepMind 聯合夏威夷大學(University of Hawaii)與「海豚溝通計畫(Dolphin Communication Project)」共同開發,利用海量野生與半圈養環境下錄製的海豚聲音資料訓練模型,目的是讓 AI 能「聽懂」甚至「推測」海豚之間的交流內容。

DolphinGemma 是什麼?語言模型技術與海洋科學的融合

DolphinGemma 的核心架構,靈感來自自然語言處理(NLP)中的大型語言模型(LLM),但研究團隊將其應用於生物聲學資料上。模型學習分析海豚的點擊聲(clicks)、哨聲(whistles)與脈衝音(burst pulses),這些聲音組成了海豚彼此溝通的重要元素。

不同於傳統的聲紋比對或頻率分布分析,DolphinGemma 能夠處理時間序列中的模式,辨識聲音片段之間的結構、重複與變化,進而推測「語意」潛力,例如是否為呼喚特定個體、傳遞社交信號,或警示危險。

只是聲音識別,更是理解動物社交的起點

研究人員指出,此計畫的終極目標不僅是分類海豚聲音,而是嘗試建立「聲音與行為」之間的對應關係。藉由同步記錄聲音與行為影片資料,團隊希望 AI 能逐漸辨識出「這種聲音出現在這個情境中」的規律,例如:

  • 某段哨聲是否出現在餵食行為發生前後?

  • 特定點擊音是否在保護幼崽時頻繁出現?

  • 是否存在固定組合的聲音序列,對應某種社交動作?

如果能達成這樣的映射,未來就可能發展出「人類-海豚翻譯層」,讓我們不再只能「聽見」動物,而是「理解」牠們。

來源與模型訓練:生物學與AI界跨界合作的典範

DolphinGemma 的開發仰賴數十年來的海豚研究累積。研究資料主要來自兩個來源:

  1. 野外觀測資料:來自夏威夷海域與墨西哥灣,紀錄自由生活的瓶鼻海豚自然發聲行為。

  2. 控制環境資料:來自研究機構的半圈養設施,能標記聲音產生的個體、時間與行為場景。

透過這些資料,模型能進行無監督學習與標記強化訓練,建立「跨語系的語音解碼能力」。

為何擇海豚?瓶鼻海豚是最佳實驗對象

瓶鼻海豚(Tursiops truncatus)長期被認為是地球上最接近人類溝通能力的非人類物種之一。牠們具備:

  • 高度社交性與群體生活習性

  • 明確個體辨識的哨聲「簽名音」

  • 合作狩獵與母子互動中的聲音傳遞行為

此外,海豚的大腦與語音系統複雜程度極高,具備進化上與人類相似的「溝通動機」。因此成為語言模型應用的理想起點。

趨勢觀:從人類語言模型到萬物理解模型

DolphinGemma 的出現,是 AI 發展歷程中一個關鍵轉折。它展現 AI 不只能理解「人話」,還能開始理解動物、自然界,甚至其他形式的訊號系統。

這代表未來可能出現以下幾項技術方向:

  1. 跨物種語言模型(Inter-species LLM):應用至其他高智慧動物,如大象、黑猩猩、鳥類、鯨魚等;

  2. 生態監測 AI 助手:即時辨識環境中動物的叫聲,協助保育與監測;

  3. 動物互動裝置:建立能與特定動物族群雙向互動的裝置或平台;

  4. 教育平台擴展:開發虛擬動物對話系統,提升 STEM 與生物學學習趣味性。

Google DeepMind 團隊強調,這項研究仍處於早期階段,目前尚無法「翻譯」海豚語言,但已建立可持續擴展的資料基礎與模型框架。

參考資料:https://www.artificialintelligence-news.com/news/dolphingemma-google-ai-model-understands-dolphin-chatter/


InfoAI|分享AI知識,賦能工作。

broken image

broken image