ReALM模型的研究展示了蘋果在人工智慧領域的最新進展,它不僅在技術上與OpenAI的GPT-4相媲美,更重要的是,它為未來語音助手的發展開闢了新的道路。
InfoAI智能情報 { 觀點 }
我們知道蘋果正在為2024年6月的WWDC準備一系列AI相關的發佈,但具體包含哪些內容還不得而知。增強Siri應該是蘋果的主要優先事項之一,因為iPhone用戶對這位數位助理經常有抱怨。
蘋果的ReALM模型與相關技術
蘋果的人工智慧研究團隊最近推出了一項名為ReALM(Reference Resolution As Language Modeling,即語言模型中的參考解析)的技術,ReALM模型的核心在於將複雜的參考解析問題轉化為純粹的語言建模問題。
而所謂的「參考解析」是指:解讀對屏幕上物體的模糊指稱,以及理解對話和背景上下文。例如,當我們說“那個”或“這個”時,人類可以根據上下文理解這些詞指的是什麼,但像ChatGPT這樣的聊天機器人有時可能無法準確理解,因此,但這種準確理解指稱對象的能力,對於聊天機器人來說非常重要。
ReALM模型的核心在於將複雜的參考解析問題轉化為純粹的語言建模問題。這意味著,當用戶對Siri等語音助手發出指令時,無論涉及多少上下文信息,如背景任務、屏幕顯示數據等,ReALM都能通過將這些信息轉換為文本來有效解析。
傳統的解析方法依賴於龐大的模型和參考資料,如圖像,但蘋果通過將一切轉化為文本的方式,簡化了這一流程。ReALM模型即使在參數較少的情況下,也能達到與GPT-4相似的性能,這為在設備上直接使用創造了可能,同時也增強了隱私性和安全性。
根據蘋果的說法,ReALM讓使用者能夠用「這個」或「那個」指向屏幕上的某物,並讓聊天機器人完美理解,這對於創建用戶的免提螢幕體驗至關重要。因此,ReALM能讓與裝置的互動更直覺、更自然。
研究人員在論文中提到,他們希望使用ReALM來理解和識別三種實體:屏幕實體、對話實體和背景實體。「屏幕實體」是指顯示在使用者螢幕上的物件,「對話實體」是與對話相關的物件,「背景實體」則是那些不屬於前兩類但仍然相關的物件,例如背景播放的播客或剛響的通知,蘋果希望ReALM能夠理解使用者指稱這些實體時的用意。
因此,使用項技術在解析上下文數據時,會比GPT-4更小巧、更快速。這意味著,當用戶對Siri等語音助手發出指令時,無論涉及多少上下文信息,如背景任務、屏幕顯示數據等,ReALM都能通過將這些信息轉換為文本來有效解析。
據暸解,蘋果的這項研究的目的是在於改善Siri語音助理對指令的理解和回應速度,使得當用戶向Siri發出指令時,能被快迅與高效的處理。蘋果的這項研究不僅對於提升Siri的效能很關鍵,也為語音助手在更多場景下的應用奠定了基礎,如為駕駛者操作車載信息系統提供幫助,或為殘疾人士提供更便捷、更準確的交互方式。
蘋果的研究人員在其論文中聲稱,在某些特定測試中,尤其是在處理上下文數據時,ReALM展現出了與GPT-4相當,甚至在某些方面更優異的性能。
ReALM與GPT-4的比較
GPT-4依賴於圖像解析來理解屏幕上的信息,而ReALM通過將圖像轉換為文本來避免這一需求,從而使模型更小、更高效。這種轉換不僅加快了處理速度,還減少了對高階圖像識別參數的依賴。
例如,當我們與Siri交談時,可能會涉及許多上下文信息,比如背景任務、屏幕上的數據等。傳統的解析方法需要依賴龐大的模型和參考資料,如圖像。但是蘋果通過將所有信息轉換為文本來簡化這個過程。他們發現,最小的ReALM模型在參數數量遠少於GPT-4的情況下,仍然展現出相似的性能,這使得它更適合在設備上使用。增加ReALM使用的參數會讓其性能大大超過GPT-4。
這種性能提升的一個原因是GPT-4依賴於圖像解析來理解屏幕上的信息。而ReALM通過將圖像轉換成文本,避免了這種對高級圖像識別參數的需求,從而使得模型更小且更高效。蘋果還通過限制解碼或使用簡單的後處理來避免錯誤生成,提高了模型的準確性。
舉例來說,當你在瀏覽一個網站並決定打電話聯絡業務人員時,只需說“打電話給這個業務”,Siri就能根據上下文解析你的意圖,並識別出頁面上標記為業務號碼的電話號碼,撥打電話,無需用戶提供進一步的電話號碼提示。
此外,ReALM還能透過限制解碼或使用簡單的後處理,來避免因錯誤產生些問題,進一步提高了其準確性和實用性。
研究人員在論文中還進一步指出,與具有類似功能的現有系統相比,ReALM在不同類型的參考上顯示出大幅改進,即使是最小的模型也在屏幕參考上獲得了超過5%的絕對增益。他們還將ReALM與GPT-3.5和GPT-4進行了對比,發現即使是最小的模型也能達到與GPT-4相當的性能,而更大的模型則大幅超越GPT-4。需要注意的是,GPT-3.5只接受文本輸入,而在GPT-4的測試中,研究人員提供了屏幕截圖,這顯著提升了性能。
從蘋果的研究人員所發佈的論文中可得知,ReALM模型的參數量有四種不同的數量:ReALM-80M、ReALM-250M、ReALM-1B和ReALM-3B。“M”和“B”分別表示百萬和十億的參數量。
目前GPT-3.5擁有1750億參數,而GPT-4據稱擁有大約1.5萬億參數。報告中指出:「我們展示了ReALM超越了以前的方法,並且與當今最先進的LLM——GPT-4的表現大致相當,儘管它的參數遠少於後者。」
ReALM模型的未來應用
隨著2024年WWDC的臨近,外界對蘋果會如何把ReALM技術整合到其產品和服務中充滿期待。因為,這不僅可能改變Siri的工作方式,使其更加理解上下文和用戶的意圖,還可能為用戶提供更加個性化和安全的體驗。
雖然現在預測蘋果會如何與iOS, MacOS的設備整合還為時尚早,但這些論文的發佈,可視為蘋果計劃在其未來的軟體產品中加入此功能的預告。
總體來說,ReALM模型的研究展示了蘋果在人工智慧領域的最新進展,它不僅在技術上與OpenAI的GPT-4相媲美,更重要的是,它為未來語音助手的發展開闢了新的道路,使得人機交互更加自然、高效和安全。隨著這項技術的進一步發展和應用,我們有理由期待在不久的未來,人類與數位助理的互動將變得更加無縫和直覺。
InfoAI智能情報
www.InfoAI.com.tw
Pitch提案成功:專做投資人想看的募資簡報
www.pitch.com.tw
金商機 精選報告:獲得市場數據洞察商機,省時省力省錢方法
www.InfoGold.World