InfoAI智能情報 { 新聞 }
據外媒報導,Google最近對於Transformer做出一項重大改進,這能讓AI擁有近乎無限的記憶力和處理無窮無盡輸入的能力。這項研究的成果發表在一篇題為《Leave No Context Behind: Efficient Infinite Context Transformers with Infini-attention 》的論文中。
在這項研究中,Google引入了一種名為“Infini-attention(無限注意力)”的新技術。它讓基於Transformer的大型語言模型能夠高效處理任何長度的輸入,同時只需要有限的記憶體和算力資源。這種技術的核心在於對Transformer的注意力層進行了細微但關鍵的改進,使得現有的大型語言模型能夠自然地擴展,以處理無限長的上下文。
具體來說,Google的Infini-attention技術會保留標準注意力計算中的所有關鍵點、值和查詢狀態,並將過去的關鍵點和值狀態存儲在一個壓縮的記憶體中。這樣,當處理後續的序列時,可以使用注意力查詢狀態從記憶體中提取出所需的信息,再將長期記憶中提取的信息和局部上下文結合起來,計算最終的輸出。
這項技術的主要貢獻有:
- Infini-attention讓現有語言模型能夠適應超長的上下文,只需簡單的持續預訓練和微調。
- 模型在長上下文的語言建模任務中表現卓越,且記憶體使用率大幅減少。
- Google使用1B參數的模型完成了長達100萬單詞的輸入任務,展示了強大的泛化能力。
- 在一項500K長度的書籍摘要任務中,8B參數的模型取得了前所未有的性能。
此外,Google還採用了穩定的訓練技術,通過線性注意力機制來更新和檢索壓縮記憶體,並進一步提高了模型處理複雜語言建模任務的能力。
這項研究不僅提升了模型對長文本的理解和處理能力,也為未來的語言模型研究開闢了新的道路。
Infini-attention 機制讓 Transformer 語言模型能夠高效且強大地處理非常長的文本,而且不會讓記憶體或計算量過度增加。這種方法在處理特別長的文本時表現出了新的能力,也很適合用來調整現有的模型,使其能夠處理長輸入。實驗證明,和過去的方法相比,這種方法在效能、資料壓縮和適應不同長度輸入的能力方面都有顯著的優勢。總的來說,這項工作在提升處理長文本的語言模型的擴展性和有效性方面做出了重要的貢獻。
InfoAI,給你駕馭AI的知識和技能,成為AI時代的專家與達人。
InfoAI智能情報:AI知識新聞網站
www.InfoAI.com.tw