GPT-3 是由總部位於舊金山的 AI 研究先驅 OpenAI 所創建。 OpenAI 的使命是「確保通用人工智能造福全人類」。
創建通用人工智能的願景是「一種不局限於專門任務的 AI,而是在各種任務中表現良好,就像人類做」。
GPT-1
OpenAI 於 2018 年 6 月推出了 GPT-1。開發人員的主要發現是將 Transformer 架構與無監督預訓練相結合產生了可喜的結果。他們寫道,GPT-1 針對特定任務進行了微調,以實現「強大的自然語言理解」。
GPT-1 是通向具有通用語言能力的語言模型的重要墊腳石。它證明瞭語言模型可以被有效地預訓練,這可以幫助它們很好地泛化。該架構可以執行各種 NLP 任務,只需很少的微調。
GPT-1 模型使用BooksCorpus數據集來訓練模型,該數據集包含大約 7,000 本未出版的書籍和 transformer 解碼器中的自注意力。該架構類似於原始變壓器,具有 1.17 億個參數。該模型為未來具有更大數據集和更多參數的模型更好地發揮其潛力鋪平了道路。
由於預訓練,其顯著的能力之一是在自然語言處理中的零樣本任務上表現出色,例如問答和情感分析。零樣本學習是模型執行任務的能力,而無需先前看到該任務的示例。在Zero-shot task transfer中,模型幾乎沒有給出示例,並且必鬚根據說明和一些示例理解任務。
GPT-2
2019 年 2 月,OpenAI 推出了 GPT-2,它更大但其他方面非常相似。顯著的區別在於 GPT-2 可以進行多任務處理。它成功地證明一個語言模型可以在沒有接受任何訓練樣例的情況下很好地完成多項任務。
GPT-2 表明,在更大的數據集上進行訓練並擁有更多的參數可以提高語言模型理解任務的能力,並超越零樣本設置中許多任務的最新技術水平。它還表明,即使是更大的語言模型也能更好地理解自然語言。
為了創建一個廣泛的、高質量的數據集,它抓取了 Reddit 平台上獲得好評的文章。生成的數據集 WebText 包含來自超過 800 萬份文檔的 40GB 文本數據,遠大於 GPT-1 的數據集。 GPT-2 在 WebText 數據集上進行訓練,擁有 15 億個參數,是 GPT-1 的十倍。
GPT-2 在閱讀理解、摘要、翻譯和問答等下游任務的多個數據集上進行了評估。
GPT-3
為了構建更加健壯和強大的語言模型,OpenAI 構建了 GPT-3 模型。它的數據集和模型都比用於 GPT-2 的數據集和模型大兩個數量級:GPT-3 有 1750 億個參數,並在五種不同的文本語料庫的混合上進行訓練,這是一個比用於訓練的數據集大得多的數據集GPT-2。 GPT-3 的架構與 GPT-2 基本相同。它在零樣本和少樣本設置中的下游 NLP 任務上表現良好。
GPT-3 具有編寫與人類撰寫的文章無法區分的文章等功能。它還可以執行從未明確訓練過的即時任務,例如求和數字、編寫 SQL 查詢,甚至編寫 React 和 JavaScript 代碼,給出任務的簡單英語描述。
InfoAI智能情報:AI知識新聞網站
www.InfoAI.com.tw
Pitch提案成功:專做投資人想看的募資簡報
www.pitch.com.tw
金商機 精選報告:獲得市場數據洞察商機,省時省力省錢方法
www.InfoGold.World