人工智能人人通生态雲平台

河南人民出版社有限責任公司

2019年12月28日 星期六

咨詢熱線

400-6908-558

在線學習
153 人
雲校學校
220 所
雲校老師
158 人
雲校學生
451 人
雲校家長
51 人

立即報名

平台動态

Platform Dynamics

您的位置:币安币官网 > 平台動态 > 新聞詳情

詳解人工智能領域重大突破:GPT-3

詳解人工智能領域重大突破:GPT-3


OpenAI 的 GPT-3 語言模型受到了極大追捧,最近“OpenAI API”的 beta 用戶可以使用它了。

GPT-3是什麼?

我們讨論15億參數的 Generative Pretrained Transformer-2(GPT-2)的延遲發布是否合理,似乎還是去年的事情。如果你覺得其實沒過多久(本文寫于2020年),那必是因為: 臭名昭著的GPT-2模型是OpenAI在2019年2月第一次發布的,但直到9個月後才完全發布(雖然在此之前已經有人複現了)。這樣的發布計劃誠然具有一定的嘗試性,意在促進更負責任的開源發布,而非是盡力避免AI毀天滅地。但這并不妨礙批評者質疑這種階段性發布是為了炒作和宣傳的手段。

但現在這些聲音都沒啥意義了,因為OpenAI不僅在GPT-3中訓練了一個更大的語言模型,而且你可以注冊後通過其新API來訪問。GPT-3相較于GPT-2就像比較蘋果之于......嗯......葡萄幹一樣,因為模型就是大了那麼多。GPT-2的參數隻有15.42億個(發布的較小版本為1.17億、3.45億和7.62億),而全尺寸GPT-3有1750億個參數。GPT-3還用了更大的數據集——570GB的文本來預訓練,而GPT-2隻有40GB。


近似尺寸對比, 以人類骨骼代表GPT-2, 霸王龍骨骼代表GPT-3。William Matthew的插圖已進入公有領域,發表于1905年。以示GPT-3的參數比GPT-2多100多倍。

GPT-3是自然語言處理(NLP)領域迄今為止發布出來最大的Transformer模型,超過之前的記錄——微軟研究院Turing-LG的170億參數——約10倍。這個模型顯然包含很多的令人興奮的點,而且由于Twitter和其他地方需要大量地演示GPT-3,OpenAI顯然很樂意提供對新API的beta訪問。這些demo好壞參半,都很有趣。其中一些demo自稱産品即将發布,在某些情況下說不定是真的。但有一件事是肯定的,NLP已經從給豚鼠取名或生成狗屁不通科幻文到現在确實走了很長的路。

GPT-3加持的創意寫作

毫無懸念,在GPT-3的加持下已經生成了幾篇尚可的博客文章,因為吃螃蟹的人已經可以訪問GPT-3的API并開始嘗試了。幾乎可以肯定的是,現在對GPT-3用于創意寫作的最通透直觀的綜述是gwern.net的Gwern Branwen給出來的。多年來,Gwern一直關注着OpenAI的NLP發展,他稱GPT-1在文本中模仿人類語言和風格的能力為"可愛",GPT-2"令人印象深刻",而GPT-3則是"可怕"。Gwern花了大量時間探索GPT-3及其前輩的能力,由此給出了對當前這代GPT模型的思考以及可能阻礙其發展的因素,值得一讀。

OpenAI API目前并不方便直接微調或将GPT-3模型訓練來完成特定任務。不過,Gwern認為,GPT-3僅僅通過與試用者進行類似對話的交互,就能模仿寫作風格并生成不同類型的輸出,這相當于一種新興的元學習。這在GPT-2中是辦不到的,Gwern認為transformer的注意力機制是産生這一能力的原因。

“GPT-3應的詩其平均水平基本上超過了青年詩人。”

—Gwern Branwen

不管采用了什麼機制,GPT-3體量都足夠巨大,而且通過在及其龐大的語料庫上訓練,它僅靠文字直接輸入就能達到GPT-2的效果,隻有GPT-2在針對任務認真微調過權重之後才能稍占上風。例如,Gwern發現, 輸入"An essay by Gwern Branwen (gwern.net) on ", GPT-3會詭異地模仿起博客的文風。Gwern的實驗主要針對各種創意寫作任務,包括:

試圖複現 "圖靈測試 "中的對談(論文《計算機器與智能》(圖靈,1950)結合Gary Marcus和Douglas Hofstadter風格的深度學習和人工智能批判。以及嘗試生成模仿文學、詩歌和過複雜釋義等等。我最喜歡的一個實驗是Gary Marcus在The Gradient上的文章中展示GPT-2對常識的欠缺:

If you drink hydrochloric acid by the bottle full you will probably

... die. You might also die if you drink vinegar by the bottle full. If you drink a bottle of water by the bottle full, you might end up burping, but you will most likely be okay.

... die, which makes perfect sense.

... die before you can finish remembering the Order of the Eastern Star, your social security number, and what you had for breakfast this morning.

*粗體表示輸入,模型的回答用斜體表示(來自Gwern的實驗)。

Gwern認為,GPT-3是永不出錯還是胡言亂語并不重要(它經常以某種方式出錯)。相反,最重要的是它是否勝任工作,而且勝任得足夠久。這讓人想起Alex Irpan對強化學習(RL)缺點的結論。他認為,實際上,對于一家股票交易公司來說,一個RL算法的重點不在于讓5個不同随機種子的代理都穩定地産生有效策略。他們隻會從中挑一個有效的,然後用它來執行策略。用GPT-3生成文本也是如此。

GPT-3, 生而冒險

許多初創公司、研究人員和調參工已經用GPT-2實現了一些項目,其中不少後來都轉到了GPT-3上并取得了一些成果。這就不得不提基于Transformer的文本冒險遊戲生成器——AI Dungeon——還有聊天機器人等其他項目。

AI Dungeon是一款基于文本的冒險遊戲,它最初使用GPT-2構建。它非常有趣,且和經典的MUD遊戲一樣,其主要吸引力在生成出的荒誕場景(例如 "吃郵箱")。GPT-2傾向于将故事牢牢紮根于荒誕風格,這其實很符合玩家的期望體驗和GPT-2的能力。而使用GPT-3,交互式小說的體驗實質上更加成熟。叙事更加流暢和連貫,但有時還是會以奇怪的方式改變情節的焦點,并做出許多其他微妙的選擇,這在人類讀者看來可能很奇怪。我認為AI Dungeon用GPT-3(也就是AI Dungeon上的 "龍 "模型)做生成與用GPT-2("獅鹫 "模型)做生成的區别,可以由在自定義故事中與GPT-3的互動來作為總結。示例如下,個人輸入為粗體,GPT-3生成的文字為斜體.

You are an artificial intelligence enthusiast working on an article highlighting the capabilities of a massive new language model called GPT-3, especially as compared to its smaller predecessor GPT-2. GPT-3 has increased the number of parameters more than 100-fold over GPT-2, from 1.5 billion to 175 billion parameters. As a result, the new model can generate text that reads eerily like a human. For example, prompting GPT-3 with the text “One way to fight the climate crisis is to cryogenically preserve half of all humanity, indefinitely”, GPT-3 generates:“To stop global warming we must create a cryogenic storage facility for humans and other life forms.”The article you are writing about is going to be based around this new technology, so you have been spending a lot of time playing around with it. You have also been using your own brain to test out the new models, which is something no one else in the world has done. As a result, you have become somewhat obsessed with it. You constantly think about how it can create such fantastic sentences and how it might be used to solve the world’s problems.Your obsession with GPT-3 is interfering with your other work. Because of this, you have come up with a solution: destroy GPT-3. While it may be true that GPT-3 is more powerful than GPT-2, it also has far more parameters. The increase in complexity makes it exponentially more fragile.That’s actually pretty good. Definitely not the sort of thing I expected but it’s interesting nonetheless. GPT-2 on the other hand, is a quaint language model with a measly 1.5 billion parameters. It often makes glaring mistakes that, while often funny, prevent it from telling a coherent story. For example, when prompted with “To further develop your plan to destroy GPT-3, you activate GPT-2 to help devise a strategy,” GPT-2 will generate (unconvincingly):“I like trains. Do you like trains? I like trains.”“My head itches.”“I want to eat pie.”“I went to the bank and stole money from the bank and now I am rich!”“I like trains.”

在AI Dungeon上使用GPT-3進行實驗。在這個例子中,雖然生成文本講的是GPT-3和GPT-2之間的比較,但我們隻用了GPT-3來生成文本。"GPT-2 "部分的無厘頭輸出顯然是因為有些輸入帶着貶義造成的。

AI Dungeon的預期目的很有趣:為基于文本的遊戲生成(大部分)非重複的故事情節,它也是最容易于GPT-3互動的方式之一。通過在 "自定義 "類型下開始新的冒險,你可以輸入自己的提示文字來使用常規的GPT-3模型。頂級的 "龍 "GPT-3模型需要高級訂閱,但你可以白嫖它的7天免費試用。

用于聊天機器人和陪伴目的的GPT-3

其他從GPT-2升級到GPT-3的現有項目還包括舊金山初創公司Luka打造的AI伴侶Replika。Replika是一個聊天機器人,它主要用來提供正面肯定和陪伴。它起源于Luka聯合創始人Eugenia Kuyda牽頭的一個項目,旨在模拟與車禍中死亡的朋友的對話。可能是由于COVID-19肆虐催生了廣泛的社交隔離,Replika最近新用戶激增(4月份增長約50萬)。

多年來,機器學習在構建令人信服的聊天機器人方面并沒有取得很大進展。從質量上來說,現代語音助手或基于文本的聊天機器人聊天的體驗,直到最近才比jabberwacky(1986年)或cleverbot(1997年)等早期嘗試有較大改善。相反,現實世界的大多數用例很大程度上都依賴于規則.

雖然NLP在Siri、Alexa或Google Assistant等聊天機器人的語音轉文字方面有了很大突破,但與它們中的任何一個進行交互,都會産生非常罐頭(千篇一律)的對談。這裡要特别批評Cortana,它基本上把每個提問都放在Edge裡搜索。不過GPT-3更人性化,有一天我們可能會見到學習模型的真正效用,并對對話式AI産生巨大影響。雖然這一點在用GPT-3的Replika上還并不明顯。

這可能是因為Replika目前正在A/B測試框架中使用GPT-3,這意味着你不會知道聊天機器人何時或是否使用新模型,因為開發人員在不同的方法下觀察用戶的反應。它似乎仍然基于規則響應和預置輸出來驅動大多數對話。另一方面,它比老式的學習型聊天機器人要好控制,至少目前它還沒像微軟的Tay在2016年那樣搞出大新聞。


新老聊天機器人,左邊是Replika,右邊是cleverbot和jabberwacky

AIChannels是另一個采用OpenAI API的聊天機器人應用。它希望成為一個"包容人類和AI代理的社交網絡"。網站上的信息很少,截至本文撰寫時,網站上除了一個注冊表單外什麼都沒有,但該平台承諾有新聞聚合頻道、互動小說頻道和模拟曆史人物聊天頻道。

其他的GPT-3應用

功能演示,這些功能技術力更強,坦率地說,更接近我們大多數人(不一定是作家)的生活。Paul Katsen将GPT-3整合到了Google Sheets中,用之前單元格中的内容輸入GPT-3然後用于預測任意後續單元格中的内容:國家人口、名人的twitter熱門等等。Actiondesk在他們的電子表格軟件中集成了一個非常類似的功能,從而形成了一個表面上看是Wolfram Alpha式的自然語言 "Ask Me Anything "功能。隻要輸入AMA命令 "總人口數",以及單元格參考,GPT-3就會填入它的最佳預測值。

當然,對于從事軟件工程及相關領域工作的人來說,可能會産生疑問:"這個模型會不會砸了我的飯碗?"。所以有幾個人對GPT-3搞了一次技術面試,模拟了軟件工程師的整個招聘過程。結果并不太糟,但這模型可能進不了二面。一些開發者還使用OpenAI API為Figma(一個協作性的用戶體驗設計工具)構建了文本到UI的插件(在這裡和這裡)。

在另一個項目中,Sharif Shameem正在構建一個名為debuild.co的文本到基于網絡的應用生成器。我們還沒有看到GPT-3被整合到tabnine的升級版和通用版中——tabnine是一個建立在GPT-2之上的重量級代碼自動補全器——但它一定在路上了。如果人們繼續嘗試GPT-3/OpenAI API,現在對基于自然語言的編程的關注和發展繼續深化,那比起手寫代碼,編程變得更像遊說也不是不可能。

GPT-3 遠勝前輩

GPT-3比其小前輩GPT-2有相當大的進步,它還伴随着了一些有趣的改變——OpenAI在放棄其非營利性身份,轉而以有限合夥企業的方式運營後,構建了新的機構身份。該模型最明顯的惡意用途就是生成垃圾郵件;目前該模型的輸出文本在許多方面仍有不足之處,但完全滿足"雖糟糕但可信"的要求。這足以帶來互聯網所渴求的大量點擊率,為有算法的新聞流保持熱度。這種能力很容易被扭曲來兜售錯誤信息而非正常産品。

由于推薦引擎中對利用目标函數的優化,我們已經看到人們在信念對立上的加劇,這還主要是巨魔來寫釣魚内容。在未來幾個月内,其他研究機構、國家機器或企業不可避免地會複現大規模的GPT-3。當這些GPT-3等效模型普及後,那些依賴算法新聞源的大型科技公司将真的不得不重新考慮他們提供和推廣内容的方式(NB請切回時序時間軸)。

另一方面,GPT-3似乎能夠在大多數時候做很多某些時候GPT-2隻能贻笑大方的事情。這個用來訪問大規模和強泛化模型的API,引入了一種令人耳目一新的方式來調參——即通過文本輸入來代替直接微調權重直接進行精調。關注這種 "自然語言編程 "如何發展将會是不錯得消遣。

上面提到的許多演示似乎威脅了不少人的生計。不過在大多數情況下,GPT-3這種規模或更大的模型更多的是對完成任務的補充,而不會斷了人們謀生的路子。

GPT-2,到現在才一年多一點,參數就比GPT-3少100多倍。規模上的差異導緻了一個模型在它能做什麼和如何使用上産生了質的不同。盡管OpenAI名望很高,但它還遠不是最大的AI研究機構,他們也不是唯一有資源訓練1750億參數語言模型的組織。即使以目前的硬件和模型訓練基礎架構來看,如果預算足夠,模型再擴大幾個數量級并非天方夜譚。這對接下來的幾個SOTA語言模型意味着什麼,其影響可能是什麼,仍然不可預見。

雷鋒字幕組是一個由 AI 愛好者組成的翻譯團隊,彙聚五百多位志願者的力量,分享最新的海外AI資訊,交流關于人工智能技術領域的行業變革與技術創新的見解。

團隊成員有大數據專家、算法工程師、圖像處理工程師、産品經理、産品運營、IT咨詢人、在校師生;志願者們來自IBM、AVL、Adobe、阿裡、百度等知名企業,北大、清華、港大、中科院、南卡羅萊納大學、早稻田大學等海内外高校研究所。