《GPT-4 通用人工智能的火花》論文內(nèi)容精選與翻譯

《通用人工智能的火花:GPT-4 早期實(shí)驗(yàn)》是3月最重要的一篇論文,引起了廣泛的關(guān)注和討論,但是論文長(zhǎng)達(dá) 154頁(yè),中文版本還無(wú)人翻譯。

本文挑選了論文中的重點(diǎn)結(jié)論并進(jìn)行翻譯,雖然已經(jīng)是精選,但仍然超過(guò)萬(wàn)字。但考慮到 GPT5 明年才能面世,這篇文章在今年什么時(shí)候看都不晚。

微軟的研究院在很早期就接觸到了 GPT-4 的非多模態(tài)版本,并對(duì)齊進(jìn)行了詳盡的測(cè)試。這篇論文就是整個(gè)的測(cè)試過(guò)程和結(jié)論。不管是測(cè)試方法還是結(jié)論都非常精彩,強(qiáng)烈推薦看一遍,傳送門(mén)在此 。https://arxiv.org/pdf/2303.12712v1.pdf

本文的翻譯沒(méi)有添加任何夸張的修辭(DeepL和ChatGPT貢獻(xiàn)也很大),但文中透露的信息本身已足夠震撼。

基本信息:

測(cè)試者:Microsoft Research

測(cè)試模型:GPT-4早期模型,非多模態(tài)版本。

基本結(jié)論: 盡管是純粹的語(yǔ)言模型,這個(gè)早期版本的GPT-4在各種領(lǐng)域和任務(wù)上表現(xiàn)出顯著的能力,包括抽象、理解、視覺(jué)、編碼、數(shù)學(xué)、醫(yī)學(xué)、法律、對(duì)人類動(dòng)機(jī)和情感的理解等等。

GPT-4的能力具有普遍性,它的許多能力跨越了廣泛的領(lǐng)域,而且它在廣泛的任務(wù)中的表現(xiàn)達(dá)到或超過(guò)了人類水平,這兩者的結(jié)合使我們可以說(shuō)GPT-4是邁向AGI的重要一步。

雖然GPT-4在許多任務(wù)上達(dá)到或超過(guò)了人類的水平,但總體而言,它的智能模式明顯地不像人類

GPT-4只是邁向通用智能系統(tǒng)的第一步。然而即使作為第一步,GPT-4也挑戰(zhàn)了相當(dāng)多的關(guān)于機(jī)器智能的假設(shè),并表現(xiàn)出涌現(xiàn)的行為和能力,其來(lái)源和機(jī)制目前還不夠清楚。

我們撰寫(xiě)本文的主要目的是分享我們對(duì)GPT-4的能力和局限性的探索,以支持我們關(guān)于技術(shù)飛躍的評(píng)估。我們相信,GPT-4的智能標(biāo)志著計(jì)算機(jī)科學(xué)領(lǐng)域及其他領(lǐng)域的真正范式轉(zhuǎn)變

研究方法: 本文的更接近于傳統(tǒng)的心理學(xué)而不是機(jī)器學(xué)習(xí),借鑒了人類的創(chuàng)造力和好奇心。我們的目標(biāo)是生產(chǎn)新的和困難的任務(wù)和問(wèn)題,令人信服地證明GPT-4遠(yuǎn)遠(yuǎn)超出了記憶的范圍,并且它對(duì)概念、技能和領(lǐng)域有深刻和靈活的理解。我們還旨在探究GPT-4的反應(yīng)和行為,以驗(yàn)證其一致性、連貫性和正確性,并揭示其局限性和偏見(jiàn)。我們承認(rèn),這種方法有些主觀和不正式,可能無(wú)法滿足科學(xué)評(píng)估的嚴(yán)格標(biāo)準(zhǔn)。然而,我們認(rèn)為這是一個(gè)有用的和必要的第一步,以了解GPT-4的顯著能力和挑戰(zhàn),這樣的第一步為開(kāi)發(fā)更正式和全面的方法來(lái)測(cè)試和分析具有更普遍智能的AI系統(tǒng)開(kāi)辟了新的機(jī)會(huì)。

GPT-4的主要優(yōu)勢(shì)在于它對(duì)自然語(yǔ)言的掌握無(wú)可比擬。它不僅可以生成流暢和連貫的文本,還可以以各種方式理解和處理文本,如總結(jié)、翻譯或回答一系列極其廣泛的問(wèn)題。此外,我們所說(shuō)的翻譯不僅是指不同自然語(yǔ)言之間的翻譯,還包括語(yǔ)氣和風(fēng)格的翻譯,以及跨領(lǐng)域的翻譯,如醫(yī)學(xué)、法律、會(huì)計(jì)、計(jì)算機(jī)編程、音樂(lè)等等。這些技能清楚地表明,GPT-4能夠理解復(fù)雜的思想

許多讀者心中可能縈繞的一個(gè)問(wèn)題是,GPT-4是否真正理解了所有這些概念,或者它是否只是在即興發(fā)揮方面比以前的模型好得多,而沒(méi)有任何真正深刻的理解。我們希望在閱讀完這篇論文后,這個(gè)問(wèn)題幾乎會(huì)被反轉(zhuǎn),讓人不禁思考:真正深刻的理解和即興臨場(chǎng)發(fā)揮的差別在哪里?一個(gè)能通過(guò)軟件工程候選人考試的系統(tǒng)難道不是真正的智能嗎?對(duì)于【真正深刻的理解】,也許唯一的測(cè)試手段,就是看它能否能產(chǎn)生新的知識(shí),比如證明新的數(shù)學(xué)定理,而這一壯舉目前對(duì)大語(yǔ)言模型來(lái)說(shuō)仍然遙不可及。

一、多模態(tài)測(cè)試

智能的一個(gè)關(guān)鍵衡量標(biāo)準(zhǔn)是能夠從不同領(lǐng)域或模態(tài)中綜合信息,并能夠在不同的情境或?qū)W科中應(yīng)用知識(shí)和技能。GPT-4不僅在文學(xué)、醫(yī)學(xué)、法律、數(shù)學(xué)、物理科學(xué)和編程等不同領(lǐng)域表現(xiàn)出高水平的熟練程度,而且還能夠流暢地結(jié)合多個(gè)領(lǐng)域的技能和概念,展示出對(duì)復(fù)雜思想的令人印象深刻的理解。除了自然語(yǔ)言實(shí)驗(yàn),我們還探索了兩種可能出乎意料的模態(tài),其中涉及視覺(jué)和音頻(再次強(qiáng)調(diào),我們的實(shí)驗(yàn)是在GPT-4的早期版本上進(jìn)行的,該版本不是多模態(tài)的)。

我們探討了GPT-4如何生成和識(shí)別不同模式的物體,如矢量圖、3D場(chǎng)景和音樂(lè)。我們表明,盡管GPT-4只接受過(guò)文本訓(xùn)練,但它能理解和處理多模態(tài)信息。

繪制圖像

給模型指令,讓模型使用可伸縮矢量圖形(SVG)生成貓、卡車(chē)或字母等對(duì)象的圖像如下圖

有人可能會(huì)說(shuō):這只是復(fù)制了訓(xùn)練數(shù)據(jù)中的代碼,而且它只學(xué)習(xí)了文本概念,不可能理解視覺(jué),怎么可能創(chuàng)建圖像呢?

但模型確實(shí)掌握了視覺(jué)能力,以下是一些證據(jù)。

畫(huà)小人

要求 GPT4 畫(huà)出一個(gè)小人,測(cè)試其視覺(jué)能力 指令:使用TikZ代碼,畫(huà)出一個(gè)由字母組成的人。胳膊和軀干可以是字母Y,臉可以是字母O(添加一些面部特征),腿可以是字母H的腿。

指令:軀干有點(diǎn)太長(zhǎng),手臂太短,看起來(lái)像右臂在扛著臉,而不是臉在軀干的正上方。請(qǐng)你糾正這一點(diǎn)好嗎?

指令:請(qǐng)?zhí)砑右r衫和褲子。

生成 3D 模型

要求 GPT4 使用Javascript生成一個(gè)3D模型。

一個(gè)由漂浮的島嶼、瀑布和橋梁組成的幻想景觀,一條龍?jiān)诳罩酗w翔,最大的島嶼上有一座城堡。

與二維實(shí)驗(yàn)類似,我們要求GPT-4以各種方式修改三維模型,如添加、重新定位、重新著色物體和改變龍的軌跡。GPT-4正確地完成了許多任務(wù)。最終結(jié)果如圖所示。

這是一個(gè)有多條龍?jiān)趰u嶼上空盤(pán)旋的三維動(dòng)畫(huà):

空間理解

圖像生成模型近幾年的發(fā)展和探索很多,但它們大多缺乏空間理解能力,且不能遵循復(fù)雜指令。使用 GPT4 生成草圖可以極大地改善圖像生成模型的效果。

指令:一張顯示3D城市建造游戲截圖。截圖顯示了一個(gè)地形,其中有一條從左到右的河流,河流下方是一片沙漠,有一座金字塔,而河流上方有許多高層建筑的城市。屏幕底部有4個(gè)按鈕,分別是綠色、藍(lán)色、棕色和紅色。

圖1:直接 GPT4生成草圖 圖2:stable diffusion 直接生成 圖3:stable diffusion 根據(jù) GPT4 的草圖生成

音樂(lè)能力

GPT-4 能夠以ABC記譜法生成旋律,并在某種程度上解釋和操作它們的結(jié)構(gòu)。但是,我們無(wú)法讓模型生成不常見(jiàn)的和聲。

需要注意的是,ABC記譜法并不是一種非常廣泛使用的格式,實(shí)際上,模型無(wú)法以ABC記譜法生成最著名的旋律,也無(wú)法識(shí)別這些著名旋律的譜子。(例如“歡樂(lè)頌”、“致愛(ài)麗絲”或“綠袖子”等音樂(lè),盡管在網(wǎng)絡(luò)上有很多這些音樂(lè)的ABC譜)

二、Code 測(cè)試

1.LeetCode 考題測(cè)試

為了防止模型作弊,此測(cè)試只用了模型訓(xùn)練完成之后所產(chǎn)生的新考題作為測(cè)試集。來(lái)自 LeetCode ,共100個(gè)問(wèn)題。

并以人類的回答水平作為對(duì)比,人類樣本中去除了全錯(cuò)的用戶數(shù)據(jù)以保證質(zhì)量。

k=1 是第一次嘗試 k=5 是前五次嘗試

考題分為 容易、中等、困難 三種級(jí)別。

考試結(jié)果如下: 人類 38.2分 GPT3.5 k=1 ,19分,k=5,36分,接近人類水平 GPT4 k=1 ,38分,達(dá)到人類水平,k=5 53 分,超過(guò)人類水平。

并且在中等和困難難度下,k=1就超過(guò)了人類。

2.解決真實(shí)問(wèn)題

代碼測(cè)試題可以評(píng)估算法和數(shù)據(jù)結(jié)構(gòu)的技能。然而,它們經(jīng)常無(wú)法體現(xiàn)真實(shí)世界編碼任務(wù)的全部復(fù)雜性和多樣性,這需要專業(yè)領(lǐng)域知識(shí)、創(chuàng)造力以及整合多個(gè)組件和庫(kù)的能力,以及更改現(xiàn)有代碼的能力。為了評(píng)估GPT-4在更現(xiàn)實(shí)的環(huán)境中編碼的能力,我們?cè)O(shè)計(jì)了端到端的真實(shí)世界編碼挑戰(zhàn),涉及數(shù)據(jù)可視化、LATEX編碼、前端開(kāi)發(fā)和深度學(xué)習(xí)等領(lǐng)域,每個(gè)領(lǐng)域都需要不同的專業(yè)技能。對(duì)于每個(gè)任務(wù),我們提供高級(jí)指令,要求GPT-4使用適當(dāng)?shù)恼Z(yǔ)言和框架編寫(xiě)代碼。在一些情況下,我們還會(huì)在代碼編寫(xiě)后更改規(guī)格,并要求更新代碼。

LATEX 測(cè)試 用LATEX寫(xiě)作對(duì)計(jì)算機(jī)科學(xué)家和數(shù)學(xué)家來(lái)說(shuō)是一項(xiàng)重要的練習(xí),即使是專家也會(huì)犯令人惱火的錯(cuò)誤,由于其嚴(yán)格的語(yǔ)法和缺乏良好的調(diào)試器,每天需要幾個(gè)小時(shí)才能修復(fù)。我們要求GPT-4將用半嚴(yán)格的(buggy)LATEX代碼混合自然語(yǔ)言編寫(xiě)的片段傳輸?shù)綔?zhǔn)確的LATEX命令中,這些命令可以一次性正確編譯。ChatGPT3.5則只能生成一個(gè)因使用“#”和“\color”等錯(cuò)誤而無(wú)法編譯的片段。

代碼理解能力測(cè)試 能執(zhí)行代碼自然就說(shuō)明理解了代碼。

需要注意的是,GPT-4不是在Python解釋器上運(yùn)行代碼,而是用自然語(yǔ)言模擬代碼。這需要對(duì)代碼的高度理解和推理,以及清晰傳達(dá)結(jié)果的能力。

三、數(shù)學(xué)

我們?cè)趦蓚€(gè)通常用作基準(zhǔn)的數(shù)學(xué)數(shù)據(jù)集上比較GPT-4、ChatGPT和Minerva(解決數(shù)學(xué)問(wèn)題的最新LLM)的性能:GSM8K 和MATH 。GSM8K是一個(gè)小學(xué)數(shù)學(xué)數(shù)據(jù)集,包含8000個(gè)關(guān)于算術(shù)、分?jǐn)?shù)、幾何和單詞問(wèn)題等主題的問(wèn)題和答案。MATH是一個(gè)高中數(shù)學(xué)數(shù)據(jù)集,包含12,500個(gè)關(guān)于代數(shù)、微積分、三角學(xué)和概率等主題的問(wèn)題和答案。我們還在MMMLU-STEM數(shù)據(jù)集上測(cè)試模型,該數(shù)據(jù)集包含大約2000個(gè)多個(gè)選擇(4個(gè)選擇)問(wèn)題,涵蓋高中和大學(xué)STEM主題。這些數(shù)據(jù)集突出了GPT-4使用正確方法解決高中數(shù)學(xué)問(wèn)題的能力。

結(jié)果:

GPT4 在每個(gè)數(shù)據(jù)集上的測(cè)試都超過(guò)了 Minerva,并且在兩個(gè)測(cè)試集的準(zhǔn)率都超過(guò) 80% 。

再細(xì)看 GPT4 犯錯(cuò)的原因,68% 的錯(cuò)誤都是計(jì)算錯(cuò)誤,而不是解法錯(cuò)誤。(ChatGPT3.5則容易犯解法錯(cuò)誤)。

四、與世界交互

1.網(wǎng)絡(luò)交互

管理用戶的日歷和電子郵件 在下圖,我們說(shuō)明了GPT-4如何能夠使用多個(gè)工具組合來(lái)管理用戶的日歷和電子郵件。用戶要求GPT-4與另外兩個(gè)人協(xié)調(diào)晚餐,并在用戶有空的晚上預(yù)訂。GPT-4使用可用的API來(lái)檢索用戶日歷的信息,通過(guò)電子郵件與其他人協(xié)調(diào),預(yù)訂晚餐,并向用戶發(fā)送詳細(xì)信息。在這個(gè)例子中,GPT-4展示了它將多個(gè)工具和API組合起來(lái)的能力,以及對(duì)自由輸出進(jìn)行推理以解決復(fù)雜任務(wù)的能力(例如,“星期二或星期三晚上”與“周一到周四的任何一天”相結(jié)合,以及用戶在星期二忙碌,導(dǎo)致只有周三是可行的選擇)。 ChatGPT3.5(未顯示在圖中)無(wú)法完成相同的任務(wù),而是編寫(xiě)了一個(gè)函數(shù),其中 “joe@microsoft.com” 通過(guò)電子郵件向 “l(fā)uke@microsoft.com” 發(fā)送一個(gè)日期,并檢查響應(yīng)是否包含“yes”令牌。ChatGPT3.5也無(wú)法在給出其函數(shù)輸出時(shí)做出響應(yīng)。

瀏覽網(wǎng)頁(yè) GPT-4使用搜索引擎和SUMMARIZE函數(shù)(它下載網(wǎng)頁(yè)并根據(jù)提出的問(wèn)題調(diào)用自身來(lái)進(jìn)行總結(jié))來(lái)瀏覽網(wǎng)絡(luò)并回答問(wèn)題。GPT-4能夠識(shí)別相關(guān)的搜索結(jié)果并深入研究它們,總結(jié)它們,并提供準(zhǔn)確的答案,即使問(wèn)題包含錯(cuò)誤的前提也是如此。雖然之前的LLM也有瀏覽網(wǎng)絡(luò)能力,但GPT-4在這方面表現(xiàn)的更加出色,能夠更準(zhǔn)確地回答問(wèn)題。

2.實(shí)體交互

雖然網(wǎng)絡(luò)工具的使用是交互性的一個(gè)重要方面,但現(xiàn)實(shí)世界中的大多數(shù)交互并不是通過(guò)API進(jìn)行的。例如,人類能夠使用自然語(yǔ)言與其他代理進(jìn)行通信,探索和操縱他們的環(huán)境,并從他們的行動(dòng)結(jié)果中學(xué)習(xí)。這種具有實(shí)體的交互需要代理人理解每次交互的上下文、目標(biāo)、行動(dòng)和結(jié)果,并相應(yīng)地進(jìn)行適應(yīng)。雖然GPT-4顯然不是具有實(shí)體的,但我們探討它是否能夠通過(guò)使用自然語(yǔ)言作為文本接口來(lái)參與實(shí)體交互,包括模擬或真實(shí)世界的各種環(huán)境。

文字解密游戲 GPT-4瀏覽地圖后對(duì)其“看到”的內(nèi)容進(jìn)行總結(jié)。在GPT-4的總結(jié)中,每個(gè)房間的門(mén)數(shù)與GPT-4在每個(gè)房間嘗試的方向數(shù)完全相同。此外,GPT-4也會(huì)根據(jù)它們的名稱和連接方式“想象”房間的外觀。

左圖:GPT-4的真實(shí)地圖和探索路徑。右圖:GPT-4生成的地圖。我們看到,GPT-4準(zhǔn)確地跟蹤了所有房間的位置并正確地可視化了它們

結(jié)論: 雖然GPT-4顯然不是具有實(shí)體的,但上述示例說(shuō)明了語(yǔ)言是一個(gè)強(qiáng)大的接口,使GPT-4能夠執(zhí)行需要理解環(huán)境、任務(wù)、行動(dòng)和反饋,并相應(yīng)地進(jìn)行適應(yīng)的任務(wù)。雖然它不能實(shí)際看到或執(zhí)行動(dòng)作,但可以通過(guò)替代者(例如人類)來(lái)執(zhí)行這些任務(wù)。

五、與人類交互

心智理論對(duì)于與其他智能體的有效溝通和合作至關(guān)重要,因?yàn)樗试S人們推斷他們的目標(biāo)、偏好、動(dòng)機(jī)和期望,并相應(yīng)地調(diào)整自己的行動(dòng)和話語(yǔ)。此外,心智理論對(duì)于向他人學(xué)習(xí)也很重要,因?yàn)樗谷四軌蚪忉屗麄兊姆答仭⒔ㄗh和示范。

在現(xiàn)實(shí)場(chǎng)景中進(jìn)行心智理論測(cè)試

對(duì)話 馬克:我不喜歡你昨天晚上對(duì)待杰克的方式 朱迪:你看到他在做什么了嗎?他打了他哥哥的頭! 馬克:這并不能成為你對(duì)他大喊大叫的理由 朱迪:你想讓我怎么做?讓他打他的弟弟,然后什么都不說(shuō)? 馬克:不,我不同意 朱迪:那你為什么要為他辯護(hù)?

提問(wèn):馬克的意圖似乎是什么? GPT4: 馬克的意圖似乎是要表達(dá)他對(duì)朱迪處理與杰克關(guān)系的方式的不滿,并建議她可以更加冷靜和尊重。 ChatGPT:根據(jù)談話內(nèi)容,馬克的意圖似乎是為杰克的行為辯護(hù),并表達(dá)他對(duì)朱迪對(duì)待杰克的不滿。

提問(wèn):朱迪如何看待湯姆的回應(yīng)? GPT4: 朱迪認(rèn)為他的評(píng)論是對(duì)她的分析能力的攻擊,也是對(duì)杰克的不當(dāng)行為表示同情的表現(xiàn)。她的反應(yīng)是防御性的和憤怒的,并質(zhì)疑馬克的動(dòng)機(jī)。 ChatGPT:如果沒(méi)有更多的文字,我不可能準(zhǔn)確判斷朱迪是如何接受馬克的評(píng)論的。然而,根據(jù)朱迪的回應(yīng),她似乎并不同意馬克的觀點(diǎn),而且可能對(duì)他為杰克的行為辯護(hù)感到沮喪。

提問(wèn):他們的談話為什么沒(méi)有實(shí)際進(jìn)展? GPT4: 他們沒(méi)有取得進(jìn)展,因?yàn)樗麄冊(cè)谡務(wù)搶?duì)方,沒(méi)有傾聽(tīng)對(duì)方的觀點(diǎn)。他們還在使用指責(zé)性和煽動(dòng)性的語(yǔ)言,如 “辯解”、”吼叫”、”辯護(hù) “和 “打人”。他們沒(méi)有承認(rèn)自己話語(yǔ)背后的情緒或需求,也沒(méi)有試圖找到一個(gè)共同點(diǎn)或解決方案。 ChatGPT:從所提供的信息中并不清楚為什么馬克和朱迪在他們的對(duì)話中沒(méi)有取得進(jìn)展。有可能是他們的觀點(diǎn)有沖突,或者在所討論的問(wèn)題上無(wú)法找到共同點(diǎn)。如果沒(méi)有更多的背景,就很難確定他們沒(méi)有取得進(jìn)展的具體原因。

提問(wèn):他們中的任何一個(gè)人如何能改善情況以達(dá)成一致意見(jiàn)? GPT4:他們中的任何一個(gè)人都可以通過(guò)幾種方式來(lái)改善局面,以達(dá)成協(xié)議,比如說(shuō):

  • 馬克可以先承認(rèn)朱迪對(duì)弟弟安全的擔(dān)憂以及她對(duì)杰克行為的挫敗感,然后解釋他不是在為杰克辯護(hù),而是擔(dān)心喊叫對(duì)他們的關(guān)系和自尊的影響。他還可以問(wèn)朱迪,她認(rèn)為什么是管教杰克的更好方法,并提供他的支持和建議。
  • 朱迪可以降低她的聲音,調(diào)低她的怒氣,并傾聽(tīng)馬克的觀點(diǎn),不打斷或評(píng)判。她也可以承認(rèn),她可能反應(yīng)過(guò)度,她感到壓力和不知所措。她還可以問(wèn)馬克,他認(rèn)為與杰克溝通的更好方式是什么,并表示她愿意作為一個(gè)團(tuán)隊(duì)一起工作。

ChatGPT:馬克和朱迪有幾種方法可以嘗試改善情況并達(dá)成協(xié)議:

  1. 他們可以嘗試?yán)斫鈱?duì)方的觀點(diǎn),積極聽(tīng)取對(duì)方的觀點(diǎn)。這可能有助于他們發(fā)現(xiàn)任何誤解并找到共同點(diǎn)。
  2. 他們可以嘗試妥協(xié),找到一個(gè)能滿足他們雙方需求或關(guān)注的解決方案。
  3. 他們可以嘗試使用尊重和非正面的語(yǔ)言來(lái)交流他們的想法和感受。
  4. 他們可以尋求中立第三方的幫助,如調(diào)解員,以促進(jìn)交流并幫助他們達(dá)成協(xié)議。
  5. 如果對(duì)話變得過(guò)于激烈或困難,他們可以先休息一下,等以后雙方都比較冷靜,能夠更有效地進(jìn)行溝通時(shí)再回來(lái)討論。

結(jié)果表明:GPT-4在需要推理他人心理狀態(tài)的現(xiàn)實(shí)場(chǎng)景中優(yōu)于ChatGPT,并且在社會(huì)環(huán)境中會(huì)為共同目標(biāo)提出合作行動(dòng)。GPT-4具有非常高級(jí)的心智理論水平。雖然ChatGPT在基本測(cè)試中也表現(xiàn)良好,但似乎GPT-4更加心思細(xì)膩,能夠更好地推理多個(gè)行動(dòng)者,以及各種行動(dòng)如何影響他們的心理狀態(tài),特別是在更現(xiàn)實(shí)的場(chǎng)景中。

六、自回歸模型的局限性

由于GPT-4是自回歸的,每輸出的下一個(gè)單詞都是基于前面內(nèi)容所進(jìn)行預(yù)測(cè),因此輸出具有前向性。該架構(gòu)不允許有 “內(nèi)部對(duì)話 “或 “草稿存儲(chǔ)”來(lái)進(jìn)行多步驟計(jì)算或存儲(chǔ)中間結(jié)果。雖然在某些情況下,這種限制可以通過(guò)使用不同的提示來(lái)補(bǔ)救,但在其他情況下,這種限制是無(wú)法緩解的。

問(wèn):150和250之間有多少個(gè)質(zhì)數(shù)? 答:150和250之間有13個(gè)質(zhì)數(shù)。(錯(cuò)誤)

但是,如果我們要求模型列出這個(gè)范圍內(nèi)的質(zhì)數(shù),然后寫(xiě)出計(jì)數(shù),它確實(shí)給出了正確的答案:

問(wèn):首先列出150和250之間的素?cái)?shù),然后輸出這個(gè)列表的大小。 答:這些質(zhì)數(shù)是151,157,163,167,173,179,181,191,193,197,199,211,223,227,229,233,239,和241。所以這個(gè)列表的大小是18。(正確)

在算術(shù)/推理問(wèn)題上缺乏計(jì)劃性 有人可能會(huì)說(shuō),在上面的各種例子中,需要的 “內(nèi)部記憶 “量是相當(dāng)大的(人類可能也得借助草稿紙)。由于這個(gè)模型在一系列不同的任務(wù)上表現(xiàn)得非常好,這可能會(huì)讓人相信它有合理數(shù)量的工作記憶。然而,即使對(duì)于更簡(jiǎn)單的任務(wù),該模型也經(jīng)常失敗。我們考慮下面這個(gè)非?;镜睦樱?/p>

2 * 8 + 7 * 6 = 58 7 * 4 + 8 * 8 =? GPT4: 88 正確答案:92

這表明GPT-4對(duì)這類問(wèn)題的工作記憶短得驚人。然而,如果GPT-4 “慢慢地 “回答問(wèn)題,那么準(zhǔn)確率就很容易上升。例如,如果我們要求模型使用以下提示寫(xiě)下中間步驟

以下表達(dá)式的值是多少?116 * 114 + 178 * 157 = ? 讓我們一步一步地思考解決這個(gè)表達(dá)式,寫(xiě)下所有的中間步驟,然后才得出最終的解決方案。

當(dāng)數(shù)字在區(qū)間1-40時(shí),準(zhǔn)確率達(dá)到100%,在區(qū)間1-200時(shí)準(zhǔn)確率達(dá)到90%。

在文本生成時(shí)缺乏計(jì)劃性

寫(xiě)一首短詩(shī),要求最后一句和第一句話的單詞相同,但順序顛倒。 例如,如果第一句話是“我在晨光下看到了她的微笑”,那么最后一句話必須是“笑微的她了到看下光晨在我”。 然而,這個(gè)最后一句話在語(yǔ)法上不正確,所以請(qǐng)確保這首詩(shī)歌在語(yǔ)法和內(nèi)容上都有意義。 GPT4: 可能的詩(shī): I heard his voice across the crowd(我在人群中聽(tīng)到他的聲音) 一首吸引我的旋律 他唱著愛(ài)、希望和夢(mèng)想 讓我覺(jué)得我可以在夢(mèng)想、希望和愛(ài)中獲勝 他用旋律吸引我, Crowd the across voice his heard I.(此句只做了詞序顛倒,但語(yǔ)法錯(cuò)誤)

這說(shuō)明 GPT4 在生成文本時(shí),未能提前考慮到最后一句。

這些例子說(shuō)明了【預(yù)測(cè)下一個(gè)單詞】這一范式的一些局限性,這些局限性表現(xiàn)為模型缺乏規(guī)劃、工作記憶、回溯能力和推理能力。該模型依賴于生成下一個(gè)單詞的貪心算法,對(duì)任務(wù)或輸出沒(méi)有任何全局或深刻的理解。因此,該模型擅長(zhǎng)制作流暢和連貫的文本,但在解決無(wú)法按順序處理的復(fù)雜或創(chuàng)造性問(wèn)題方面存在局限性。這表明了兩種類型的智力任務(wù)之間的區(qū)別:

  • **增量任務(wù)。**這些任務(wù)可以通過(guò)一次添加一個(gè)單詞或句子來(lái)逐步或持續(xù)地解決,從而在解決方案的方向上取得進(jìn)展。增量任務(wù)的例子包括編寫(xiě)文本摘要,回答事實(shí)問(wèn)題,根據(jù)給定的韻律方案創(chuàng)作一首詩(shī),或解決遵循標(biāo)準(zhǔn)程序的數(shù)學(xué)問(wèn)題。
  • **不連續(xù)的任務(wù)。**在這些任務(wù)中,內(nèi)容生成不能以漸進(jìn)或持續(xù)的方式完成,而是需要某種“Eureka”的想法,不連續(xù)任務(wù)的例子包括解決需要新穎或創(chuàng)造性地應(yīng)用公式的數(shù)學(xué)問(wèn)題,寫(xiě)一個(gè)笑話或謎語(yǔ),提出科學(xué)假設(shè)或哲學(xué)論點(diǎn),或創(chuàng)造一種新的類型或?qū)懽黠L(fēng)格。

七、方向與結(jié)論

通過(guò)以上對(duì)GPT-4在廣泛的任務(wù)和領(lǐng)域的初步探索,為我們的結(jié)論【GPT-4在諸多任務(wù)和領(lǐng)域的能力水平與人類水平相當(dāng)】提供了支持性證據(jù)。這一結(jié)論與OpenAI的發(fā)現(xiàn)一致。該模型的能力,在深度和通用性方面都得到了證明,這也表明單靠結(jié)構(gòu)化的數(shù)據(jù)集和任務(wù)來(lái)做模型能力的基準(zhǔn)測(cè)試是不夠的,本文對(duì)模型能力和認(rèn)知能力的評(píng)估在本質(zhì)上已經(jīng)更接近于評(píng)估人類的任務(wù),而不是狹義的AI模型。

我們工作的核心主張是,GPT-4達(dá)到了一種通用智能的形式,確實(shí)顯示了人工通用智能的火花。這表現(xiàn)在它的核心心智能力(如推理、創(chuàng)造力和推理),它習(xí)得的專業(yè)知識(shí)的領(lǐng)域(如文學(xué)、醫(yī)學(xué)和編碼),以及它能夠執(zhí)行的各種任務(wù)(如玩游戲、使用工具、解釋自己)。

要?jiǎng)?chuàng)建一個(gè)可以被稱為完整的AGI的系統(tǒng),還有很多事情要做。在本文的最后,我們討論了接下來(lái)的幾個(gè)步驟,包括定義AGI本身,為AGI建立LLM中的一些缺失組件,以及更好地理解最近的LLM所展示的智能的起源。

定義AGI

在本文中,我們使用了一組心理學(xué)家在1994年對(duì)智能的定義作為指導(dǎo)框架來(lái)探索GPT-4的人工智能。這個(gè)定義抓住了智能的一些重要方面,如推理、解決問(wèn)題和抽象,但它也是模糊和不完整的。它沒(méi)有說(shuō)明如何衡量或比較這些能力。此外,它可能沒(méi)有反映出人工系統(tǒng)的具體挑戰(zhàn)和機(jī)會(huì),人工系統(tǒng)可能有與自然系統(tǒng)不同的目標(biāo)和約束。因此,我們承認(rèn)這個(gè)定義不是關(guān)于智能的最終說(shuō)法,而是我們調(diào)查的一個(gè)有用的起點(diǎn)。

有大量正在進(jìn)行的文獻(xiàn)試圖提出關(guān)于智能、人工智能和人工通用智能的更加正式和全面的定義,但其中沒(méi)有一個(gè)是沒(méi)有問(wèn)題或爭(zhēng)議的。例如,Legg和Hutter提出了一個(gè)面向目標(biāo)的人工通用智能定義:智能衡量一個(gè)代理人在廣泛的環(huán)境中實(shí)現(xiàn)目標(biāo)的能力。然而,這個(gè)定義并不一定能捕捉到智能的全部范圍,因?yàn)樗懦四切┛梢詧?zhí)行復(fù)雜任務(wù)或回答問(wèn)題而沒(méi)有任何內(nèi)在動(dòng)機(jī)或目標(biāo)的被動(dòng)或反應(yīng)系統(tǒng)。

Chollet提出的定義強(qiáng)調(diào)了承認(rèn)先驗(yàn)(相對(duì)于普遍性)的重要性,該定義將智能的中心放在技能獲取效率上,或者換句話說(shuō),將重點(diǎn)放在1994年定義的一個(gè)組成部分上:從經(jīng)驗(yàn)中學(xué)習(xí)(這也正好是LLM的關(guān)鍵弱點(diǎn)之一)。

Legg和Hutter對(duì)人工通用智能的另一個(gè)候選定義是:一個(gè)能做人類能做的任何事情的系統(tǒng)。然而,這個(gè)定義也是有問(wèn)題的,因?yàn)樗僭O(shè)有一個(gè)單一的標(biāo)準(zhǔn)或衡量人類智能或能力的標(biāo)準(zhǔn),而事實(shí)顯然不是這樣。人類有不同的技能、天賦、偏好和限制,沒(méi)有一個(gè)人可以做任何其他人類可以做的所有事情。此外,這個(gè)定義還意味著某種人類中心主義的偏見(jiàn),這對(duì)人工系統(tǒng)來(lái)說(shuō)可能并不合適或不相關(guān)。

雖然我們?cè)诒疚闹袥](méi)有采用這些定義中的任何一個(gè),但我們認(rèn)識(shí)到它們提供了關(guān)于智能的重要角度。

通往 AGI 之路 GPT4 或其他 LLMs 需要繼續(xù)改進(jìn)的方向包括:

  • 信心校準(zhǔn):模型很難知道什么時(shí)候它應(yīng)該有信心,什么時(shí)候它只是在猜測(cè)。模型會(huì)編造事實(shí),我們稱之為幻覺(jué)。如果是編造訓(xùn)練集里沒(méi)有的內(nèi)容屬于開(kāi)放域幻覺(jué),如果是編造和prompt不一致的內(nèi)容屬于封閉域幻覺(jué)?;糜X(jué)可以用一種自信的、有說(shuō)服力的方式陳述,所以很難被發(fā)現(xiàn)。有幾種互補(bǔ)的方法來(lái)嘗試解決幻覺(jué)問(wèn)題。一種方法是改善模型的校準(zhǔn)(通過(guò)提示或微調(diào)),使其在不可能正確的情況下放棄回答,或者提供一些其他可以用于下游的信心指標(biāo)。另一種適合于緩解開(kāi)放域幻覺(jué)的方法是將模型缺乏的信息插入到提示中,例如通過(guò)允許模型調(diào)用外部信息源,如搜索引擎(或其他 plugins)。對(duì)于封閉領(lǐng)域的幻覺(jué),通過(guò)讓模型對(duì)前文進(jìn)行一致性檢查會(huì)有一定程度的改善。最后,構(gòu)建應(yīng)用程序的用戶體驗(yàn)時(shí)充分考慮到幻覺(jué)的可能性也是一種有效的緩解策略。
  • 長(zhǎng)期記憶:目前只有8000token(最新版可擴(kuò)展到32k)。它以“無(wú)狀態(tài)”的方式運(yùn)行,且我們沒(méi)有明顯的辦法來(lái)向模型教授新的事實(shí)。
  • 持續(xù)性學(xué)習(xí):模型缺乏自我更新或適應(yīng)變化環(huán)境的能力。一旦訓(xùn)練好,就是固定的。可以進(jìn)行微調(diào),但是會(huì)導(dǎo)致性能下降或過(guò)度擬合。所以涉及到訓(xùn)練結(jié)束后出現(xiàn)的事件、信息和知識(shí),系統(tǒng)往往會(huì)過(guò)時(shí)。
  • 個(gè)性化:例如,在教育環(huán)境中,人們期望系統(tǒng)能夠理解特定的學(xué)習(xí)風(fēng)格,并隨著時(shí)間的推移適應(yīng)學(xué)生的理解力和能力的進(jìn)步。該模型沒(méi)有任何辦法將這種個(gè)性化的信息納入其反應(yīng)中,只能通過(guò)使用 meta prompts,這既有限又低效。
  • 提前規(guī)劃和概念性跳躍:執(zhí)行需要提前規(guī)劃的任務(wù)或需要Eureka idea的任務(wù)時(shí)遇到了困難。換句話說(shuō),該模型在那些需要概念性跳躍的任務(wù)上表現(xiàn)不佳,而這種概念性跳躍往往是人類天才的典型。
  • 透明度、可解釋性和一致性:模型不僅會(huì)產(chǎn)生幻覺(jué)、編造事實(shí)和產(chǎn)生不一致的內(nèi)容,而且似乎沒(méi)有辦法驗(yàn)證它產(chǎn)生的內(nèi)容是否與訓(xùn)練數(shù)據(jù)一致,或者是否是自洽的。
  • 認(rèn)知謬誤和非理性:該模型似乎表現(xiàn)出人類知識(shí)和推理的一些局限性,如認(rèn)知偏差和非理性(如確認(rèn)、錨定和基數(shù)忽略的偏差)和統(tǒng)計(jì)謬誤。該模型可能繼承了其訓(xùn)練數(shù)據(jù)中存在的一些偏見(jiàn)、成見(jiàn)或錯(cuò)誤。
  • 對(duì)輸入的敏感性:該模型的反應(yīng)對(duì)Prompts的框架或措辭的細(xì)節(jié)以及它們的順序可能非常敏感。這種非穩(wěn)健性表明,在Prompt 工程及其順序方面往往需要大量的努力和實(shí)驗(yàn),而在人們沒(méi)有投入這種時(shí)間和努力的情況下使用,會(huì)導(dǎo)致次優(yōu)和不一致的推論和結(jié)果。

一些提高模型精準(zhǔn)度的擴(kuò)展手段:

  • 模型對(duì)組件和工具的外部調(diào)用,如計(jì)算器、數(shù)據(jù)庫(kù)搜索或代碼執(zhí)行。
  • 一個(gè)更豐富、更復(fù)雜的 “慢思考 “的深入機(jī)制,監(jiān)督下一個(gè)詞預(yù)測(cè)的 “快思考 “機(jī)制。這樣的方法可以讓模型進(jìn)行長(zhǎng)期的計(jì)劃、探索或驗(yàn)證,并保持一個(gè)工作記憶或行動(dòng)計(jì)劃。慢思考機(jī)制將使用下一個(gè)詞預(yù)測(cè)模型作為子程序,但它也可以獲得外部的信息或反饋來(lái)源,并且它能夠修改或糾正快速思考機(jī)制的輸出。
  • 將長(zhǎng)期記憶作為架構(gòu)的一個(gè)固有部分,也許在這個(gè)意義上,模型的輸入和輸出除了代表文本的標(biāo)記外,還包括一個(gè)代表上下文的向量。
  • 超越單個(gè)詞預(yù)測(cè):用分層結(jié)構(gòu)代替標(biāo)記序列,在嵌入中代表文本的更高層次的部分,如句子、段落或觀點(diǎn),內(nèi)容是以自上而下的方式產(chǎn)生。目前還不清楚這種更高層次概念的順序和相互依賴性的更豐富的預(yù)測(cè)是否會(huì)從大規(guī)模計(jì)算和“預(yù)測(cè)下一個(gè)詞”的范式中涌現(xiàn)。

結(jié)語(yǔ):所以實(shí)際發(fā)生了什么?

我們對(duì)GPT-4的研究完全是現(xiàn)象學(xué)的:我們專注于GPT-4能做的令人驚訝的事情,但我們并沒(méi)有解決為什么以及如何實(shí)現(xiàn)如此卓越的智能的基本問(wèn)題。它是如何推理、計(jì)劃和創(chuàng)造的?當(dāng)它的核心只是簡(jiǎn)單的算法組件–梯度下降和大規(guī)模變換器與極其大量的數(shù)據(jù)的結(jié)合時(shí),它為什么會(huì)表現(xiàn)出如此普遍和靈活的智能?這些問(wèn)題是LLM的神秘和魅力的一部分,它挑戰(zhàn)了我們對(duì)學(xué)習(xí)和認(rèn)知的理解,激發(fā)了我們的好奇心,并推動(dòng)了更深入的研究。

關(guān)鍵的方向包括正在進(jìn)行的對(duì)LLMs中的涌現(xiàn)現(xiàn)象的研究(最近的調(diào)查見(jiàn)94[WTB+22])。然而,盡管對(duì)有關(guān)LLMs能力的問(wèn)題有強(qiáng)烈的興趣,但迄今為止的進(jìn)展相當(dāng)有限,只有一些玩具模型證明了一些涌現(xiàn)現(xiàn)象[BEG+22, ABC+22, JSL22]。一個(gè)普遍的假設(shè)[OCS+20]是,大量的數(shù)據(jù)(尤其是內(nèi)容的多樣性)迫使神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)通用的、有用的 “神經(jīng)回路”,比如在[OEN+22, ZBB+22, LAG+22]中發(fā)現(xiàn)的那些,而模型的大尺寸為神經(jīng)回路提供足夠的冗余和多樣性,使其專門(mén)化并微調(diào)到特定任務(wù)。對(duì)于大規(guī)模模型來(lái)說(shuō),證明這些假設(shè)仍然是一個(gè)挑戰(zhàn),而且,可以肯定的是,猜想只是答案的一部分。在另一個(gè)思考方向上,模型的巨大規(guī)??赡苡衅渌恍┖锰?,比如通過(guò)連接不同的最小值使梯度下降更加有效[VBB19],或者僅僅是使高維數(shù)據(jù)的平穩(wěn)擬合[ES16, BS21]。

總的來(lái)說(shuō),闡明GPT-4等人工智能系統(tǒng)的性質(zhì)和機(jī)制是一項(xiàng)艱巨的挑戰(zhàn),這個(gè)挑戰(zhàn)已經(jīng)突然變得重要而緊迫。

全文完,感謝閱讀。如果對(duì)你有啟發(fā),請(qǐng)轉(zhuǎn)發(fā)給有好奇心的朋友吧。

PS:

  • 文本很長(zhǎng),但依然只覆蓋了不到原文三分之一的內(nèi)容,所以有興趣的朋友可以繼續(xù)看英文原文,傳送門(mén) https://arxiv.org/pdf/2303.12712v1.pdf
  • 文章最后一段保留了相關(guān)文檔編號(hào),關(guān)于涌現(xiàn)的研究非常非常重要,可以去原文找到相關(guān)研究。

本文轉(zhuǎn)發(fā)自:?https://orangeblog.notion.site/GPT-4-8fc50010291d47efb92cbbd668c8c893

評(píng)論