【摘要】當(dāng)前,大模型的發(fā)展速度日益加快,且其發(fā)展的道路和方向已成為人工智能發(fā)展的重要命題。如何讓機(jī)器具有智力,成為人類自身發(fā)展的好伙伴、好幫手,是大模型發(fā)展面臨的新挑戰(zhàn)。我們認(rèn)為,未來大模型將從表述內(nèi)容的“搜索范式”進(jìn)化到闡述論證觀點(diǎn)的“價值范式”,建立自己的價值觀。在這樣的價值范式下,機(jī)器的人性化不斷增強(qiáng),創(chuàng)造力得到進(jìn)一步發(fā)展,從而使幻思的能力成為合乎世界模型的有意義的創(chuàng)造,最終推動大模型步入“創(chuàng)造范式”,使人與機(jī)器的共生、共存、共創(chuàng)成為可能,形成嶄新的社會形態(tài)。為此,我們需要建構(gòu)面向未來的技術(shù)理想,對人工智能的發(fā)展及其推動人類發(fā)展進(jìn)步的前景充滿信心,不畏試錯、大膽創(chuàng)新,走出一條我們自己的大模型道路。
【關(guān)鍵詞】人工智能 大模型 搜索范式 價值范式 創(chuàng)造范式 擴(kuò)展律
【中圖分類號】TP18 【文獻(xiàn)標(biāo)識碼】A
【DOI】10.16619/j.cnki.rmltxsqy.2024.13.002
【作者簡介】郭毅可,香港科技大學(xué)首席副校長、英國皇家工程院院士、歐洲科學(xué)院院士、香港工程科學(xué)院院士,2023年“吳文俊人工智能杰出貢獻(xiàn)獎”獲得者。研究方向為機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘、數(shù)據(jù)科學(xué)工作流程、機(jī)器學(xué)習(xí)算法及醫(yī)學(xué)大數(shù)據(jù)分析系統(tǒng)。主要著作有《人工智能與未來社會發(fā)展》(主編)等。
如果大模型是一個答案,那么什么是問題
說到大模型,一個簡單的理解就是把巨量的信息(如互聯(lián)網(wǎng)上所有的文字)壓縮(即編碼),在這個壓縮的空間里形成一個采樣機(jī)制,它可以根據(jù)需要(如回答一個問題)選擇一些壓縮的信息,把它復(fù)原(即譯碼)以生成新的內(nèi)容(如對問題的回答),也就是說模型的終極目標(biāo)是壓縮輸入空間的信息,形成模型,使其可以重構(gòu)并恢復(fù)原來的輸入空間。對于語言而言,重構(gòu)生成策略是“文字接龍”,即通過前一個詞預(yù)測下一個詞的方法生成句子。這樣的稱為自回歸的預(yù)測基于“注意力”(attention)的方法來計算詞與詞的所有相關(guān)性,并用它來判斷一個詞和后一個詞的生成。這個看似簡單的方法,成就了ChatGPT革命性的突破!
大模型在語言上的成就也擴(kuò)展到了其他的模態(tài),如音樂、視頻都能夠以同樣的方法生成。在圖像方面,擴(kuò)散模型通過對圖像進(jìn)行壓縮編碼來提取抽象圖像的特征,并通過譯碼在壓縮的空間中基于不同特征的組合,形成新的圖像。在生成的過程中,對于圖像元素之間相關(guān)關(guān)系的估計,使得生成的圖像符合邏輯、具有意義。
這一原理并不復(fù)雜,而以這樣簡單的原理去實現(xiàn)一個機(jī)器的語言模型,使機(jī)器可以與人一樣進(jìn)行交流對話,卻具有劃時代的意義。
這種方法之所以能夠成功,緣于今天我們可以有驚人的算力去處理天下所有的數(shù)據(jù)。今天的計算機(jī)可以讀遍世界上所有的文字,把它壓縮成一個萬億參數(shù)的模型,這是一個偉大的成就。而這樣的模型可以從海量的文字里面,總結(jié)出所有詞與詞的關(guān)系,更是一種不可思議的能力。
機(jī)器走到今天,具有了與人相近的語言能力,用專業(yè)的話說就是機(jī)器具有了與人相近的語言模型,這已經(jīng)是不爭的事實。機(jī)器可以如人般回答問題,讓人從回答中分辨不出機(jī)器和人,也就是說今天的計算機(jī)通過了當(dāng)年圖靈為回答“機(jī)器能思維嗎”這個問題而設(shè)計的“圖靈測試”。人工智能進(jìn)入了“后圖靈時代”。
今天我們都在做大模型,有開源的、閉源的,有語言的,還有各種其他模態(tài)的。在大模型的追逐中有一套測試標(biāo)準(zhǔn),如同人的智商測試,大家都在以這樣的測試來衡量模型的水平,追求一個SOTA(即目前的最好結(jié)果)。仿佛人工智能的發(fā)展已經(jīng)找到了一個答案、一個萬能的方法,剩下的工作就是用更多的數(shù)據(jù)、更強(qiáng)的算力把模型做得更大。
強(qiáng)化學(xué)習(xí)的鼻祖薩頓(Richard Sutton)2019年發(fā)表了一篇博文——《苦澀的教訓(xùn)》(The Bitter Lesson),指出在人工智能研究中如能找到一個通用的方法,利用大算力不斷拓展其能力,往往是最有效的研究途徑。這篇博文被廣泛引用,被稱之為人工智能學(xué)者必學(xué)的材料,這個論斷也被稱之為“擴(kuò)展律”(Scaling Law)。從這個論斷出發(fā),大模型的發(fā)展主要是依賴大算力和大數(shù)據(jù),這也是目前大家普遍遵循的一條技術(shù)路線。
然而,我們真的已經(jīng)為人工智能的發(fā)展找到了大模型這樣一個完美的答案了嗎?我們知道,科學(xué)發(fā)展每一個階段、每一個里程碑的完成都不只是給出一個答案,而是提出一系列新的問題,這些新的問題恰恰是科學(xué)繼續(xù)發(fā)展的內(nèi)在推動力。那么,大模型時代,提出的問題又是什么呢?
作為投資者,他們關(guān)心的問題是大模型的價值到底是什么?如何實現(xiàn)它的商業(yè)利益?作為哲學(xué)家,他們關(guān)心的問題是機(jī)器思維和人類思維之間的異同以及由此帶來的與社會發(fā)展的關(guān)系。哲學(xué)家維特根斯坦說過,語言確定了思維的邊界。也就是說今天的機(jī)器有了語言,所以它不僅有了思維的表達(dá),也有了思維的能力,那么,這樣的能力將如何進(jìn)化,其發(fā)展對人類和社會又有多大的沖擊和影響?這是人工智能發(fā)展與治理需要思考的大問題。作為計算機(jī)科學(xué)家,在為技術(shù)不斷進(jìn)步而驚喜的時候,我們也在總結(jié)過去的經(jīng)驗和探索未來的方向。今天大模型給出的并不是一個答案,而是一系列新的問題——讓機(jī)器具有智力,成為人類自身發(fā)展的好伙伴、好幫手是一個漫長的征程。對這些新問題的理解和思考有助于我們規(guī)劃好研究的方向,避免人云亦云、重復(fù)勞動,從而有效地進(jìn)行創(chuàng)新。下面,筆者將從算力、算料(數(shù)據(jù))和算法三要素的角度來談一些看法。
關(guān)于算力
大模型的訓(xùn)練需要巨大的算力。據(jù)稱GPT-3模型訓(xùn)練使用了128臺英偉達(dá)A100服務(wù)器(訓(xùn)練34天),對應(yīng)640P算力;GPT-4模型訓(xùn)練使用了3125臺英偉達(dá)A100服務(wù)器(訓(xùn)練90~100天),對應(yīng)15625P算力。從GPT-3到GPT-4模型,參數(shù)規(guī)模增加約10倍,但用于訓(xùn)練的GPU數(shù)量增加了近24倍,總計算量增加了近70倍??梢韵胂?,擴(kuò)展律對應(yīng)的資源需求量遞增是多么的巨大。實際上,擴(kuò)展律還揭示了一個令人沮喪的事實:當(dāng)我們的資源投入呈線性增長的時候,性能的提升是遠(yuǎn)低于線性增長的。
巨大的算力也意味著巨大的投入。據(jù)估計,運(yùn)營一臺英偉達(dá)A100服務(wù)器,一年的成本約為80萬元。對于一個擁有萬卡的廠商,擁有1250臺服務(wù)器(8卡一臺服務(wù)器),一年需要1250乘以80萬也就是10億元的成本??梢韵胂螅S護(hù)一個強(qiáng)大的算力中心的成本是驚人的,對于成本如此高昂的算力資源,如果不能得到滿負(fù)載的利用,將會造成巨大的浪費(fèi)。
因此,大模型的發(fā)展不能僅僅在擴(kuò)展率的驅(qū)動下,用算力的野蠻增長來推動。算力的確是今天AI時代最根本的基礎(chǔ)設(shè)施,但它不可能是無限的。我們必須研究高效的學(xué)習(xí)方法和策略來聰明地使用有限的計算資源。
混合專家模型。優(yōu)化計算效率的一個有效的方法,是通過對模型結(jié)構(gòu)和推理機(jī)制的改良,使得模型參數(shù)的增長和計算資源需求的增長呈線性而不是倍增關(guān)系,這其中一個重要的進(jìn)展就是通過多個小參數(shù)模型的組合形成一個大參數(shù)量的模型,即“混合專家模型”(Mixture of Experts, MoE)。這一模型將多個不同的學(xué)習(xí)數(shù)據(jù)訓(xùn)練成的子模型相結(jié)合,用一種表決組合的方式形成綜合的生成內(nèi)容。由于這一方案在推理過程中能夠根據(jù)輸入數(shù)據(jù)的不同,動態(tài)地選擇不同的子模型(即“專家”)進(jìn)行計算,使大模型的學(xué)習(xí)和推理“稀疏化”,因而能夠把大模型參數(shù)增長對算力的要求“線性化”,實現(xiàn)更快的響應(yīng)速度。這樣的策略實現(xiàn)了對計算效率的極大改進(jìn),而且實踐證明,以這樣的新方式構(gòu)造的模型系統(tǒng)的性能與同樣規(guī)模的單一模型相比并不遜色。這一結(jié)果其實并不令人驚訝,因為和人腦一樣,基于神經(jīng)元網(wǎng)絡(luò)的模型在思考一個問題的過程中,實際上只有極小的一部分神經(jīng)元參與了工作,所以這樣“稀疏”的學(xué)習(xí)和推理策略應(yīng)當(dāng)是行之有效的。
高質(zhì)量的數(shù)據(jù)。第二種減少對大算力依賴的重要思路,是用高質(zhì)量的數(shù)據(jù)來彌補(bǔ)模型的規(guī)模不足。數(shù)據(jù)是人工智能的基石,數(shù)據(jù)的質(zhì)量關(guān)乎人工智能發(fā)展水平,影響其安全性、可信性。高質(zhì)量的數(shù)據(jù)集可以幫助模型更好地理解和捕捉不同的概念、語義和語法結(jié)構(gòu),使模型在各種任務(wù)和領(lǐng)域中表現(xiàn)出更好的泛化能力,推動大模型的價值躍遷。大模型并不是越大越好,數(shù)據(jù)也不是越多越好,真正好的大模型是參數(shù)大小適中、數(shù)據(jù)質(zhì)量高。實踐充分證明,面對同一個學(xué)習(xí)策略,高質(zhì)量的學(xué)習(xí)數(shù)據(jù)可以大大提高模型的質(zhì)量。相比一個規(guī)模更大但訓(xùn)練數(shù)據(jù)質(zhì)量較低的模型,一個規(guī)模較小但使用高質(zhì)量數(shù)據(jù)訓(xùn)練的模型可能表現(xiàn)出更高的生成質(zhì)量。
持續(xù)學(xué)習(xí)。緩解算力需求的第三種重要方法是持續(xù)學(xué)習(xí),即在不“忘記”從以前的學(xué)習(xí)中獲得的知識的情況下,不斷地用新的數(shù)據(jù)來更新模型,使訓(xùn)練的大模型有更高的生成質(zhì)量。我們知道,人類具有從經(jīng)驗中不斷復(fù)用拓展知識的能力,不僅可以將先前學(xué)到的知識和技能應(yīng)用到新的環(huán)境中,還可以將它們作為以后學(xué)習(xí)的基礎(chǔ)。如果機(jī)器也能有這樣的持續(xù)學(xué)習(xí)機(jī)制,我們就可以避免每次在進(jìn)化一個大模型時,在包含新舊數(shù)據(jù)這一新的更大數(shù)據(jù)集的基礎(chǔ)上對整個模型進(jìn)行重新訓(xùn)練,從而改善大模型訓(xùn)練對算力的需求。但是,持續(xù)學(xué)習(xí)不是一件容易的事情,模型所學(xué)到的知識與規(guī)律存儲在模型參數(shù)中,當(dāng)模型在新數(shù)據(jù)集上學(xué)習(xí)時,網(wǎng)絡(luò)中的參數(shù)會被更新,而舊任務(wù)的知識則會被覆蓋,導(dǎo)致更新后的模型在舊任務(wù)上的表現(xiàn)出現(xiàn)“災(zāi)難性的下降”,這種現(xiàn)象被稱為“災(zāi)難性遺忘”。如何使機(jī)器在持續(xù)學(xué)習(xí)中克服這一問題,是一個很大的研究課題。所以,我們要看到,今天機(jī)器學(xué)習(xí)的機(jī)制還是很初級的,甚至不具備人類擁有的基本認(rèn)知功能,比如“記憶”。在這樣一個功能欠缺的機(jī)制上,通過擴(kuò)展律,用規(guī)模來彌補(bǔ)機(jī)制的缺陷,應(yīng)該不是一個長遠(yuǎn)之計。我相信,對人腦這樣一個經(jīng)過幾百萬年的進(jìn)化而形成的高效學(xué)習(xí)機(jī)制的研究和認(rèn)識,一定會使我們發(fā)展出高效的機(jī)器學(xué)習(xí)機(jī)制,使算力不再成為大模型發(fā)展的瓶頸。
關(guān)于數(shù)據(jù)
擴(kuò)展律的另一個結(jié)論是,通過大量不同的數(shù)據(jù)來訓(xùn)練高容量的大模型,較之于通過巧妙的方法、用精選的小數(shù)據(jù)來微調(diào)一個現(xiàn)成的模型,更能捕捉數(shù)據(jù)的本質(zhì)特征,從而找到數(shù)據(jù)的共性(即泛化能力),提高生成能力。
現(xiàn)在業(yè)界有一個普遍的認(rèn)識,就是目前所有的數(shù)據(jù)已經(jīng)快被用完,我們即將面臨“數(shù)據(jù)危機(jī)”。這個看法有一定的道理,但事實是,被我們用完的數(shù)據(jù)并不是消失了,而是被壓縮成了一個強(qiáng)大的模型。何謂壓縮?壓縮就是找出數(shù)據(jù)中的規(guī)律性、共性,并用更簡潔的方式予以表示,以減少冗余信息。而當(dāng)我們成功地對數(shù)據(jù)進(jìn)行壓縮時,就意味著我們已經(jīng)捕捉到了數(shù)據(jù)的本質(zhì)特征和規(guī)律,所得到的模型就有了優(yōu)秀的泛化和生成能力。假如我們有了一個非常好的語言模型,那么這樣的語言模型同時也構(gòu)成了一個最強(qiáng)大的數(shù)據(jù)生成器,可以生成所有我們想講的和能講的話。如此一來,更有意義的工作就不再是努力尋找新的數(shù)據(jù),而是研究如何從大模型中生成我們需要的數(shù)據(jù),并在這樣的數(shù)據(jù)之上以有限的算力更為有效地構(gòu)造一個又一個精致的、滿足特定需要的模型。
這聽起來仿佛是一個輪回:從數(shù)據(jù)到模型又從模型生成數(shù)據(jù),但這樣的輪回可以實現(xiàn)層次性的上升:新的數(shù)據(jù)和信息的質(zhì)量、語言的結(jié)構(gòu)更為高級,從而使得新的模型在層次上有了質(zhì)的飛躍。比如我們要求新的語言模型可以懂得幽默、富有感情,可以寫出笑話,這不是一個簡單的任務(wù)。美國著名作家、語言學(xué)家勒古恩(Ursula K. Le Guin)指出,詞語是一種事件,具有作用力,能夠改變事物。它們不僅能夠改變說話者和聆聽者,還能在雙方之間傳遞能量,傳遞理解或情感,并對其進(jìn)行放大。然而,當(dāng)詞語被剝離了“人性”,輸入到無感情的機(jī)器中,被用作不具有啟迪功能的信息代價物時,會發(fā)生什么呢?這正是今天的大模型技術(shù)面臨的一個挑戰(zhàn)。
要在機(jī)器生成的語言中注入“人性”,就要求我們在模型中注入能夠用語言表達(dá)的人類文明凝練的精神智慧和文化底蘊(yùn),也就是說我們在訓(xùn)練模型時,對語言數(shù)據(jù)的壓縮不僅要捕捉低階的語義特征,還要捕捉高階的語境、語用特征,這對語言模型的學(xué)習(xí)提出了新的要求。為了把這樣的層次性表達(dá)出來,也許,我們未來的壓縮編碼空間將不再是簡單的向量空間了。
進(jìn)而言之,對新數(shù)據(jù)合成的要求也將不再滿足于簡單地按分布采樣,數(shù)據(jù)的生成不再是越多越好,而是要有選擇性,強(qiáng)調(diào)一定條件下的數(shù)據(jù)生成、有結(jié)構(gòu)的數(shù)據(jù)生成,即數(shù)據(jù)的產(chǎn)生和采集是結(jié)構(gòu)化的,而不是如現(xiàn)在這般——大模型的數(shù)據(jù)采集用一個數(shù)據(jù)元(token)統(tǒng)一組織——進(jìn)行線性采集和順序生成了。
依筆者之見,用于學(xué)習(xí)的數(shù)據(jù)是取之不盡、用之不竭的。數(shù)據(jù)是客觀世界的一種體現(xiàn)和表達(dá),如果把模型看成是機(jī)器通過數(shù)據(jù)對客觀世界進(jìn)行理解,那么數(shù)據(jù)和模型的關(guān)系便符合毛澤東同志在“實踐論”中對辯證唯物主義認(rèn)識論的闡述:“實踐、認(rèn)識、再實踐、再認(rèn)識,這種形式,循環(huán)往復(fù)以至無窮,而實踐和認(rèn)識之每一循環(huán)的內(nèi)容,都比較地進(jìn)到了高一級的程度。這就是辯證唯物論的全部認(rèn)識論,這就是辯證唯物論的知行統(tǒng)一觀”。就大模型而言,從數(shù)據(jù)到模型體現(xiàn)了實踐,而從模型到數(shù)據(jù)反映了認(rèn)識。我們不必?fù)?dān)心數(shù)據(jù)的窮盡,而應(yīng)該期待越來越有人性的大模型的到來。
關(guān)于算法
未來的大模型如何發(fā)展?這是今天每一個人工智能研究者都要認(rèn)真思考的問題。如上文所言,以自回歸為基礎(chǔ)的大模型的研究取得了許多非常振奮人心的成果,存在技術(shù)改進(jìn)的可能性空間和廣闊的開拓潛力,特別是在學(xué)習(xí)效率的提高、思維鏈的增強(qiáng)與合成數(shù)據(jù)的深度、精度和廣度等方面大有可為。此外,把大模型與其他的功能調(diào)用(functional call)的業(yè)務(wù)工作流相結(jié)合,把語言作為工作流的驅(qū)動機(jī)制,可以靈活地組織各種功能,形成一個大商業(yè)語言模型(Large Business Language Model)。這也是大模型算法研究上一個非常有前景的方向。這里我想談一下對生成式人工智能算法的一些根本性問題。
基于自回歸的生成模型的局限性?;谧曰貧w的生成模型的基本思路是線性地依順序重構(gòu)輸入空間,所以,讓模型具有補(bǔ)全一句話、填滿一張圖的能力是有效的學(xué)習(xí)方法,目的都是使模型具有生成力。但是,這樣的模型也有其內(nèi)在缺陷。
從學(xué)習(xí)的角度而言,以重構(gòu)世界為目標(biāo)的學(xué)習(xí)并不等同于可以理解世界。正如你學(xué)會了重新拼裝一架飛機(jī),并不等于你理解飛行的原理,也不一定確保你能夠重新設(shè)計出一架新的飛機(jī)。所以,重構(gòu)只是學(xué)習(xí)的第一步,理解所構(gòu)造的世界才是關(guān)鍵而艱難的下一步。這個挑戰(zhàn)在目前的視頻生成研究中已經(jīng)顯示得很清楚了。我們可以把視頻生成和語言生成等同起來,把視頻看成是圖像的序列語言,基于同樣的自回歸方法讓機(jī)器來重構(gòu),從大量的視頻數(shù)據(jù)中學(xué)會圖像序列的生成。這就要求在一個連續(xù)的時間序列中準(zhǔn)確地生成每一幅圖像上的各種細(xì)節(jié),并在這個時間段中保持每一幅圖像的一致性(如不變的建筑背景、符合運(yùn)動規(guī)律的車流等),這是非常困難的,因為重構(gòu)一個動態(tài)連續(xù)變化的場景的復(fù)雜程度要比重構(gòu)一段靜態(tài)的文字表達(dá)高得多。因此筆者認(rèn)為,用自回歸的方法生成視頻,生成內(nèi)容細(xì)節(jié)有限的動畫是比較現(xiàn)實的,但對于高清的、有真實場景細(xì)節(jié)的視頻生成,它可能不是一條有效的途徑。
從“搜索范式”到“價值范式”。如何把握大模型未來的發(fā)展方向?關(guān)于這個命題有許多討論,例如從技術(shù)、哲學(xué)、認(rèn)知科學(xué)等角度。下面,筆者將從大模型使用模式的角度來談?wù)勥@個問題。
今天,大模型支持人類和機(jī)器的“人問機(jī)答”交流模式,這樣的交流是簡單的,我們可以把它看成是搜索的一個高級版,生成的答案可以視為檢索內(nèi)容的一個總結(jié)。所以,今天大模型的學(xué)習(xí)和推理支持的是“搜索范式”。
事實上,我們使用的大模型搜索范式并不是唯一的方式。毋寧視其為一種初級的生成能力,因為它只是在詞語相關(guān)性的指導(dǎo)下,對學(xué)過的語言進(jìn)行合乎統(tǒng)計規(guī)律的重構(gòu)。這樣的自回歸方法還不具有人類語言中的類比、聯(lián)想、層次推理等各種能力。在未來大模型的研究中,我們要超越自回歸的思想,創(chuàng)造出更高級的語言能力,這將極大地豐富大模型的應(yīng)用方式,同時這也將是大模型算法研究中一個有意義的方向。
從“人問機(jī)答”的搜索范式出發(fā),對大模型的下一個要求就是,不僅能回答問題,而且要有討論和爭辯的能力。在人工智能領(lǐng)域,對于思辯(argumentation)的研究一直是一個重要的領(lǐng)域,如何讓機(jī)器模型具有思辨的能力,可以與人進(jìn)行討論,即不僅能回答問題,還能提出問題,并對人的回答作出判斷、評價和回應(yīng)。這樣的思辨能力的實現(xiàn)要求模型的思維不僅有演繹的能力,而且要有一個內(nèi)在的“世界模型”,從而能夠?qū)?ldquo;回答”進(jìn)行判斷和論證,這將使模型從“搜索范式”進(jìn)化到一個以闡述觀點(diǎn)為目標(biāo)的“價值范式”。這樣的世界模型的建立對于算法來說,要求其不僅具有學(xué)習(xí)和推理的能力,更需要有記憶、行為目標(biāo)的建立,價值的衡量與判斷以及行為控制的能力。在這樣的范式下,學(xué)習(xí)的方式和推理的模式也會發(fā)生重大的改變,將不再可以被歸結(jié)為“預(yù)測下一個有可能的數(shù)據(jù)元”這么簡單的學(xué)習(xí)和生成模式了。實際上,這樣的向“價值范式”的進(jìn)化,也是實現(xiàn)我們今天常講的“具身智能”的基礎(chǔ)。具身智能強(qiáng)調(diào)智能體通過與環(huán)境的交互獲取信息、理解問題、作出決策并實現(xiàn)行動,從而產(chǎn)生智能行為和適應(yīng)性。有了支持“價值范式”的大模型,我們才可以有效地實現(xiàn)對環(huán)境的理解并通過其基于世界模型的價值衡量來作出決策、實現(xiàn)行動。
研究“創(chuàng)造范式”,使機(jī)器具有人類靈性。大模型的發(fā)展是從數(shù)據(jù)學(xué)習(xí)模型、模型生成數(shù)據(jù)的循環(huán)往復(fù)中,不斷從一個層次邁向更高的層次。不管是注入情感,還是融入思辨,每一層的循環(huán)都是在語言模型中添加人性的理解,使我們在語言模型的建立上不斷地逼近人類的語言和思維,讓機(jī)器的語言模式逐漸與人類相一致。早在2013年,本輪人工智能浪潮來臨前夕,美國上映了一部講述在不遠(yuǎn)的未來人與人工智能機(jī)器相愛的科幻愛情電影《她》(Her)。主人公西奧多是一位信件撰寫人,能寫出感人肺腑的信件。他剛結(jié)束與妻子的婚姻,還沒走出痛苦的陰影。一次偶然的機(jī)會讓他接觸到最新的人工智能系統(tǒng)OS1,它的化身薩曼莎擁有迷人的聲線,溫柔體貼而又幽默風(fēng)趣。西奧多與薩曼莎很快發(fā)現(xiàn)他們是如此投緣,而且存在對彼此的需求與欲望,人機(jī)友誼最終發(fā)展為一段奇異愛情。這個科幻片生動地展示了人類和一個有語言能力的機(jī)器之間的關(guān)系,也對后圖靈時代語言模型的發(fā)展作了一個形象的描述:機(jī)器的語言模型會與人無縫交流,會理解我們的語言、感情和語境,其與我們的交流也會越來越有“人性”。賦予機(jī)器模型以人性的光輝,就是研究大模型的終極目標(biāo)。眾所周知,人性最精彩的部分是創(chuàng)造力。因此,我們應(yīng)該研究大模型的“創(chuàng)造范式”,讓機(jī)器也具有人類的靈性。
2022年由AI生成的畫作——《空間歌劇院》(Théâtre D'opéra Spatial)在美國科羅拉多州博覽會的“數(shù)字藝術(shù)”類別美術(shù)比賽中獲得第一名。該畫作的創(chuàng)作者是39歲的美國游戲設(shè)計師杰森·艾倫(Jason Allen),他使用文本生成圖像程序Midjourney,經(jīng)過近千次調(diào)整、耗費(fèi)近三百個小時進(jìn)行修改完善,繪成了這個作品。Midjourney根據(jù)用戶的文字描述生成逼真的圖像,每次創(chuàng)作耗時約一分鐘。在創(chuàng)作者給定一個對歌劇院和天堂的描述之后,機(jī)器憑借自己對天堂的理解生成了一幅作品。在這個作品中,我們看到了機(jī)器與人類對天堂幻想的共同之處,但同時機(jī)器又賦予它獨(dú)特的想象力,畫出了超越習(xí)慣性思維的天堂。對于機(jī)器的這種能力,我們通常稱之為“幻思”(hallucinations)。
在文本生成中,這樣的幻思被認(rèn)為是個嚴(yán)重的問題,是模型要克服的“毛病”,甚至常常被視為“一本正經(jīng)的胡說八道”。之所以對其有這樣的看法,正是出于我們對大模型搜索范式的習(xí)慣性理解和使用。在搜索范式下,內(nèi)容的生成常常是有事實依據(jù)的,與事實相符與否是衡量內(nèi)容質(zhì)量的標(biāo)準(zhǔn),不然就是“胡說八道”;但是如果我們走出傳統(tǒng)的大模型搜索范式的思維,把它看成是一個有創(chuàng)作能力的生成系統(tǒng),那么幻思就是一個非常重要的能力了。以筆者團(tuán)隊正在開發(fā)的一個生成系統(tǒng)為例,我們給系統(tǒng)提供幾幅照片或幾幅圖畫后,機(jī)器可以生動地寫出一篇與提供的圖片相匹配的散文。在這樣的創(chuàng)作中,重要的不是與事實的一致性,而是內(nèi)容與所給出圖片的意境相吻合,換句話說,這樣的吻合度就是我們要求的“一本正經(jīng)”。只要符合邏輯,就不會對其有與事實相符的要求;只要不違背常識、不違背邏輯,就不會對其有“胡說八道”的責(zé)難。如此一來,就有了大模型使用的“創(chuàng)造范式”。對于在創(chuàng)造范式下的大模型而言,重要的是研究各種幻思的形式和性質(zhì),以及衡量各種幻思的創(chuàng)造性、啟發(fā)性和其他特性的標(biāo)準(zhǔn)及評價方法。以筆者團(tuán)隊正在設(shè)計的用大模型來創(chuàng)作童話的工作為例,大模型的幻思是一個非常重要的能力,正是對幻思能力的合理開發(fā),才能夠為童話創(chuàng)造出具有啟迪性和趣味性的內(nèi)容。
對大模型發(fā)展的未來展望
作為總結(jié),我想回顧一下圖靈關(guān)于機(jī)器智能的思考。圖靈在1950年發(fā)表的著名論文《計算機(jī)器與智能》(Computing Machinery and Intelligence)中,提出了機(jī)器能否思維的命題,認(rèn)為只要機(jī)器在對話上和人沒有明顯差別,就是具有智能的,此即后人所稱的“圖靈測試”。今天的大模型已經(jīng)初步具有了這樣的能力,可以實現(xiàn)“人問機(jī)答”。這樣看來,似乎可以說我們有了問題的答案。但是,人的語言能力遠(yuǎn)不只是問答,我們的前路還很長。圖靈也在他的文章中規(guī)劃了一條道路,認(rèn)為可以編制一個“兒童程序”,對其進(jìn)行教育,以使其達(dá)到成人的智力水平。但在筆者看來,鑒于人類教育和機(jī)器學(xué)習(xí)的“兩極性”,這條路似乎要反著走了。
如圖1所示,我們對于機(jī)器的教育和對于人類的教育實踐似乎正好是相反的。對人類而言,我們在幼兒教育階段,不斷地啟發(fā)孩子對新事物的好奇,從而建立起孩子對生活和社會的常識;小學(xué)教育的目標(biāo)主要不是知識積累,而是價值觀培養(yǎng),讓孩子從各方面學(xué)到社會上的對與錯、真與假、善與惡;中學(xué)教育開始建立知識體系的基礎(chǔ);大學(xué)教育才是專門化的知識培養(yǎng)。有了這些,一個人才能在社會實踐中接受社會的再教育,建立自己的知識體系,形成成人智力。而機(jī)器學(xué)習(xí)的過程正好是反過來的。我們一開始就喂給了機(jī)器這個世界的全部數(shù)據(jù),把它壓縮成一個通用的預(yù)訓(xùn)練模型,理論上,它可以講所有符合語言特性的話;第二步,才開始對這樣的一個預(yù)訓(xùn)練模型進(jìn)行微調(diào),學(xué)習(xí)各個領(lǐng)域的知識(微調(diào))和人類的表達(dá)方式(對齊),使它符合我們在各種主題下交流的需要;接下來,我們才發(fā)現(xiàn)要讓機(jī)器有判斷的能力,就必須讓機(jī)器學(xué)習(xí)對與錯的判別,使它產(chǎn)生價值觀;直到最后,我們希望機(jī)器從大量的學(xué)習(xí)中,能夠總結(jié)出一個世界模型,作為自己的常識,并在這樣的基礎(chǔ)上,能夠?qū)@個世界產(chǎn)生創(chuàng)造力。
正是基于這樣的對人機(jī)學(xué)習(xí)兩極性的理解,我們對大模型發(fā)展的未來作了這樣的展望:一個可以生成語言的大模型會從表述內(nèi)容的搜索范式進(jìn)化到闡述論證觀點(diǎn)的價值范式,它可以在對世界的理解下與人交流,這樣的理解也會在交流中不斷進(jìn)化,從而使得機(jī)器學(xué)會建立自己的價值觀。而人工智能治理的一個根本性任務(wù)是努力保證這樣的價值觀符合人類進(jìn)步的要求。在這樣的價值范式下,機(jī)器的人性化會不斷增強(qiáng),創(chuàng)造力會得到進(jìn)一步發(fā)展,從而使其幻思的能力成為合乎世界模型的有意義的創(chuàng)造方式。這樣的創(chuàng)造方式會使人與機(jī)器的共生、共存、共創(chuàng)成為可能,形成一個嶄新的社會形態(tài)。而人工智能治理的另一個根本性的任務(wù)就是為這樣的社會建立新的秩序,使一個對世界有理解、有價值、有判斷的大模型作為人腦的延伸,可以有其行為選擇的正確原則和機(jī)制,這樣我們講的具身智能才會真正到來,在一個人機(jī)二元的社會里為我們服務(wù)。
2024年5月14日,美國OpenAI宣布了全能大模型GPT-4o,它在大模型的問答能力方面,加入了視訊功能,可以感知語言環(huán)境,進(jìn)行實時、自然、滿足語境的語音對話,并且能捕捉情緒、模擬情緒,這是大模型向人性化前進(jìn)的重要一步。當(dāng)前,大模型發(fā)展的速度越來越快,而對其發(fā)展道路和方向的把握尤為重要。我們必須建構(gòu)自己的技術(shù)理想,對人工智能的發(fā)展,及其推動人類發(fā)展進(jìn)步的前景充滿信心,不畏試錯、大膽創(chuàng)新,走出一條我們自己的大模型道路。
參考文獻(xiàn)
A. M. Turing, "Computing Machinery and Intelligence," Mind, 1950, 59.
郭毅可,2020,《人工智能與未來社會發(fā)展》,北京:科學(xué)技術(shù)文獻(xiàn)出版社。
郭毅可,2021,《論人工智能歷史、現(xiàn)狀與未來發(fā)展戰(zhàn)略》,《人民論壇·學(xué)術(shù)前沿》,第23期。
郭毅可,2023,《迎接一個人機(jī)共生的時代》,《智能系統(tǒng)學(xué)報》,第2期。
中央文獻(xiàn)研究室,2004,《毛澤東傳(1893—1949)》,北京:中央文獻(xiàn)出版社,第463頁。
責(zé) 編∕張 貝 美 編∕周群英
Thoughts on and Prospects of the Development of Large Model of Artificial Intelligence
Guo Yike
Abstract: At present, the development of large models is accelerating, and the paths and directions of their development have become significant topics in the advancement of artificial intelligence. How to make a machine to become intelligent and be a good partner and helper of human development is a new challenge facing the development of large model. We propose that future large model will evolve from a "search paradigm" that expresses content to a "value paradigm" that articulates arguments, establishing its own values. Under such a value paradigm, humanization of machine is continuously enhanced, and creativity is further developed, so that the ability of illusion becomes a meaningful creation in line with the world model, and finally promotes large model to enter the "creation paradigm". Furthermore, symbiosis, coexistence and co-creation of people and machines will become possible, forming a new social form. To this end, we need to construct forward-looking technical ideals, have full confidence in the development of artificial intelligence and its prospects for promoting human development and progress, be fearless of trial and error and be bold in innovation, and walk out of a large model development path of our own.
Keywords: artificial intelligence, large model, search paradigm, value paradigm, creation paradigm, rate of spread