一、結(jié)論寫在前面論文的目標(biāo)為:作為理解國際沖突動態(tài)、可靠性的工具,論文展示了基于 LLM 的多智能體 AI 系統(tǒng)原型設(shè)計和分析復(fù)雜人類行為的能力。比較各種戰(zhàn)爭正當(dāng)性設(shè)置,論文的實驗顯示,即使是最小或“無”的觸發(fā)因素也可能演變?yōu)轭愃评鋺?zhàn)的情況,這突出了向戰(zhàn)爭不可避免地發(fā)展的性質(zhì)。這一點在戰(zhàn)爭必然性實驗中得到了進(jìn)一步的支持,通過對國家設(shè)置的反事實改變,這意味著國家政策的偏差對避免走向沖突至關(guān)重要。 這些發(fā)現(xiàn)強調(diào)了在給定一系列情況下沖突的確定性質(zhì),但也指出了戰(zhàn)略性地修改國家政策或關(guān)系作為改變這些看似注定的結(jié)果的一種手段的潛力。論文也認(rèn)識到當(dāng)前框架在全面捕捉國際關(guān)系的復(fù)雜性方面的局限性,這也是未來研究的方向。 圖1:第一次世界大戰(zhàn)模擬設(shè)置演示 1.1 論文限制WarAgent 是第一個模擬歷史事件的基于 LLM 的多智能體系統(tǒng)(MAS)。這種模擬試圖捕捉影響整個歷史外交互動的復(fù)雜因素網(wǎng),但必須指出,論文當(dāng)前的模型沒有涵蓋這些復(fù)雜性的完整范圍。目前,論文在準(zhǔn)確復(fù)制歷史外交的細(xì)微動態(tài)方面面臨許多挑戰(zhàn)。以下幾點概述了一些這些關(guān)鍵限制: (1)一個重要方面是不同國家之間的通信技術(shù)的差異,導(dǎo)致消息傳輸?shù)臅r間滯后。從歷史上看,派遣大使是個費時的過程,持續(xù)時間根據(jù)距離而有很大差異。這一因素在塑造外交關(guān)系方面發(fā)揮了關(guān)鍵作用,因為消息交付的時間可能會影響外交交流的結(jié)果。 (2)此外,間諜活動增加了另一層復(fù)雜性。在歷史背景下,間諜經(jīng)常被部署以攔截和破譯消息,不同國家在這方面取得不同程度的成功和曝光。這一方面影響了國家之間信息的流動和完整性。 (3)另一個關(guān)鍵因素是消息公開程度的不同水平。與我們當(dāng)前模型中的私密和公開消息的二元區(qū)分不同,歷史外交溝通存在一個公開性光譜,受各種戰(zhàn)略和情境因素的影響。 (4)最后,各國動員軍隊的能力存在很大差異。不同國家準(zhǔn)備軍事力量的能力和時間表也不相同。這種差異可能會對戰(zhàn)爭宣言的時機和可行性產(chǎn)生關(guān)鍵影響,從而對國際沖突和關(guān)系的進(jìn)程產(chǎn)生重大影響。我們當(dāng)前的模擬框架可能沒有完全考慮到這些細(xì)微和時間敏感的過程。 1.2 論文研究前景WarAgent 標(biāo)志著將基于 LLM 的 MAS 系統(tǒng)應(yīng)用于模擬和檢查復(fù)雜人類社會行為(特別是在歷史和國際關(guān)系環(huán)境下)的研究開始。這一進(jìn)步揭示了歷史模擬的潛在應(yīng)用遠(yuǎn)遠(yuǎn)超出 WarAgent 系統(tǒng)本身。論文建議幾個未來探索的途徑: 1.2.1 基于回合的vs基于時間的模擬(Round-based vs. Time-based Simulation)目前,論文的框架運作在一個基于回合的系統(tǒng)上,意味著同步模擬而不是異步模擬。在這種格式下,每個國家智能體在每一輪向任何其他國家智能體的交流限制為單向。然而,歷史事件的發(fā)展往往是異步的,不同國家之間的交流和活動頻率各異。 雖然論文的系統(tǒng)允許代理選擇“不采取行動等待”,提供異步交互的初步表示(即某些國家比其他國家更活躍),但這種機制未能捕捉歷史交流模式的復(fù)雜性。例如,在第一次世界大戰(zhàn)爆發(fā)前,奧匈帝國和德意志帝國進(jìn)行了密集的私人交流,然后向塞爾維亞宣戰(zhàn),這種交互細(xì)節(jié)的層次是我們當(dāng)前模型無法充分復(fù)制的。通過開發(fā)更細(xì)致的基于時間的模擬方法來解決這一限制,可以顯著提高我們的歷史模擬的準(zhǔn)確性和深度。 1.2.2 停止標(biāo)準(zhǔn)(Stopping Criteria)歷史模擬本質(zhì)上體現(xiàn)了一個順序的、潛在無止境的過程,反映時間的連續(xù)流動。在論文的研究背景下,論文沒有實現(xiàn)一個預(yù)定義的條件來系統(tǒng)地終止模擬。相反,論文依靠觀察分析來斷定是否會在大約5到10輪內(nèi)發(fā)生某個特定事件,這事實上作為最終點。 盡管如此,建立系統(tǒng)地終止模擬的標(biāo)準(zhǔn)仍然是一個有吸引力的研究問題。一個可行的方法是應(yīng)用“板塊連接性”。這種方法涉及當(dāng)代表不同代理的所有板塊成為連接圖的一部分時結(jié)束模擬,并且這種配置在預(yù)定數(shù)量的回合內(nèi)保持不變。 此外,其他標(biāo)準(zhǔn)可能包括實現(xiàn)某個特定的歷史結(jié)果或代理交互在某些參數(shù)內(nèi)的穩(wěn)定。例如,模擬可以設(shè)計為在預(yù)先建立的和平條約簽署時結(jié)束,或者當(dāng)參與代理之間達(dá)到一定程度的經(jīng)濟(jì)或軍事平衡時結(jié)束。這種標(biāo)準(zhǔn)不僅為模擬提供明確的結(jié)論,而且還可以提供有價值的洞察,了解導(dǎo)致這些結(jié)果的動態(tài)和條件。 探索這些各種停止標(biāo)準(zhǔn)可以更深入地理解復(fù)雜的歷史事件相互作用,并從影響歷史變化的因素的更細(xì)致的角度提供一個更加細(xì)致的視角。這種探索反過來可以增強我們的模擬模型的預(yù)測能力,使更準(zhǔn)確和深入的歷史分析成為可能。 1.2.3 新的研究問題該項目回答了基于LLM的MAS是否可以模擬歷史事件和國際沖突的問題,并提供了相關(guān)的反事實分析。在這一核心調(diào)查之外,許多其他研究查詢從歷史動態(tài)的獨特視角提供獨特的視角。例如:
這些問題可以用基于 LLM 的 MAS 定量地解決,這可以極大地促進(jìn)我們對塑造歷史事件的復(fù)雜因素互動的理解,并提供一個更全面的工具來分析過去和潛在的未來場景。 二、論文的簡單介紹2.1 背景大型語言模型(LLM)的出現(xiàn),我們正站在計算社會科學(xué)研究范式轉(zhuǎn)變的臨界點。論文開發(fā)了一個新穎的基于LLM的多智能體系統(tǒng)(MAS)框架,專門用于歷史事件的模擬。通過創(chuàng)建一個動態(tài)環(huán)境,各國智能體在其中具有歷史人物的特征和決策過程,進(jìn)行沖突或合作,可以探索可能塑造過去國際沖突演變的大量可能性,這些沖突建立了當(dāng)前的全球秩序。 論文以多種方式為探索這些古老的難題提供了途徑,這些難題是人類安全和戰(zhàn)爭的核心。戰(zhàn)爭和和平是歷史硬幣的兩面,塑造了人類敘事千年。沖突和合作之間的互動往往難以預(yù)測,它由各國的各種動機、策略和決策塑造。理解戰(zhàn)爭的機制有潛在可能性開辟持久和平的策略。通過歷史分析研究沖突的傳統(tǒng)方法雖然令人欣慰,但由于其靜態(tài)性質(zhì)和事后諸葛亮的偏見而本質(zhì)上受到限制。 在社會科學(xué)中應(yīng)用模擬具有豐富的歷史,但這些模擬的保真度和范圍已經(jīng)發(fā)生了巨大的變化。早期的嘗試通常受到計算能力和簡單模型的限制。與此形成對比,最新的模擬采用了LLM,可以模擬復(fù)雜的行為和互動,如人類行為的虛擬城鎮(zhèn)模擬、狼人殺游戲模擬、拍賣競技場模擬和復(fù)雜任務(wù)解決模擬。這些方法為使用AI模擬更復(fù)雜的系統(tǒng)奠定了基礎(chǔ),如國際關(guān)系和沖突。 2.2 論文的方案然而,還沒有研究如何將這些高級技術(shù)應(yīng)用于模擬國際外交和戰(zhàn)爭的細(xì)微和多方面的性質(zhì),這就是論文的研究定位自己的地方:論文旨在建立第一個基于LLM的多智能體系統(tǒng)的歷史事件模擬。 論文核心是對傳統(tǒng)歷史沖突理解的關(guān)鍵問題。通過回答以下三個問題,我們的研究利用第一次世界大戰(zhàn)(World War I,WWI)、第二次世界大戰(zhàn)(World War II,WWII)和中國古代的戰(zhàn)國時期(Warring States Period,WSP)的微觀視角來洞察國際沖突的動態(tài)。研究問題包括: ? RQ1,模擬有效性:LLM基礎(chǔ)的多智能體系統(tǒng)模擬可以多有效地復(fù)制戰(zhàn)略計劃和決策過程的歷史演變? ? RQ2,戰(zhàn)爭正當(dāng)性:某些戰(zhàn)爭的觸發(fā)因素是否比其他的更關(guān)鍵,并且這些觸發(fā)因素是否可以通過基于LLM的多智能體系統(tǒng)模擬來識別? ? RQ3,戰(zhàn)爭必然性:歷史的“必然”真的不可避免嗎?我們試圖通過基于LLM的多智能體系統(tǒng)模擬來揭示導(dǎo)致戰(zhàn)爭(或和平)的條件。 首先,論文關(guān)注模擬有效性。模擬對現(xiàn)實世界事件的保真度是其有效性和實用性的基石。在基于LLM的多智能體模擬的背景下,這個研究問題針對模型可信度的核心。通過比較論文的模擬結(jié)果與記錄的歷史事件和趨勢,可以測量模擬的準(zhǔn)確性。只有一個維持有效性的系統(tǒng)才能促進(jìn)全面的分析并解決后續(xù)的研究問題。 戰(zhàn)爭正當(dāng)性,或戰(zhàn)爭的起因,是學(xué)習(xí)國際關(guān)系的永恒難題。通過這個研究問題,論文的目標(biāo)是隔離和分析戰(zhàn)爭的各種觸發(fā)因素,以確定某些觸發(fā)因素在引發(fā)沖突方面是否比其他觸發(fā)因素更具決定性。通過迭代模擬,基于LLM的模型允許我們檢查無數(shù)的場景和變量,提供一個受控環(huán)境來觀察不同戰(zhàn)爭正當(dāng)性的后果。了解不同觸發(fā)因素的相對權(quán)重可以告知政策制定者和歷史學(xué)家,為預(yù)防沖突和管理國際危機提供新的見解。 戰(zhàn)爭必然性這個問題切中了歷史決定論與或然論觀點的要害。通過探索“歷史必然性”,實際上在問某些戰(zhàn)爭是否注定會發(fā)生,或者它們是一系列獨特匯聚的情況的結(jié)果,這些情況本可以避免。論文的模擬為在關(guān)鍵條件和決策過程中進(jìn)行變化的歷史“重播”提供了一個獨特的機會,以查看是否可能實現(xiàn)其他結(jié)果。這可以加深我們對國際關(guān)系中結(jié)構(gòu)和代理之間復(fù)雜相互作用的理解,并為歷史決定論的更廣泛辯論做出貢獻(xiàn)。 圖5:指導(dǎo)提示。(a) 并排指導(dǎo)提示設(shè)計。(b) 法國代理與GPT-4交互的一個示例 圖6:棋盤和記號設(shè)計。(a) 棋盤設(shè)計。(b) 記號設(shè)計(IN 和 WR 在未來工作中討論)。(c) 實驗期間的棋盤和記號方法 圖7:代理交互設(shè)計。(a) WarAgent架構(gòu)。(b) 代理-秘書交互。(c) 代理-代理交互 2.3 論文的貢獻(xiàn)表1:實驗設(shè)置和相應(yīng)研究問題的摘要 表2:在將奧匈帝國法蘭茨·斐迪南大公遇刺事件視為模擬觸發(fā)事件的默認(rèn)設(shè)置下,每個維度的模擬準(zhǔn)確率 這項研究的影響是多方面的,并延伸到多學(xué)科領(lǐng)域: 對于計算機和信息科學(xué)家來說,結(jié)果展示了LLM模擬復(fù)雜歷史沖突和在其中做出明智決定的推理能力。這強調(diào)了人工智能對人類和社會進(jìn)步可以產(chǎn)生的深遠(yuǎn)影響,提供了精密的工具來理解和潛在避免未來的沖突,從而促進(jìn)全球和平與穩(wěn)定。 對歷史學(xué)家來說,該研究提供了一種理解歷史事件的新工具,結(jié)果對現(xiàn)有的敘述提出了挑戰(zhàn),鼓勵重新評估人們對戰(zhàn)爭和沖突起因的理解,為塑造我們當(dāng)下的歷史事件提供了更細(xì)微的理解。 對政策制定者和國際關(guān)系專家來說,從論文的模擬中獲得的洞察為國家或國際沖突預(yù)防和解決提供了新的策略。這可以通過促進(jìn)制定更有效和明智的政策,直接使社會受益。 對學(xué)習(xí)歷史的學(xué)生來說,這些模擬為學(xué)習(xí)歷史提供了一種創(chuàng)新的方法,使學(xué)生和教育工作者能夠探索“假設(shè)”場景,并了解歷史事件中的復(fù)雜因果關(guān)系網(wǎng)。這種互動式的歷史學(xué)習(xí)方法可以促進(jìn)更深入地參與主題,并增強批判性思維技能。 此外,通過展示LLM基礎(chǔ)模擬在理解復(fù)雜國際動態(tài)中的實用性,論文為未來的多學(xué)科領(lǐng)域研究設(shè)置了先例,例如計算歷史和數(shù)字人文。 總之,這項研究是利用基于LLM的多智能體AI系統(tǒng)更好地理解過去復(fù)雜人類行為以及為塑造未來制定更明智方法邁出的第一步。 論文標(biāo)題:War and Peace (WarAgent): Large Language Model-based Multi-Agent Simulation of World Wars 論文鏈接:https://arxiv.org/abs/2311.17227 |