超碰人人人人人,亚洲AV午夜福利精品一区二区,亚洲欧美综合区丁香五月1区,日韩欧美亚洲系列

LOGO OA教程 ERP教程 模切知識(shí)交流 PMS教程 CRM教程 開發(fā)文檔 其他文檔  
 
網(wǎng)站管理員

大模型的無(wú)限上下文與數(shù)據(jù)集組合藝術(shù)

freeflydom
2024年1月27日 15:48 本文熱度 1915

來(lái)源 | Latent Space

OneFlow編譯

翻譯|賈川、楊婷、宛子琳

上下文長(zhǎng)度曾是GPT-3的最大限制之一。GPT-3最多只能接收4000個(gè)詞元(3000詞,6頁(yè)),否則就會(huì)報(bào)錯(cuò)。因此,為處理長(zhǎng)文檔和提示(prompt),就需要引入 LangChain 等其他檢索技術(shù)。不過(guò),MosaicML(已被Databricks以約13億美元收購(gòu))在5月初開源的MPT-7B上下文長(zhǎng)度可達(dá)84000個(gè)詞元(63000個(gè)詞,126頁(yè)),大大擴(kuò)展了可處理的文本范圍,隨后,Anthronpic公司開發(fā)的Claude模型的上下文長(zhǎng)度擴(kuò)展到10萬(wàn)個(gè)詞元。

MPT-7B是從頭開始訓(xùn)練的,使用了1萬(wàn)億個(gè)詞元的文本和代碼作為訓(xùn)練數(shù)據(jù)。相比其他類似模型(如Pythia和OpenLLaMA使用了3000億個(gè)詞元,StableLM使用了8000億個(gè)詞元),MPT-7B的訓(xùn)練數(shù)據(jù)規(guī)模更大,其質(zhì)量可與LLaMA-7B相媲美。該模型在MosaicML平臺(tái)上進(jìn)行訓(xùn)練,使用了440個(gè)GPU,訓(xùn)練過(guò)程耗時(shí)9.5天,并且沒有人為干預(yù),成本約為20萬(wàn)美元。與其他開放模型不同,MPT-7B開放了商業(yè)使用許可,并利用FlashAttention和FasterTransformer對(duì)快速訓(xùn)練和推理進(jìn)行了優(yōu)化。

(MPT-7B在零樣本學(xué)術(shù)任務(wù)中的表現(xiàn))

MosaicML還發(fā)布了三個(gè)基于基礎(chǔ)MPT-7B進(jìn)行微調(diào)的MPT-7B-Instruct、MPT-7B-Chat、MPT-7B-StoryWriter-65k+模型。

  • 該模型在dolly_hhrlhf上進(jìn)行了微調(diào)。dolly_hhrlhf數(shù)據(jù)集是在“dolly-5k”數(shù)據(jù)集的基礎(chǔ)上構(gòu)建而成。

  • 該模型在ShareGPT-Vicuna、HC3、Alpaca、Helpful and Harmless以及Evol-Instruct數(shù)據(jù)集上進(jìn)行微調(diào)。

  • 該模型的微調(diào)數(shù)據(jù)集為books3中經(jīng)過(guò)篩選的小說(shuō)子集,上下文長(zhǎng)度為65k。雖然宣傳的大小是65k詞元,但當(dāng)在單個(gè)節(jié)點(diǎn)的 A100-80GB GPU上運(yùn)行時(shí),團(tuán)隊(duì)已能得到了84k詞元的回復(fù)。這背后的關(guān)鍵技術(shù)就是ALiBi?!读瞬黄鸬纳w茨比》原本只有約68k個(gè)詞元,因此團(tuán)隊(duì)利用MPT-7B-StoryWriter-65k+模型為該小說(shuō)創(chuàng)作了新的結(jié)尾。

除模型checkpoint外,該團(tuán)隊(duì)還通過(guò)他們新的MosaicML LLM Foundry開源了用于預(yù)訓(xùn)練、微調(diào)和評(píng)估MPT的完整代碼庫(kù)。以上表格就是利用LLM Foundry中的上下文學(xué)習(xí)評(píng)估框架而創(chuàng)建。

MosaicML首席科學(xué)家Jonathan Frankle和研究科學(xué)家Abhinav Venigalla是MPT-7B的負(fù)責(zé)人,主導(dǎo)了MPT-7B的整個(gè)訓(xùn)練過(guò)程。在Latent Space的最新播客中,主理人Swyx、Decibel Partners合伙人Alessio與他們探討了MPT-7B訓(xùn)練過(guò)程的創(chuàng)新之處,解釋為什么LLM數(shù)據(jù)集組合是重要且神秘的藝術(shù)。此外,某些傳統(tǒng)的多項(xiàng)選擇基準(zhǔn)測(cè)試對(duì)于正在構(gòu)建的這種技術(shù)可能幫助不大,他們也將探討這背后的原因。

(以下內(nèi)容經(jīng)授權(quán)后由OneFlow編譯發(fā)布,轉(zhuǎn)載請(qǐng)聯(lián)系OneFlow獲得授權(quán)。來(lái)源:https://www.latent.space/p/mosaic-mpt-7b#details)

1

MPT-7B模型的構(gòu)建

Swyx:你們當(dāng)時(shí)為什么會(huì)開發(fā)MPT-7B?

Abhinav:MPT-7B項(xiàng)目大概花了6-12個(gè)月時(shí)間。我們從去年夏天開始研究語(yǔ)言模型,并發(fā)布了一篇博客,對(duì)語(yǔ)言模型進(jìn)行了分析,發(fā)現(xiàn)訓(xùn)練成本實(shí)際上可能比人們想象的低得多。也是從那時(shí)起,我們受Meta AI發(fā)布的LLaMA模型和許多其他開源工作的啟發(fā),開始著手創(chuàng)建真正優(yōu)秀的、擁有70億參數(shù)的模型,這就是MPT的由來(lái)。

Alessio:你曾在其中一個(gè)播客中說(shuō):Mosaic沒有構(gòu)建和發(fā)布模型的計(jì)劃。但最終你們還是發(fā)布了模型,是什么讓你們改變了主意?

Jonathan:我認(rèn)為,主要有幾個(gè)因素:我們至今仍然缺乏一個(gè)一流模型。與OpenAI不同,我們的業(yè)務(wù)圍繞客戶創(chuàng)建自己的模型展開,而我們主要為其提供工具,為了確保這些工具的有效性,我們就必須先創(chuàng)建自己的模型。

必須清楚一點(diǎn),如果客戶能做出偉大的事,那么我們也同樣能實(shí)現(xiàn)偉大的成就。Twitter上有很多人向我提出質(zhì)疑,懷疑Mosaic所展示數(shù)字的真實(shí)性,比如Ross Whiteman就曾提出“讓我們看看實(shí)際的成果”,對(duì)此,我想說(shuō)的是,“Ross,你認(rèn)為這些成果如何?”我們?cè)?.5天的時(shí)間里以20萬(wàn)美元的成本研發(fā)了模型,所以你們也可以做到。

Swyx:參考你們?nèi)ツ臧l(fā)布的數(shù)據(jù),最初估計(jì)訓(xùn)練GPT-3的成本不到45萬(wàn)美元,后來(lái)降至10萬(wàn)美元;Stable Diffusion的成本也由16萬(wàn)美元降至不到5萬(wàn)美元。

Jonathan:對(duì)于10萬(wàn)美元這個(gè)數(shù)字我還是很謹(jǐn)慎的。雖然還未實(shí)現(xiàn)這一目標(biāo),但我們會(huì)朝著這個(gè)方向前進(jìn),這也是給Abhi的一大挑戰(zhàn)。

Swyx:MPT-7B模型有三個(gè)變體,其中一個(gè)在上下文長(zhǎng)度方面達(dá)到SOTA,這些模型的訓(xùn)練過(guò)程是怎樣的?

Abhinav:我們的基礎(chǔ)模型是對(duì)LLaMA-7B的再創(chuàng)造,擁有70億參數(shù),訓(xùn)練數(shù)據(jù)達(dá)1萬(wàn)億個(gè)詞元,為微調(diào)模型提供一個(gè)高效、不需要過(guò)多干預(yù)的訓(xùn)練起點(diǎn)。微調(diào)模型也非常有趣,比如MPT-7B-StoryWriter-65k+可用于故事編寫,上下文窗口長(zhǎng)度為65,000,還可以根據(jù)已知內(nèi)容進(jìn)行續(xù)寫。

當(dāng)然,這只是我們想到的方向之一,你可以利用MPT-7B Base模型來(lái)構(gòu)建自定義模型,以適用不同的需求,如長(zhǎng)上下文代碼模型或特定語(yǔ)言模型。所以基于基礎(chǔ)模型構(gòu)建了三個(gè)變體,MPT-7B-Instruct、MPT-7B-Chat和MPT-7B-StoryWriter-65k+,分別用于遵循簡(jiǎn)短指令、聊天對(duì)話和編寫故事。

Alessio:在訓(xùn)練模型時(shí),你們是如何決定要選用多少詞元和參數(shù)的?70億和30億模型參數(shù)似乎是當(dāng)前流行的兩個(gè)神奇數(shù)字。

Abhinav:對(duì)于訓(xùn)練模型來(lái)說(shuō),規(guī)模定律(scaling law)可以告訴你如何最有效地利用訓(xùn)練計(jì)算資源。比如預(yù)算為20萬(wàn)美元,那么依照規(guī)模定律,就能給出一套最有效的訓(xùn)練方案。

其中,我們最常遵循的是Chinchilla定律。而對(duì)于MPT-7B模型及其相關(guān)變體,卻并未嚴(yán)格遵循這些定律,因?yàn)槲覀兿氪_保模型適用于個(gè)人使用并具備良好的推斷性能,所以對(duì)其進(jìn)行了過(guò)度訓(xùn)練,超過(guò)了Chinchilla Point(指以詞元衡量的數(shù)據(jù)級(jí)別)。網(wǎng)上有人將這些模型戲稱為長(zhǎng)蛇狗(Llongboi),因?yàn)槠溆?xùn)練時(shí)間相當(dāng)長(zhǎng),以7B模型為例,Chinchilla Point可能是1400億個(gè)詞元,而我們實(shí)際訓(xùn)練了1萬(wàn)億個(gè)詞元,因此訓(xùn)練時(shí)間幾乎是正常情況下的7倍。

Swyx:Llongboi指的是一種訓(xùn)練方法嗎?

Jonathan:Llongboi只是內(nèi)行的一句玩笑話,指的是所用詞元數(shù)量多于Chinchilla定律所規(guī)定數(shù)量的訓(xùn)練方法??梢钥吹?,Llongboi開頭有兩個(gè)“L”,用于致敬LLaMA。我們的CEO曾在Twitter上將這個(gè)名字公之于眾,將模型稱為“Llongboi”。有時(shí)我真的想拿走他的Twitter密碼,以免提前泄密,不過(guò)現(xiàn)在全世界都已經(jīng)知道這個(gè)名字了。

2

關(guān)于架構(gòu)、ALiBi、上下文

Alessio:Flash Attention和Faster Transformer是你們構(gòu)建模型的兩個(gè)核心要素,它們的優(yōu)勢(shì)是什么?

Abhinav:Flash Attention是Full Attention的更快實(shí)現(xiàn),由斯坦福的Hazy Research實(shí)驗(yàn)室開發(fā)。去年九月,我們將Flash Attention集成到了我們的庫(kù)中,它在訓(xùn)練和推理速度方面起到了很大作用。與其他Hugging Face模型相比,這個(gè)模型十分特別,它可以在一般的Torch Attention和專為GPU設(shè)計(jì)的Flash Attention之間進(jìn)行切換,這讓模型的訓(xùn)練速度提升了2倍左右,推理速度提升了50%-100%。

Swyx:是什么促使你們選擇了ALiBi位置編碼?

Abhinav:我們通過(guò)一種有趣的方式,將ALiBi位置編碼、Flash Attention以及訓(xùn)練穩(wěn)定性相結(jié)合。ALiBi能夠消除模型對(duì)位置嵌入的需求。之前,如果一個(gè)詞元的位置是1,那么你需要添加一個(gè)特定的位置嵌入,并且無(wú)法超過(guò)最大位置(通常為2000)。但是通過(guò)ALiBi,這個(gè)問(wèn)題就被解決了。我們只需要在Attention Map上添加一個(gè)偏置(bias),這就像一個(gè)斜坡,如果在推理時(shí)需要更長(zhǎng)的位置范圍,它會(huì)將這個(gè)斜坡延長(zhǎng)到更長(zhǎng)的位置數(shù)。由于斜坡是連續(xù)的,且可以進(jìn)行解釋,所以這種方法是可行的。

有趣的是,通過(guò)Flash Attention,模型節(jié)省了大量的內(nèi)存并提升了性能,所以我們?cè)谌ツ昃烷_始對(duì)具有非常長(zhǎng)上下文(長(zhǎng)達(dá)65k)的模型進(jìn)行性能測(cè)試,同時(shí),要進(jìn)行穩(wěn)定訓(xùn)練也非常難。后來(lái),我們嘗試將ALiBi整合進(jìn)模型,結(jié)果模型穩(wěn)定性獲得了顯著提升?,F(xiàn)在,我們可以在非常長(zhǎng)的上下文中穩(wěn)定地訓(xùn)練故事寫作模型,并保證高效地使用它們。

Jonathan:上下文長(zhǎng)度在技術(shù)上是無(wú)限的。只要給予足夠的內(nèi)存,對(duì)話可以無(wú)限延續(xù)下去。我們認(rèn)為,模型能夠處理的最長(zhǎng)數(shù)字是84K,這是實(shí)踐中人們能夠輕松處理的最長(zhǎng)上下文長(zhǎng)度。但我們?cè)趯?shí)踐中也嘗試過(guò)超84K的上下文長(zhǎng)度,我們完全可以處理更長(zhǎng)的長(zhǎng)度。

Swyx:比如我們可以給模型輸入小說(shuō)《了不起的蓋茨比》,然后讓模型根據(jù)輸入文本續(xù)寫小說(shuō),最后模型輸出了相當(dāng)精彩的內(nèi)容。

Jonathan:在Mosaic內(nèi)部存在許多非常好的故事結(jié)尾版本。其中一個(gè)版本描述了蓋茨比的葬禮,尼克開始與蓋茨比的鬼魂交談,蓋茨比的父親也出現(xiàn)了,然后他和湯姆出現(xiàn)在了警察局。這個(gè)版本非常看重情節(jié),描述了接下來(lái)會(huì)發(fā)生什么。此外,許多版本的結(jié)尾非常有菲茲杰拉德的風(fēng)格,它們的文字都十分優(yōu)美。因此,我們可以看出模型似乎確實(shí)在處理輸入,并產(chǎn)生了有意義的輸出,這一點(diǎn)十分令人激動(dòng)。我們可以利用這種上下文長(zhǎng)度做很多事。

Alessio:記憶開始成為模型的限制條件之一,那么應(yīng)該如何選擇參數(shù)大小和上下文長(zhǎng)度?

Jonathan:最近,關(guān)于長(zhǎng)上下文的研究引起了大量關(guān)注,并出現(xiàn)了一系列相關(guān)論文。然而,這些論文并不完全準(zhǔn)確,在某種程度上,尤其是注意力機(jī)制方面,它們?cè)诜嵌巫⒁饬C(jī)制(如近似的、分層的注意力)和明確且正確的二次注意力之間做了權(quán)衡或取舍。我很看好近似方法,因此迫不及待地想深入研究這些論文。

通過(guò)撰寫和閱讀論文,我學(xué)到了一個(gè)重要的教訓(xùn),即在親身實(shí)踐前,不要輕信任何數(shù)據(jù)。在Mosaic時(shí),我們?cè)啻卧趯?shí)施中失望過(guò),因?yàn)檫@些論文一開始看起來(lái)很有希望,但實(shí)現(xiàn)后才意識(shí)到,論文對(duì)數(shù)據(jù)做了手腳。因此,我對(duì)數(shù)據(jù)總是持懷疑態(tài)度,在重新實(shí)施并驗(yàn)證之前,不會(huì)輕信任何結(jié)果??偟膩?lái)說(shuō),這種實(shí)踐給予了一定回報(bào),很多時(shí)候,這些理論在實(shí)踐中并不如預(yù)期那樣有效。

3

MPT-7B的特點(diǎn)

Swyx:MPT-7B有什么具體特點(diǎn)?

Abhinav:我會(huì)將其分為兩部分,首先是訓(xùn)練的穩(wěn)定性問(wèn)題。該問(wèn)題又可分為三部分。首先,模型在訓(xùn)練過(guò)程中需要避免損失峰值,這是我們的第一道防線。在我看來(lái),在訓(xùn)練規(guī)模為70億參數(shù)時(shí),損失峰值不是一個(gè)大問(wèn)題。然而,隨著訓(xùn)練時(shí)間延長(zhǎng),避免損失峰值會(huì)變得困難。我們花費(fèi)了很長(zhǎng)時(shí)間來(lái)研究如何調(diào)整初始化方法、優(yōu)化器和架構(gòu)等,以防止損失峰值的出現(xiàn)。即使在我們的訓(xùn)練過(guò)程中,如果仔細(xì)觀察,還是能發(fā)現(xiàn)一些小的間歇性峰值,但這些峰值會(huì)在幾百個(gè)step內(nèi)恢復(fù)正常,這是非常神奇的現(xiàn)象,它能夠幫助我們自然從峰值損失中恢復(fù)過(guò)來(lái)。

確定性(determinism)和智能恢復(fù)策略是我們的第二道防線。如果發(fā)生災(zāi)難性錯(cuò)誤,我們將能夠快速恢復(fù)訓(xùn)練,在故障前的幾個(gè)批次內(nèi)應(yīng)用一些干預(yù)措施。對(duì)于可能出現(xiàn)的問(wèn)題,我們做了多種準(zhǔn)備。但在MPT-7B的訓(xùn)練中,我們完全沒有用到這些備用措施,不得不說(shuō)這是一種幸運(yùn)。

正確的訓(xùn)練基礎(chǔ)設(shè)施是第三道防線。如果我們嘗試在數(shù)百個(gè)GPU上對(duì)模型進(jìn)行訓(xùn)練,這時(shí)常常出現(xiàn)硬件故障問(wèn)題。比如在512個(gè)GPU的大型集群中訓(xùn)練模型,幾乎每隔兩天訓(xùn)練就會(huì)失敗一次,失敗原因可能是網(wǎng)絡(luò)故障等。

一般情況下,人們會(huì)設(shè)立全天候待命團(tuán)隊(duì)來(lái)處理這些故障。當(dāng)出現(xiàn)故障時(shí),團(tuán)隊(duì)會(huì)嘗試檢查集群、移除損壞節(jié)點(diǎn)、重新啟動(dòng)等,這是一項(xiàng)非常繁瑣的任務(wù)。我們?cè)?jīng)花了幾個(gè)月時(shí)間來(lái)手動(dòng)檢查錯(cuò)誤,但現(xiàn)在我們構(gòu)建了一個(gè)平臺(tái),以實(shí)現(xiàn)模型訓(xùn)練過(guò)程中每個(gè)節(jié)點(diǎn)的自動(dòng)化處理。

當(dāng)模型運(yùn)行出現(xiàn)問(wèn)題時(shí),我們的自動(dòng)監(jiān)控系統(tǒng)會(huì)停止作業(yè)、測(cè)試并檢查損壞節(jié)點(diǎn),再重新啟動(dòng)。由于我們的軟件具有確定性和快速恢復(fù)能力,所以模型可以很好地繼續(xù)運(yùn)行。因此,我們?cè)谀P腿罩局杏袝r(shí)可以看到,凌晨2點(diǎn)模型出現(xiàn)故障后,它在幾分鐘內(nèi)就恢復(fù)了正常運(yùn)行,無(wú)需團(tuán)隊(duì)成員人工處理。

Jonathan: 要做到這一點(diǎn)確實(shí)不容易,幾個(gè)月前模型如果出現(xiàn)了硬件故障,那么團(tuán)隊(duì)成員將不得不在凌晨?jī)牲c(diǎn)起床,去檢查節(jié)點(diǎn)故障原因,重新啟動(dòng)作業(yè)。之前即使在70億參數(shù)規(guī)模的訓(xùn)練中,我們也經(jīng)常遇到災(zāi)難性損失峰值,這些問(wèn)題嚴(yán)重影響了模型的訓(xùn)練。

現(xiàn)在,我們已經(jīng)通過(guò)逐步改進(jìn)的方式解決了這些問(wèn)題。正如Abhinav所說(shuō),現(xiàn)在在訓(xùn)練多個(gè)模型的同時(shí),我們可以悠閑地坐在辦公室,無(wú)需擔(dān)心模型出現(xiàn)問(wèn)題,從而導(dǎo)致訓(xùn)練中斷。

4

數(shù)據(jù)選擇和重復(fù)以及LLM的評(píng)估挑戰(zhàn)

Swyx:數(shù)據(jù)選擇是你們的關(guān)注重點(diǎn),可以展開講講嗎?

Jonathan:在我嘗試將所有的GPU用于數(shù)據(jù)處理而非實(shí)際訓(xùn)練模型時(shí),Abhi幾乎要?dú)⒘宋?。我們知道,?xùn)練模型需要大量的數(shù)據(jù),但也存在許多不確定的因素。

一是不同數(shù)據(jù)來(lái)源中哪些種類是重要的,二是重復(fù)的重要性。其中,關(guān)于重復(fù)的問(wèn)題可以進(jìn)一步分解為質(zhì)量和數(shù)量的權(quán)衡。假設(shè)我有世界上最好的100億個(gè)詞元數(shù)據(jù),那么是將其重復(fù)訓(xùn)練一百次更好,還是使用1萬(wàn)億個(gè)低質(zhì)量、最新的詞元數(shù)據(jù)更好?當(dāng)然,或許存在折中點(diǎn),但如何確定高質(zhì)量數(shù)據(jù)也是一個(gè)問(wèn)題,目前還沒有明確答案。如果現(xiàn)在回到學(xué)術(shù)界,我一定會(huì)為此寫一篇論文,因?yàn)槲覍?duì)其中的情況還一無(wú)所知。

Swyx:至今還沒有看到有關(guān)這方面的研究論文。

Jonathan:論文研究的中心問(wèn)題是“應(yīng)該使用什么樣的數(shù)據(jù)集組合”。

在創(chuàng)建模型的過(guò)程中,我回到了曾任教的喬治敦大學(xué)法學(xué)院,與一群法學(xué)院的學(xué)生坐在一起討論。我為他們給出了高質(zhì)量數(shù)據(jù)集、數(shù)據(jù)混合方式,以及擁有的詞元數(shù)量,然后讓他們?yōu)樽约旱哪P蛣?chuàng)建最好的數(shù)據(jù)集。

他們對(duì)LLM一無(wú)所知,只知道輸入數(shù)據(jù)會(huì)影響行為。我告訴他們要?jiǎng)?chuàng)建一個(gè)混合體,以涵蓋所有不同的權(quán)衡考量。起初可能需要大量英文語(yǔ)料,可通過(guò)網(wǎng)絡(luò)獲?。蝗绻胧蛊渥兂啥嗾Z(yǔ)言模型,那么英文語(yǔ)料就會(huì)減少很多;另外,是否將代碼包含在其中。

有人認(rèn)為,代碼可以使模型在邏輯推理方面表現(xiàn)更好,但我從未見過(guò)任何證據(jù)支持這一觀點(diǎn)。雖然我們確實(shí)開發(fā)了出色的代碼模型,但代碼模型能否帶來(lái)更好的思維鏈推理能力,這還需要進(jìn)一步研究。

GPT-3的一個(gè)版本據(jù)說(shuō)是從小說(shuō)《達(dá)·芬奇密碼》開始訓(xùn)練的,由此有人認(rèn)為這可能會(huì)有用,但并沒有證據(jù);也有人認(rèn)為將精力放在那些優(yōu)質(zhì)數(shù)據(jù)源(如維基百科)上會(huì)有助于模型的訓(xùn)練,可也缺乏證據(jù)。

因此,我們對(duì)多種不同數(shù)據(jù)混合進(jìn)行嘗試,發(fā)現(xiàn)總有一些數(shù)據(jù)混合比其他的效果更好或更差。比如“The Pile”是一個(gè)非常穩(wěn)定的數(shù)據(jù)混合,但根據(jù)評(píng)估指標(biāo),還有其他更好的數(shù)據(jù)混合。下面我還會(huì)談到評(píng)估問(wèn)題,該問(wèn)題非常重要。

T5模型最初是在C4數(shù)據(jù)集上訓(xùn)練的,該數(shù)據(jù)集表現(xiàn)得異常好。當(dāng)我在Twitter上發(fā)布相關(guān)信息時(shí),EleutherAI的Stella Beaterman在內(nèi)的其他人也提到了這一點(diǎn)。在T5模型的原始論文中,對(duì)C4數(shù)據(jù)集的預(yù)處理方法看起來(lái)很奇怪,作者從數(shù)據(jù)集中刪除了所有包含“JavaScript”一詞的內(nèi)容,因?yàn)樗麄儾幌氤霈F(xiàn)與JavaScript相關(guān)的警告信息。此外,他們還刪除了包含大括號(hào)的內(nèi)容,因?yàn)樗麄儾幌氆@得包含JavaScript的內(nèi)容。

他們查看了一份不良詞匯列表,并刪除了其中包含不良詞匯的內(nèi)容。然而,該不良詞匯列表中其實(shí)包含了一些實(shí)際上并不是不良的詞匯,比如“gay”。但由于有這樣的清洗過(guò)程,得到的數(shù)據(jù)集似乎變得無(wú)與倫比得好。從這一點(diǎn)來(lái)看,我們對(duì)數(shù)據(jù)一無(wú)所知。

實(shí)際上,我們還用到一個(gè)名叫MC4的數(shù)據(jù)集,MC4和C4進(jìn)行了相同的預(yù)處理,只是增加了更多的網(wǎng)頁(yè)調(diào)用(web call),但與C4相比,MC4的英語(yǔ)部分要差很多,原因不得而知。

為此,我設(shè)定了兩個(gè)標(biāo)準(zhǔn):

首先,英語(yǔ)部分至少要和MC4一樣好。相對(duì)于其他可用數(shù)據(jù)集,MC4的英文部分要好一些。其次,全力推動(dòng)數(shù)據(jù)多樣性,確保數(shù)據(jù)集包含代碼、科學(xué)論文和維基百科等內(nèi)容,因?yàn)槿藗儠?huì)用該模型完成各種不同的任務(wù)。

但我認(rèn)為,最重要的是,模型的好壞取決于評(píng)估指標(biāo)。這一點(diǎn)Abhi可能有不同意見。在要求生成模型執(zhí)行特定任務(wù)時(shí),我們并不知道如何對(duì)其進(jìn)行準(zhǔn)確評(píng)估。在某些情況下,我們不得不承認(rèn),自己的評(píng)估甚至無(wú)法衡量真正關(guān)心的內(nèi)容,因此,我們只能做出合理的選擇。

Swyx:你認(rèn)為MMLU(Massive Multitask Language Understanding)和BIG-bench等評(píng)估方法不夠有說(shuō)服力?

Jonathan:這類方法無(wú)疑都是做兩類任務(wù)。一是多項(xiàng)選擇式任務(wù),其中包含一個(gè)正確答案,這可以讓模型生成A、B、C或D等選項(xiàng),然后通過(guò)計(jì)算每個(gè)可能答案的困惑度(perplexity),選擇模型最可能生成的答案。但我們并不要求模型做多項(xiàng)選擇題,而是進(jìn)行第二種開放式生成任務(wù),比如摘要。使用類似于BLEU和ROUGE的指標(biāo)進(jìn)行比較不夠準(zhǔn)確,有許多出色的論文摘要和開放式生成方法。相比之下,人工是一種較為可靠的評(píng)估標(biāo)準(zhǔn),但人工評(píng)估非常耗時(shí)費(fèi)力,無(wú)法實(shí)時(shí)地與模型進(jìn)行比較,或許在以后有可能實(shí)現(xiàn)。

Abhinav:我們有一支出色的評(píng)估團(tuán)隊(duì),正在幫助我們構(gòu)建新的指標(biāo)。

Jonathan:但很難對(duì)LLM進(jìn)行評(píng)估,我認(rèn)為,這些指標(biāo)中的任何一個(gè)都不能真正體現(xiàn)到我們?cè)趯?shí)踐中對(duì)模型的期望。

5

模型訓(xùn)練的降本增效

Swyx:現(xiàn)在人們需要花費(fèi)三到十天的時(shí)間去訓(xùn)練模型,你們想將時(shí)間縮短至多久?

Abhinav:就原始模型訓(xùn)練效率的提升而言,今年可能是最令人興奮的年份之一。今年軟硬件都出現(xiàn)了相應(yīng)升級(jí),首先是英偉達(dá)的新一代硬件H100s,單單這一項(xiàng)就能提升至少兩倍的性能。其次還有一種新的浮點(diǎn)數(shù)格式FP8,單獨(dú)使用也能達(dá)到同樣的性能提升。

幾年前,我們開始使用32位精度,之后英偉達(dá)推出了16位精度。經(jīng)過(guò)幾年的發(fā)展,因?yàn)橐蟛粩嗵岣?,我們逐漸掌握了16位訓(xùn)練技巧。

今年有了FP8,我們能將吞吐量提升兩倍,也就是將成本降低兩倍。同時(shí),我們已經(jīng)開始在H100上使用FP8對(duì)LLM訓(xùn)練進(jìn)行性能分析,這方面的進(jìn)展十分迅速。因此,僅僅通過(guò)硬件方面的進(jìn)步,我們就能大幅降低成本。

此外,還有許多架構(gòu)應(yīng)用方面的研究。我們正在探索引入一些稀疏性方法,但并非完全無(wú)規(guī)則的稀疏性。是否有一種類似門控機(jī)制或者M(jìn)oE風(fēng)格的架構(gòu)方式可以實(shí)現(xiàn)該目標(biāo)?

我們最初的目標(biāo)是將GPT-J模型的訓(xùn)練費(fèi)用從50萬(wàn)美元降至10萬(wàn)美元 ,如果我們能在年底實(shí)現(xiàn),那將是了不起的成就。

Jonathan:這一想法并非空中樓閣。雖然現(xiàn)在還未達(dá)到該階段,但這一目標(biāo)很可能2023年就能達(dá)成。

有關(guān)訓(xùn)練與推理成本的統(tǒng)計(jì)數(shù)據(jù)十分稀缺。Google的David Patterson發(fā)表了一篇博文,討論了Google在機(jī)器學(xué)習(xí)方面的能源使用情況。經(jīng)過(guò)詳細(xì)分析,在過(guò)去三年中,谷歌將五分之三的資源用于推理,五分之二的資源用于訓(xùn)練。以上是Google的數(shù)據(jù),他們?yōu)閿?shù)十億用戶提供模型。

谷歌可能是全球推理負(fù)載最大的地方。這還只是針對(duì)訓(xùn)練的資源分配,推理占五分之三,訓(xùn)練占五分之二。而硬件可能更為昂貴,硬件的網(wǎng)絡(luò)結(jié)構(gòu)更為復(fù)雜,因此可能會(huì)是訓(xùn)練和推理對(duì)半分的配置。以上是谷歌的分配比例,但對(duì)于其他公司來(lái)說(shuō),訓(xùn)練可能會(huì)占更高權(quán)重。

6

開放對(duì)于AI研究的重要性

Alessio:以前的訓(xùn)練成本十分昂貴,這導(dǎo)致我們無(wú)法進(jìn)行足夠多的實(shí)驗(yàn),所以在選擇數(shù)據(jù)集等方面存在很多問(wèn)題。

Jonathan:研究生期間,我曾對(duì)朋友們嫉妒不已,因?yàn)樗麄冇蠫PU,而我的筆記本電腦上沒有,所以無(wú)法訓(xùn)練任何模型。我曾幻想過(guò)能夠中彩票,這樣我就可以擁有一個(gè)K80 GPU了。

在內(nèi)心深處,我仍然是那個(gè)渴望進(jìn)行科學(xué)研究的學(xué)生。我堅(jiān)信,如果我們想要進(jìn)行科學(xué)研究,并真正理解這些系統(tǒng),了解如何使其良好運(yùn)行,了解其行為、安全性和可靠性等要素,我們就必須降低訓(xùn)練成本,這樣才能真正進(jìn)行科學(xué)研究。以生物試驗(yàn)為例,我們需要進(jìn)行多個(gè)細(xì)胞培養(yǎng)和實(shí)驗(yàn)才能確保藥物有效,在真正了解事物之前,進(jìn)行大量科學(xué)研究必不可少。

Abhinav:MosaicML擁有眾多客戶,他們都在嘗試訓(xùn)練模型,因此公司有動(dòng)力投入大量資源和時(shí)間進(jìn)行科研。只有真正了解應(yīng)該如何訓(xùn)練模型,我們才能幫助更多人。因此,對(duì)于我們來(lái)說(shuō),這種聚合過(guò)程非常重要。

我記得以前谷歌發(fā)表過(guò)一篇論文,針對(duì)批次大小或其他問(wèn)題進(jìn)行了調(diào)查。這篇論文可能耗費(fèi)了數(shù)百萬(wàn)美元,它給整個(gè)社區(qū)帶來(lái)了巨大好處?,F(xiàn)在,我們都能從中學(xué)習(xí),節(jié)省開支,而無(wú)需花費(fèi)大量資金。因此,對(duì)于Mosaic來(lái)說(shuō),通過(guò)試驗(yàn)研究我們?cè)跀?shù)據(jù)、預(yù)訓(xùn)練架構(gòu)等方面具備了深刻的洞察,這也正是客戶選擇我們的原因。

Jonathan:開放對(duì)于AI社區(qū)十分重要。從某種意義上說(shuō),我們沒有封閉的理由,通過(guò)幫助客戶訓(xùn)練模型來(lái)獲得收益,對(duì)我們來(lái)說(shuō)與社區(qū)分享成果沒有損失,畢竟最后我們要通過(guò)定制模型和優(yōu)秀的基礎(chǔ)設(shè)施來(lái)賺取收入,并將這些方面整合在一起,這也是我們將公司命名為MosaicML的原因。

我們一直秉持著放開的態(tài)度,不會(huì)對(duì)取得的成果遮遮掩掩。但現(xiàn)在,我發(fā)現(xiàn)我們已經(jīng)成為了行業(yè)里最大的開源實(shí)驗(yàn)室之一,這是一個(gè)很可悲的事實(shí),因?yàn)榫驼麄€(gè)行業(yè)而言,MosaicML并不算大,我們只有大約15名研究人員,其他許多實(shí)驗(yàn)室都變得封閉,不再公開發(fā)表太多內(nèi)容。但MosaicML將繼續(xù)保持與社區(qū)的交流和分享,盡力成為開放研究的先鋒。盡管我們的規(guī)模和研究數(shù)量無(wú)法與大型實(shí)驗(yàn)室相媲美,但我們將繼續(xù)分享所學(xué)內(nèi)容,努力為社區(qū)創(chuàng)造資源。

當(dāng)我與政策制定者討論AI生態(tài)系統(tǒng)時(shí),總會(huì)提及一個(gè)普遍擔(dān)憂:缺乏開放性將阻礙創(chuàng)新的步伐。多年來(lái),我始終強(qiáng)調(diào)這一問(wèn)題,但最終還是成為了現(xiàn)實(shí)。我提倡開源,但不認(rèn)為每個(gè)人都會(huì)分享自己的成果。我們?cè)欢葘㈤_源視為理所當(dāng)然,但如今這種情況已不復(fù)存在。

我認(rèn)為這將會(huì)拖慢我們的發(fā)展速度。很多時(shí)候,各個(gè)實(shí)驗(yàn)室都存在某種一元文化,而交流溝通是科學(xué)進(jìn)步的重要?jiǎng)恿ΑR虼?,開源不僅在開源社區(qū)和學(xué)術(shù)界中不可或缺,其對(duì)于技術(shù)的進(jìn)步也至關(guān)重要。我們需要一個(gè)充滿活力的開源研究社區(qū)。

7

未來(lái)發(fā)展趨勢(shì)

Swyx:你提到很多東西都不會(huì)長(zhǎng)久存在,很容易被替代,但Transformer會(huì)長(zhǎng)期存在。

Jonathan:Transformer將會(huì)一直存在。卷積神經(jīng)網(wǎng)絡(luò)(CNN)至今仍在使用,視覺 Transformer并未取代其地位。再看循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN),已經(jīng)存在了幾十年,但依然活躍在許多領(lǐng)域。因此,實(shí)現(xiàn)基礎(chǔ)架構(gòu)的重大改進(jìn)十分困難。

Abhinav:我認(rèn)為,你的賭注很大程度上取決于什么被定義為attention(注意力)。如果替換掉QK矩陣乘法這樣的操作,用類似的方法代替,這會(huì)對(duì)結(jié)果產(chǎn)生什么影響呢?

Jonathan:說(shuō)到底,這只是一個(gè)全連接的前饋網(wǎng)絡(luò),帶有簡(jiǎn)單注意力機(jī)制的Transformer。所以情況可能會(huì)有所改變,但我們?nèi)韵馎shish Vaswani(Transformer作者)六年前設(shè)想的那樣繼續(xù)使用Transformer,也許在未來(lái)還將繼續(xù)使用。

Abhinav:我認(rèn)為它將變得類似于MLP(多層感知機(jī)),這是我們目前唯一的選擇,因?yàn)楝F(xiàn)在架構(gòu)已經(jīng)進(jìn)行了大量簡(jiǎn)化,只剩下一些線性層、殘差連接、注意力、點(diǎn)乘操作。

Jonathan:你的假設(shè)是架構(gòu)會(huì)變得更簡(jiǎn)單,但現(xiàn)實(shí)可能相反,架構(gòu)也許會(huì)變得更加復(fù)雜。

Swyx:最近關(guān)于“涌現(xiàn)現(xiàn)象”的爭(zhēng)論,你們對(duì)此有什么看法?

Abhinav:我看過(guò)類似論文,這些可能只是評(píng)估技術(shù)的副產(chǎn)品,如對(duì)數(shù)擴(kuò)展(log scaling)、評(píng)估指標(biāo),以及我們正在進(jìn)行的網(wǎng)格化精度(meshing accuracy),這是一種嚴(yán)格的二元判定,即將結(jié)果分為正確或錯(cuò)誤,而沒有考慮更細(xì)致的連續(xù)性差異。

但是,與Jonathan關(guān)于評(píng)估的觀點(diǎn)類似,我們?cè)谠u(píng)估指標(biāo)的多樣性方面也存在一個(gè)問(wèn)題:當(dāng)我們發(fā)布這些模型時(shí),即便是聊天模型、指令模型,人們也常將其用于各種不同任務(wù)。我們事先幾乎無(wú)法精確地測(cè)量和評(píng)估各個(gè)維度,即使規(guī)模達(dá)到70億,這些模型在一些十分困難的MMLU任務(wù)上仍然表現(xiàn)欠佳。有時(shí)它們的得分幾乎只略高于隨機(jī)機(jī)會(huì),尤其是處理十分困難的任務(wù)。

因此,隨著我們追求更高質(zhì)量的模型,其中一些問(wèn)題可能對(duì)我們更有用。但是,我們?cè)陂_發(fā)MPT-7B時(shí)有點(diǎn)盲目,因?yàn)椴⒉煌耆私饽P偷淖罱K表現(xiàn)。只能根據(jù)一小部分常見的感知推理任務(wù)來(lái)進(jìn)行開發(fā),并且通過(guò)將這些指標(biāo)與其他開源模型進(jìn)行比較來(lái)評(píng)估性能。

Alessio:我認(rèn)為,快速推理和訓(xùn)練是目標(biāo)之一,因此需要在解決最困難的任務(wù)和快速處理其他任務(wù)之間做出權(quán)衡。

Abhinav:是的。即便是70億數(shù)據(jù)規(guī)模,人們也會(huì)嘗試在家中的CPU上運(yùn)行,或者嘗試移植到他們的手機(jī)上,主要是因?yàn)樾∫?guī)模應(yīng)用會(huì)促使人們采用這項(xiàng)技術(shù),而且這是當(dāng)下的一個(gè)重要趨勢(shì)。

Alessio:AI領(lǐng)域有哪些事情的發(fā)展速度要比預(yù)期快得多?

Jonathan:記得GPT-2發(fā)布時(shí),我并沒有覺得很興奮,但當(dāng)時(shí)它已經(jīng)擁有了15億參數(shù)。隨著模型規(guī)模不斷擴(kuò)張,它們的性能不可能持續(xù)提升。然后GPT-3發(fā)布了,我也只是認(rèn)為它在生成文本方面有些許進(jìn)步,但我一次又一次地錯(cuò)了。通過(guò)預(yù)測(cè)下一個(gè)詞元,擴(kuò)大模型規(guī)??梢援a(chǎn)出十分有用的模型。

公平地說(shuō),我們幾乎都對(duì)此持錯(cuò)誤的看法,所以也不能完全歸咎于自己。否則,早在我有機(jī)會(huì)行動(dòng)之前,谷歌、Facebook和微軟研究院就會(huì)推出殺手級(jí)的語(yǔ)言大模型了。我曾進(jìn)行過(guò)一個(gè)非常奇怪的賭注,事實(shí)證明我賭對(duì)了:雖然擴(kuò)散模型在某種程度上十分愚笨,卻能產(chǎn)出令人驚艷的美麗圖像。

Abhinav:關(guān)于規(guī)?;奶鞕C(jī)器人,我認(rèn)為還需要很長(zhǎng)時(shí)間,才會(huì)有數(shù)億人與AI模型進(jìn)行大量對(duì)話。現(xiàn)在有很多初創(chuàng)公司和企業(yè)不僅僅使用ChatGPT,還有角色創(chuàng)建等其他項(xiàng)目,讓人驚嘆的是,有多少人實(shí)際上正在與這些AI模型建立情感聯(lián)系。我不認(rèn)為自己會(huì)在去年的九、十月份預(yù)測(cè)到這一點(diǎn)。過(guò)去六個(gè)月間出現(xiàn)的拐點(diǎn)真的出乎意料。

Swyx:你認(rèn)為它們會(huì)用來(lái)做什么,比如情感支持?

Abhinav:其中一些用于情感支持,或只是作為朋友。孤獨(dú)和心理健康問(wèn)題是一個(gè)熱門難題。如果你去那些社區(qū)的子版塊,人們?cè)谡務(wù)摵退伎甲约旱腁I朋友和這些角色,這就像是科幻小說(shuō)中的情節(jié),我從未預(yù)料到這種情況會(huì)成為現(xiàn)實(shí)。

Swyx:AI領(lǐng)域最有趣的待解決問(wèn)題是什么?

Abhinav:我對(duì)能夠在精確性和類似BF16/FP16這方面能夠走多遠(yuǎn)感興趣。

我好奇這些問(wèn)題能否隨著模型規(guī)模的擴(kuò)大變得更易解決。相關(guān)論文顯示,隨著規(guī)模不斷擴(kuò)大,量化和剪枝可能會(huì)更加容易。所以,作為未來(lái)幾年規(guī)模擴(kuò)大的自然結(jié)果,我們也許會(huì)朝著使用四位或兩位乃至二進(jìn)制權(quán)重的方向發(fā)展。

Jonathan:我想以另一種方式了解我們能實(shí)現(xiàn)多小的模型,能以多高的效率開發(fā)出同等性能的模型。這是我整個(gè)博士期間研究的問(wèn)題,某種意義上說(shuō),這也是我在 Mosaic 研究的問(wèn)題。OpenAI已經(jīng)向我們展示了一種獲得這種令人難以置信能力的途徑,即規(guī)模的擴(kuò)大。但我希望這不是唯一的途徑。我希望有很多其他方法也可以達(dá)到這一目標(biāo),通過(guò)更好的建模方法,更好的算法等。

雖然我不喜歡神經(jīng)科學(xué)的比喻,但從某種意義上說(shuō),我們的存在和大腦證明了至少存在另一種方式來(lái)實(shí)現(xiàn)這種難以置信的能力,而無(wú)需萬(wàn)億級(jí)的參數(shù)甚至天文數(shù)字的資金投入。所以我真的很好奇我們究竟能實(shí)現(xiàn)多小的模型?是否存在另一條路徑來(lái)實(shí)現(xiàn)這些能力,而不必按照現(xiàn)有的方式?如果存在的話,希望能在Mosaic中找到答案。

Swyx:沒錯(cuò),我最感興趣的一個(gè)事實(shí)是,人類大腦只需消耗30瓦的能量,而在這一點(diǎn)上,模型與其相差了多個(gè)數(shù)量級(jí)。

Abhinav:我認(rèn)為,無(wú)法僅憑單獨(dú)的GPU或其他工具來(lái)達(dá)到這一目標(biāo)。

Alessio:目前有很多信息正在傳播,比如人們應(yīng)該如何思考人工智能?他們應(yīng)該關(guān)注什么?

Jonathan:保持平和。有些人過(guò)于看重炒作;有些人則非常悲觀,對(duì)炒作反應(yīng)強(qiáng)烈,或者在某種程度上對(duì)其表示否認(rèn)。應(yīng)保持平和,明白我們已經(jīng)構(gòu)建出了十分有用的工具。

但是我們還未構(gòu)建出通用智能,個(gè)人而言,我們離這個(gè)目標(biāo)還很遙遠(yuǎn)。因此,保持平和并遵循科學(xué)十分重要,這正是Mosaic AI為之努力的。我們?cè)噲D專注于對(duì)人類有用的事物,希望創(chuàng)造一個(gè)更美好的世界。我們會(huì)竭盡全力,但尤為重要的是,我們將遵循科學(xué),以數(shù)據(jù)為指導(dǎo),通過(guò)實(shí)際成果而非空談來(lái)實(shí)現(xiàn)這一目標(biāo)。

Abhinav:我認(rèn)為,在開放社區(qū)中進(jìn)行研究是無(wú)可比擬的。在社區(qū)中,不僅有大量人關(guān)注你的模型,甚至還會(huì)對(duì)模型的問(wèn)題以及改進(jìn)方式提出意見。這種開放性的研究將是未來(lái)的發(fā)展方向,無(wú)論是為了保證我們的模型安全,還是為了深入研究這些AI模型在現(xiàn)實(shí)世界中的影響和后果。


轉(zhuǎn)自:https://blog.csdn.net/OneFlow_Official/article/details/131971520


該文章在 2024/1/27 15:49:46 編輯過(guò)
關(guān)鍵字查詢
相關(guān)文章
正在查詢...
點(diǎn)晴ERP是一款針對(duì)中小制造業(yè)的專業(yè)生產(chǎn)管理軟件系統(tǒng),系統(tǒng)成熟度和易用性得到了國(guó)內(nèi)大量中小企業(yè)的青睞。
點(diǎn)晴PMS碼頭管理系統(tǒng)主要針對(duì)港口碼頭集裝箱與散貨日常運(yùn)作、調(diào)度、堆場(chǎng)、車隊(duì)、財(cái)務(wù)費(fèi)用、相關(guān)報(bào)表等業(yè)務(wù)管理,結(jié)合碼頭的業(yè)務(wù)特點(diǎn),圍繞調(diào)度、堆場(chǎng)作業(yè)而開發(fā)的。集技術(shù)的先進(jìn)性、管理的有效性于一體,是物流碼頭及其他港口類企業(yè)的高效ERP管理信息系統(tǒng)。
點(diǎn)晴WMS倉(cāng)儲(chǔ)管理系統(tǒng)提供了貨物產(chǎn)品管理,銷售管理,采購(gòu)管理,倉(cāng)儲(chǔ)管理,倉(cāng)庫(kù)管理,保質(zhì)期管理,貨位管理,庫(kù)位管理,生產(chǎn)管理,WMS管理系統(tǒng),標(biāo)簽打印,條形碼,二維碼管理,批號(hào)管理軟件。
點(diǎn)晴免費(fèi)OA是一款軟件和通用服務(wù)都免費(fèi),不限功能、不限時(shí)間、不限用戶的免費(fèi)OA協(xié)同辦公管理系統(tǒng)。
Copyright 2010-2025 ClickSun All Rights Reserved