国产av日韩一区二区三区精品,成人性爱视频在线观看,国产,欧美,日韩,一区,www.成色av久久成人,2222eeee成人天堂

首頁(yè) 科技周邊 人工智能 英偉達(dá)玩轉(zhuǎn)剪枝、蒸餾:把Llama 3.1 8B參數(shù)減半,性能同尺寸更強(qiáng)

英偉達(dá)玩轉(zhuǎn)剪枝、蒸餾:把Llama 3.1 8B參數(shù)減半,性能同尺寸更強(qiáng)

Aug 16, 2024 pm 04:42 PM
英偉達(dá) 工程

小模型崛起了。

上個(gè)月,Meta 發(fā)布了 Llama 3.1 系列模型,其中包括 Meta 迄今為止最大的 405B 模型,以及兩個(gè)較小的模型,參數(shù)量分別為 700 億和 80 億。

Llama 3.1 被認(rèn)為是引領(lǐng)了開(kāi)源新時(shí)代。然而,新一代的模型雖然性能強(qiáng)大,但部署時(shí)仍需要大量計(jì)算資源。

因此,業(yè)界出現(xiàn)了另一種趨勢(shì),即開(kāi)發(fā)小型語(yǔ)言模型 (SLM),這種模型在許多語(yǔ)言任務(wù)中表現(xiàn)足夠出色,部署起來(lái)也非常便宜。

最近,英偉達(dá)研究表明,結(jié)構(gòu)化權(quán)重剪枝與知識(shí)蒸餾相結(jié)合,可以從初始較大的模型中逐步獲得較小的語(yǔ)言模型。

英偉達(dá)玩轉(zhuǎn)剪枝、蒸餾:把Llama 3.1 8B參數(shù)減半,性能同尺寸更強(qiáng)

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 圖靈獎(jiǎng)得主、Meta 首席 AI 科學(xué)家 Yann LeCun 也點(diǎn)贊轉(zhuǎn)帖了該研究。

經(jīng)過(guò)剪枝和蒸餾,英偉達(dá)研究團(tuán)隊(duì)將 Llama 3.1 8B 提煉為 Llama-3.1-Minitron 4B 開(kāi)源了出來(lái)。這是英偉達(dá)在 Llama 3.1 開(kāi)源系列中的第一個(gè)作品。

Llama-3.1-Minitron 4B 的表現(xiàn)優(yōu)于類似大小的最先進(jìn)的開(kāi)源模型,包括 Minitron 4B、Phi-2 2.7B、Gemma2 2.6B 和 Qwen2-1.5B。

英偉達(dá)玩轉(zhuǎn)剪枝、蒸餾:把Llama 3.1 8B參數(shù)減半,性能同尺寸更強(qiáng)

這項(xiàng)研究的相關(guān)論文早在上個(gè)月已經(jīng)放出了。

英偉達(dá)玩轉(zhuǎn)剪枝、蒸餾:把Llama 3.1 8B參數(shù)減半,性能同尺寸更強(qiáng)
  • 論文鏈接:https://www.arxiv.org/pdf/2407.14679

  • 論文標(biāo)題:Compact Language Models via Pruning and Knowledge Distillation

剪枝和蒸餾

剪枝使模型變得更小、更精簡(jiǎn),可以通過(guò)刪除層(深度剪枝)或刪除神經(jīng)元和注意力頭以及嵌入通道(寬度剪枝)來(lái)實(shí)現(xiàn)。剪枝通常伴隨著一定程度的再訓(xùn)練,以恢復(fù)準(zhǔn)確率。

模型蒸餾是一種將知識(shí)從大型復(fù)雜模型(通常稱為教師模型)遷移到較小、較簡(jiǎn)單的學(xué)生模型的技術(shù)。目標(biāo)是創(chuàng)建一個(gè)更高效的模型,該模型保留了原始較大模型的大部分預(yù)測(cè)能力,同時(shí)運(yùn)行速度更快且資源消耗更少。

蒸餾方式主要包括兩種:SDG 微調(diào)與經(jīng)典知識(shí)蒸餾,這兩種蒸餾方式互補(bǔ)。本文主要關(guān)注經(jīng)典知識(shí)蒸餾方法。

英偉達(dá)采用將剪枝與經(jīng)典知識(shí)蒸餾相結(jié)合的方式來(lái)構(gòu)造大模型,下圖展示了單個(gè)模型的剪枝和蒸餾過(guò)程(上)以及模型剪枝和蒸餾的鏈條(下)。具體過(guò)程如下:

1. 英偉達(dá)從 15B 模型開(kāi)始,評(píng)估每個(gè)組件(層、神經(jīng)元、頭和嵌入通道)的重要性,然后對(duì)模型進(jìn)行排序和剪枝,使其達(dá)到目標(biāo)大?。?B 模型。

2. 接著使用模型蒸餾進(jìn)行了輕度再訓(xùn)練,原始模型作為老師,剪枝后的模型作為學(xué)生。

3. 訓(xùn)練結(jié)束后,以小模型(8B)為起點(diǎn),剪枝和蒸餾為更小的 4B 模型。

英偉達(dá)玩轉(zhuǎn)剪枝、蒸餾:把Llama 3.1 8B參數(shù)減半,性能同尺寸更強(qiáng)

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 從 15B 模型進(jìn)行剪枝與蒸餾的過(guò)程。

需要注意的點(diǎn)是,在對(duì)模型剪枝之前,需要先了解模型的哪部分是重要的。英偉達(dá)提出了一種基于激活的純重要性評(píng)估策略,該策略可以同時(shí)計(jì)算所有相關(guān)維度(深度、神經(jīng)元、頭和嵌入通道)的信息,使用一個(gè)包含 1024 個(gè)樣本的小型校準(zhǔn)數(shù)據(jù)集,并且只需要前向傳播。這種方法相比依賴梯度信息并需要反向傳播的策略更加簡(jiǎn)單且具有成本效益。?

在剪枝過(guò)程中,你可以針對(duì)給定軸或軸組合在剪枝和重要性估計(jì)之間進(jìn)行迭代交替。實(shí)證研究顯示,使用單次重要性估計(jì)就足夠了,迭代估計(jì)不會(huì)帶來(lái)額外的好處。

利用經(jīng)典知識(shí)蒸餾進(jìn)行重新訓(xùn)練

下圖 2 展示了蒸餾過(guò)程,其中 N 層學(xué)生模型(剪枝后的模型)是從 M 層教師模型中(原始未剪枝模型)蒸餾而來(lái)。學(xué)生模型通過(guò)最小化嵌入輸出損失、logit 損失以及映射到學(xué)生塊 S 和教師塊 T 的 Transformer 編碼器特定損失組合來(lái)學(xué)習(xí)。

英偉達(dá)玩轉(zhuǎn)剪枝、蒸餾:把Llama 3.1 8B參數(shù)減半,性能同尺寸更強(qiáng)

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?圖 2:蒸餾訓(xùn)練損失。

剪枝和蒸餾最佳實(shí)踐

英偉達(dá)基于緊湊語(yǔ)言模型中剪枝和知識(shí)蒸餾的廣泛消融研究,將自己的學(xué)習(xí)成果總結(jié)為以下幾種結(jié)構(gòu)化壓縮最佳實(shí)踐。

一是調(diào)整大小。

  • 要訓(xùn)練一組 LLM,首先訓(xùn)練最大的一個(gè),然后迭代地剪枝和蒸餾以獲得較小的 LLM。

  • 如果使用多階段訓(xùn)練策略來(lái)訓(xùn)練最大的模型,最好剪枝并對(duì)訓(xùn)練最后階段獲得的模型進(jìn)行重新訓(xùn)練。

  • 對(duì)最接近目標(biāo)大小的可用源模型進(jìn)行剪枝。

二是剪枝。

  • 優(yōu)先考慮寬度剪枝而不是深度剪枝,這對(duì)于 15B 參數(shù)規(guī)模以下的模型效果很好。

  • 使用單樣本(single-shot)重要性估計(jì),因?yàn)榈匾怨烙?jì)沒(méi)有任何好處。

三是重新訓(xùn)練。

  • 僅使用蒸餾損失進(jìn)行重新訓(xùn)練,而不是常規(guī)訓(xùn)練。

  • 當(dāng)深度明顯減少時(shí),使用 logit、中間狀態(tài)和嵌入蒸餾。

  • 當(dāng)深度沒(méi)有明顯減少時(shí),使用 logit-only 蒸餾。

Llama-3.1-Minitron:將最佳實(shí)踐付諸應(yīng)用

Meta 最近推出了功能強(qiáng)大的 Llama 3.1 開(kāi)源模型系列,在許多基準(zhǔn)測(cè)試中可與閉源模型相媲美。Llama 3.1 的參數(shù)范圍從巨大的 405B 到 70B、8B。

憑借 Nemotron 蒸餾的經(jīng)驗(yàn),英偉達(dá)著手將 Llama 3.1 8B 模型蒸餾為更小、更高效的 4B 模型,采取以下措施:

  • 教師微調(diào)

  • Depth-only 剪枝

  • Width-only 剪枝

  • 準(zhǔn)確率基準(zhǔn)

  • 性能基準(zhǔn)

教師微調(diào)

為了糾正模型訓(xùn)練所基于的原始數(shù)據(jù)集的分布偏差,英偉達(dá)首先在他們的數(shù)據(jù)集上(94B token)對(duì)未剪枝的 8B 模型進(jìn)行了微調(diào)。實(shí)驗(yàn)表明,如果不糾正分布偏差,教師模型在蒸餾時(shí)會(huì)為數(shù)據(jù)集提供次優(yōu)指導(dǎo)。

Depth-only 剪枝

為了從 8B 降到 4B,英偉達(dá)剪枝了 16 層(50%)。他們首先通過(guò)從模型中刪除每個(gè)層或連續(xù)子層組來(lái)評(píng)估它們的重要性,并觀察下游任務(wù)中 LM 損失的增加或準(zhǔn)確率的降低。

下圖 5 顯示了刪除 1、2、8 或 16 層后驗(yàn)證集上的 LM 損失值。例如,第 16 層的紅色圖表示如果刪除前 16 層,則出現(xiàn) LM 損失。第 17 層表示如果保留第一層并刪除第 2 至第 17 層,也出現(xiàn) LM 損失。英偉達(dá)觀察到:開(kāi)始和結(jié)束的層是最重要的。

英偉達(dá)玩轉(zhuǎn)剪枝、蒸餾:把Llama 3.1 8B參數(shù)減半,性能同尺寸更強(qiáng)

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?圖 5:depth-only 剪枝中層的重要性。

然而,英偉達(dá)觀察到,這種 LM 損失不一定與下游性能直接相關(guān)。

下圖 6 顯示了每個(gè)剪枝模型的 Winogrande 準(zhǔn)確率,它表明最好刪除第 16 到第 31 層,其中第 31 層是倒數(shù)第二層,剪枝模型的 5-shot 準(zhǔn)確率明顯高于隨機(jī)準(zhǔn)確率 (0.5)。英偉達(dá)采納了這一見(jiàn)解,刪除了第 16 到第 31 層。

英偉達(dá)玩轉(zhuǎn)剪枝、蒸餾:把Llama 3.1 8B參數(shù)減半,性能同尺寸更強(qiáng)

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?圖 6:當(dāng)刪除 16 層時(shí),在 Winogrande 任務(wù)上的準(zhǔn)確率。

Width-only 剪枝

英偉達(dá)沿寬度軸剪枝了嵌入(隱藏)和 MLP 中間維,以壓縮 Llama 3.1 8B。具體來(lái)說(shuō),他們使用前面描述的基于激活的策略來(lái)計(jì)算每個(gè)注意頭、嵌入通道和 MLP 隱藏維度的重要性分?jǐn)?shù)。

在重要性估計(jì)之后,英偉達(dá)選擇

  • 將 MLP 中間維從 14336 剪枝到 9216。

  • 將隱藏大小從 4096 剪枝到 3072。

  • 重新訓(xùn)練注意頭數(shù)量和層數(shù)。

值得一提的是,在單樣本剪枝之后,寬度剪枝的 LM 損失高于深度剪枝。然而,經(jīng)過(guò)短暫的重新訓(xùn)練后,趨勢(shì)發(fā)生了逆轉(zhuǎn)。

準(zhǔn)確率基準(zhǔn)

英偉達(dá)使用以下參數(shù)對(duì)模型進(jìn)行蒸餾

  • 峰值學(xué)習(xí)率 = 1e-4

  • 最小學(xué)習(xí)率 = 1e-5

  • 40 步線性預(yù)熱

  • 余弦衰減計(jì)劃

  • 全局批量大小 = 1152

下表 1 顯示了 Llama-3.1-Minitron 4B 模型變體(寬度剪枝和深度剪枝)與原始 Llama 3.1 8B 模型、其他類似大小的模型在跨多個(gè)領(lǐng)域的基準(zhǔn)測(cè)試中的性能比較。總體而言,英偉達(dá)再次證實(shí)了寬度剪枝策略相較于遵循最佳實(shí)踐的深度剪枝的有效性。

英偉達(dá)玩轉(zhuǎn)剪枝、蒸餾:把Llama 3.1 8B參數(shù)減半,性能同尺寸更強(qiáng)

? ? ? ? ? ? ? ? ? ? ? ? ? ? ?表 1:Minitron 4B base 模型相較于類似規(guī)模 base 模型的準(zhǔn)確率比較。

為了驗(yàn)證蒸餾后的模型是否可以成為強(qiáng)大的指令模型,英偉達(dá)使用 NeMo-Aligner 對(duì) Llama-3.1-Minitron 4B 模型進(jìn)行了微調(diào)。

他們使用了 Nemotron-4 340B 的訓(xùn)練數(shù)據(jù),在 IFEval、MT-Bench、ChatRAG-Bench 和 Berkeley Function Calling Leaderboard (BFCL) 上進(jìn)行了評(píng)估,以測(cè)試指令遵循、角色扮演、RAG 和函數(shù)調(diào)用功能。最后確認(rèn) Llama-3.1-Minitron 4B 模型可以成為可靠的指令模型,其表現(xiàn)優(yōu)于其他基線 SLM。

英偉達(dá)玩轉(zhuǎn)剪枝、蒸餾:把Llama 3.1 8B參數(shù)減半,性能同尺寸更強(qiáng)

? ? ? ? ? ? ? ? ? ? ? ? ? ? ?表 2:對(duì)齊 Minitron 4B base 模型與類似規(guī)模的對(duì)齊模型的準(zhǔn)確率比較。

性能基準(zhǔn)

英偉達(dá)利用 NVIDIA TensorRT-LLM(一種用于優(yōu)化 LLM 推理的開(kāi)源工具包)優(yōu)化了 Llama 3.1 8B 和 Llama-3.1-Minitron 4B 模型。

下兩張圖顯示了不同模型在不同用例下以 FP8 和 FP16 精度每秒的吞吐量請(qǐng)求,表示為 8B 模型的 batch size 為 32 的輸入序列長(zhǎng)度 / 輸出序列長(zhǎng)度 (ISL/OSL) 組合以及 4B 模型的 batch size 為 64 的輸入序列長(zhǎng)度 / 輸出序列長(zhǎng)度 (ISL/OSL) 組合,這要?dú)w功于在一塊英偉達(dá) H100 80GB GPU 上,較小的權(quán)重允許較大的 batch size。

Llama-3.1-Minitron-4B-Depth-Base 變體是最快的,平均吞吐量約為 Llama 3.1 8B 的 2.7 倍,而 Llama-3.1-Minitron-4B-Width-Base 變體的平均吞吐量約為 Llama 3.1 8B 的 1.8 倍。與 BF16 相比,在 FP8 中部署還可使這三種型號(hào)的性能提高約 1.3 倍。

英偉達(dá)玩轉(zhuǎn)剪枝、蒸餾:把Llama 3.1 8B參數(shù)減半,性能同尺寸更強(qiáng)
英偉達(dá)玩轉(zhuǎn)剪枝、蒸餾:把Llama 3.1 8B參數(shù)減半,性能同尺寸更強(qiáng)

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 圖 8:組合:Llama 3.1 8B 為 BS=32,Llama-3.1-Minitron 4B 型號(hào)為 BS=64。1x H100 80GB GPU。

結(jié)論

剪枝和經(jīng)典知識(shí)提煉是一種非常經(jīng)濟(jì)高效的方法,可以逐步獲得更小尺寸的 LLM,與在所有領(lǐng)域從頭開(kāi)始訓(xùn)練相比,可實(shí)現(xiàn)更高的準(zhǔn)確性。與合成數(shù)據(jù)式微調(diào)或從頭開(kāi)始預(yù)訓(xùn)練相比,這是一種更有效且數(shù)據(jù)效率更高的方法。

Llama-3.1-Minitron 4B 是英偉達(dá)首次嘗試使用最先進(jìn)的開(kāi)源 Llama 3.1 系列完成的探索。要在 NVIDIA NeMo 中使用 Llama-3.1 的 SDG 微調(diào),可參閱 GitHub 上的 /sdg-law-title-generation 部分。

有關(guān)更多信息,請(qǐng)參閱以下資源:

  • https://arxiv.org/abs/2407.14679

  • https://github.com/NVlabs/Minitron

  • https://huggingface.co/nvidia/Llama-3.1-Minitron-4B-Width-Base

  • https://huggingface.co/nvidia/Llama-3.1-Minitron-4B-Depth-Base

參考鏈接:

https://developer.nvidia.com/blog/how-to-prune-and-distill-llama-3-1-8b-to-an-nvidia-llama-3-1-minitron-4b-model/

以上是英偉達(dá)玩轉(zhuǎn)剪枝、蒸餾:把Llama 3.1 8B參數(shù)減半,性能同尺寸更強(qiáng)的詳細(xì)內(nèi)容。更多信息請(qǐng)關(guān)注PHP中文網(wǎng)其他相關(guān)文章!

本站聲明
本文內(nèi)容由網(wǎng)友自發(fā)貢獻(xiàn),版權(quán)歸原作者所有,本站不承擔(dān)相應(yīng)法律責(zé)任。如您發(fā)現(xiàn)有涉嫌抄襲侵權(quán)的內(nèi)容,請(qǐng)聯(lián)系admin@php.cn

熱AI工具

Undress AI Tool

Undress AI Tool

免費(fèi)脫衣服圖片

Undresser.AI Undress

Undresser.AI Undress

人工智能驅(qū)動(dòng)的應(yīng)用程序,用于創(chuàng)建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用于從照片中去除衣服的在線人工智能工具。

Clothoff.io

Clothoff.io

AI脫衣機(jī)

Video Face Swap

Video Face Swap

使用我們完全免費(fèi)的人工智能換臉工具輕松在任何視頻中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費(fèi)的代碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

功能強(qiáng)大的PHP集成開(kāi)發(fā)環(huán)境

Dreamweaver CS6

Dreamweaver CS6

視覺(jué)化網(wǎng)頁(yè)開(kāi)發(fā)工具

SublimeText3 Mac版

SublimeText3 Mac版

神級(jí)代碼編輯軟件(SublimeText3)

熱門(mén)話題

Laravel 教程
1601
29
PHP教程
1502
276
arXiv論文可以發(fā)「彈幕」了,斯坦福alphaXiv討論平臺(tái)上線,LeCun點(diǎn)贊 arXiv論文可以發(fā)「彈幕」了,斯坦福alphaXiv討論平臺(tái)上線,LeCun點(diǎn)贊 Aug 01, 2024 pm 05:18 PM

干杯!當(dāng)論文討論細(xì)致到詞句,是什么體驗(yàn)?最近,斯坦福大學(xué)的學(xué)生針對(duì)arXiv論文創(chuàng)建了一個(gè)開(kāi)放討論論壇——alphaXiv,可以直接在任何arXiv論文之上發(fā)布問(wèn)題和評(píng)論。網(wǎng)站鏈接:https://alphaxiv.org/其實(shí)不需要專門(mén)訪問(wèn)這個(gè)網(wǎng)站,只需將任何URL中的arXiv更改為alphaXiv就可以直接在alphaXiv論壇上打開(kāi)相應(yīng)論文:可以精準(zhǔn)定位到論文中的段落、句子:右側(cè)討論區(qū),用戶可以發(fā)表問(wèn)題詢問(wèn)作者論文思路、細(xì)節(jié),例如:也可以針對(duì)論文內(nèi)容發(fā)表評(píng)論,例如:「給出至

英偉達(dá)對(duì)話模型ChatQA進(jìn)化到2.0版本,上下文長(zhǎng)度提到128K 英偉達(dá)對(duì)話模型ChatQA進(jìn)化到2.0版本,上下文長(zhǎng)度提到128K Jul 26, 2024 am 08:40 AM

開(kāi)放LLM社區(qū)正是百花齊放、競(jìng)相爭(zhēng)鳴的時(shí)代,你能看到Llama-3-70B-Instruct、QWen2-72B-Instruct、Nemotron-4-340B-Instruct、Mixtral-8x22BInstruct-v0.1等許多表現(xiàn)優(yōu)良的模型。但是,相比于以GPT-4-Turbo為代表的專有大模型,開(kāi)放模型在很多領(lǐng)域依然還有明顯差距。在通用模型之外,也有一些專精關(guān)鍵領(lǐng)域的開(kāi)放模型已被開(kāi)發(fā)出來(lái),比如用于編程和數(shù)學(xué)的DeepSeek-Coder-V2、用于視覺(jué)-語(yǔ)言任務(wù)的InternVL

ControlNet作者又出爆款!一張圖生成繪畫(huà)全過(guò)程,兩天狂攬1.4k Star ControlNet作者又出爆款!一張圖生成繪畫(huà)全過(guò)程,兩天狂攬1.4k Star Jul 17, 2024 am 01:56 AM

同樣是圖生視頻,PaintsUndo走出了不一樣的路線。ControlNet作者LvminZhang又開(kāi)始整活了!這次瞄準(zhǔn)繪畫(huà)領(lǐng)域。新項(xiàng)目PaintsUndo剛上線不久,就收獲1.4kstar(還在瘋狂漲)。項(xiàng)目地址:https://github.com/lllyasviel/Paints-UNDO通過(guò)該項(xiàng)目,用戶輸入一張靜態(tài)圖像,PaintsUndo就能自動(dòng)幫你生成整個(gè)繪畫(huà)的全過(guò)程視頻,從線稿到成品都有跡可循。繪制過(guò)程,線條變化多端甚是神奇,最終視頻結(jié)果和原圖像非常相似:我們?cè)賮?lái)看一個(gè)完整的繪

黎曼猜想顯著突破!陶哲軒強(qiáng)推MIT、牛津新論文,37歲菲爾茲獎(jiǎng)得主參與 黎曼猜想顯著突破!陶哲軒強(qiáng)推MIT、牛津新論文,37歲菲爾茲獎(jiǎng)得主參與 Aug 05, 2024 pm 03:32 PM

最近,被稱為千禧年七大難題之一的黎曼猜想迎來(lái)了新突破。黎曼猜想是數(shù)學(xué)中一個(gè)非常重要的未解決問(wèn)題,與素?cái)?shù)分布的精確性質(zhì)有關(guān)(素?cái)?shù)是那些只能被1和自身整除的數(shù)字,它們?cè)跀?shù)論中扮演著基礎(chǔ)性的角色)。在當(dāng)今的數(shù)學(xué)文獻(xiàn)中,已有超過(guò)一千條數(shù)學(xué)命題以黎曼猜想(或其推廣形式)的成立為前提。也就是說(shuō),黎曼猜想及其推廣形式一旦被證明,這一千多個(gè)命題將被確立為定理,對(duì)數(shù)學(xué)領(lǐng)域產(chǎn)生深遠(yuǎn)的影響;而如果黎曼猜想被證明是錯(cuò)誤的,那么這些命題中的一部分也將隨之失去其有效性。新的突破來(lái)自MIT數(shù)學(xué)教授LarryGuth和牛津大學(xué)

OpenAI超級(jí)對(duì)齊團(tuán)隊(duì)遺作:兩個(gè)大模型博弈一番,輸出更好懂了 OpenAI超級(jí)對(duì)齊團(tuán)隊(duì)遺作:兩個(gè)大模型博弈一番,輸出更好懂了 Jul 19, 2024 am 01:29 AM

如果AI模型給的答案一點(diǎn)也看不懂,你敢用嗎?隨著機(jī)器學(xué)習(xí)系統(tǒng)在更重要的領(lǐng)域得到應(yīng)用,證明為什么我們可以信任它們的輸出,并明確何時(shí)不應(yīng)信任它們,變得越來(lái)越重要。獲得對(duì)復(fù)雜系統(tǒng)輸出結(jié)果信任的一個(gè)可行方法是,要求系統(tǒng)對(duì)其輸出產(chǎn)生一種解釋,這種解釋對(duì)人類或另一個(gè)受信任的系統(tǒng)來(lái)說(shuō)是可讀的,即可以完全理解以至于任何可能的錯(cuò)誤都可以被發(fā)現(xiàn)。例如,為了建立對(duì)司法系統(tǒng)的信任,我們要求法院提供清晰易讀的書(shū)面意見(jiàn),解釋并支持其決策。對(duì)于大型語(yǔ)言模型來(lái)說(shuō),我們也可以采用類似的方法。不過(guò),在采用這種方法時(shí),確保語(yǔ)言模型生

LLM用于時(shí)序預(yù)測(cè)真的不行,連推理能力都沒(méi)用到 LLM用于時(shí)序預(yù)測(cè)真的不行,連推理能力都沒(méi)用到 Jul 15, 2024 pm 03:59 PM

語(yǔ)言模型真的能用于時(shí)序預(yù)測(cè)嗎?根據(jù)貝特里奇頭條定律(任何以問(wèn)號(hào)結(jié)尾的新聞標(biāo)題,都能夠用「不」來(lái)回答),答案應(yīng)該是否定的。事實(shí)似乎也果然如此:強(qiáng)大如斯的LLM并不能很好地處理時(shí)序數(shù)據(jù)。時(shí)序,即時(shí)間序列,顧名思義,是指一組按照時(shí)間發(fā)生先后順序進(jìn)行排列的數(shù)據(jù)點(diǎn)序列。在很多領(lǐng)域,時(shí)序分析都很關(guān)鍵,包括疾病傳播預(yù)測(cè)、零售分析、醫(yī)療和金融。在時(shí)序分析領(lǐng)域,近期不少研究者都在研究如何使用大型語(yǔ)言模型(LLM)來(lái)分類、預(yù)測(cè)和檢測(cè)時(shí)間序列中的異常。這些論文假設(shè)擅長(zhǎng)處理文本中順序依賴關(guān)系的語(yǔ)言模型也能泛化用于時(shí)間序

登頂開(kāi)源AI軟件工程師榜首,UIUC無(wú)Agent方案輕松解決SWE-bench真實(shí)編程問(wèn)題 登頂開(kāi)源AI軟件工程師榜首,UIUC無(wú)Agent方案輕松解決SWE-bench真實(shí)編程問(wèn)題 Jul 17, 2024 pm 10:02 PM

AIxiv專欄是本站發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過(guò)去數(shù)年,本站AIxiv專欄接收?qǐng)?bào)道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級(jí)實(shí)驗(yàn)室,有效促進(jìn)了學(xué)術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享,歡迎投稿或者聯(lián)系報(bào)道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com這篇論文的作者均來(lái)自伊利諾伊大學(xué)香檳分校(UIUC)張令明老師團(tuán)隊(duì),包括:StevenXia,四年級(jí)博士生,研究方向是基于AI大模型的自動(dòng)代碼修復(fù);鄧茵琳,四年級(jí)博士生,研究方

首個(gè)基于Mamba的MLLM來(lái)了!模型權(quán)重、訓(xùn)練代碼等已全部開(kāi)源 首個(gè)基于Mamba的MLLM來(lái)了!模型權(quán)重、訓(xùn)練代碼等已全部開(kāi)源 Jul 17, 2024 am 02:46 AM

AIxiv專欄是本站發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過(guò)去數(shù)年,本站AIxiv專欄接收?qǐng)?bào)道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級(jí)實(shí)驗(yàn)室,有效促進(jìn)了學(xué)術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享,歡迎投稿或者聯(lián)系報(bào)道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com。引言近年來(lái),多模態(tài)大型語(yǔ)言模型(MLLM)在各個(gè)領(lǐng)域的應(yīng)用取得了顯著的成功。然而,作為許多下游任務(wù)的基礎(chǔ)模型,當(dāng)前的MLLM由眾所周知的Transformer網(wǎng)絡(luò)構(gòu)成,這種網(wǎng)

See all articles