国产av日韩一区二区三区精品,成人性爱视频在线观看,国产,欧美,日韩,一区,www.成色av久久成人,2222eeee成人天堂

首頁 科技周邊 人工智能 LLM用于時(shí)序預(yù)測真的不行,連推理能力都沒用到

LLM用于時(shí)序預(yù)測真的不行,連推理能力都沒用到

Jul 15, 2024 pm 03:59 PM
工程 時(shí)序預(yù)測

語言模型真的能用于時(shí)序預(yù)測嗎?根據(jù)貝特里奇頭條定律(任何以問號結(jié)尾的新聞標(biāo)題,都能夠用「不」來回答),答案應(yīng)該是否定的。事實(shí)似乎也果然如此:強(qiáng)大如斯的 LLM 并不能很好地處理時(shí)序數(shù)據(jù)。

LLM用于時(shí)序預(yù)測真的不行,連推理能力都沒用到

時(shí)序,即時(shí)間序列,顧名思義,是指一組按照時(shí)間發(fā)生先后順序進(jìn)行排列的數(shù)據(jù)點(diǎn)序列。

在很多領(lǐng)域,時(shí)序分析都很關(guān)鍵,包括疾病傳播預(yù)測、零售分析、醫(yī)療和金融。在時(shí)序分析領(lǐng)域,近期不少研究者都在研究如何使用大型語言模型(LLM)來分類、預(yù)測和檢測時(shí)間序列中的異常。這些論文假設(shè)擅長處理文本中順序依賴關(guān)系的語言模型也能泛化用于時(shí)間序列數(shù)據(jù)中的順序依賴關(guān)系。這個(gè)假設(shè)并不令人意外,畢竟語言模型是現(xiàn)在機(jī)器學(xué)習(xí)領(lǐng)域的香餑餑。

那么,語言模型究竟能給傳統(tǒng)時(shí)序任務(wù)帶去多大助益?

近日,弗吉尼亞大學(xué)和華盛頓大學(xué)一個(gè)團(tuán)隊(duì)嘗試解答了這一問題,并最終給出了一個(gè)簡單卻又重要的主張:對于時(shí)序預(yù)測任務(wù),使用語言模型的常用方法的表現(xiàn)都接近或劣于基本的消融方法,但前者所需的計(jì)算量比后者多幾個(gè)數(shù)量級。

LLM用于時(shí)序預(yù)測真的不行,連推理能力都沒用到

  • 論文標(biāo)題:Are Language Models Actually Useful for Time Series Forecasting?

  • 論文地址:https://arxiv.org/pdf/2406.16964

這些發(fā)現(xiàn)是該團(tuán)隊(duì)通過大量消融研究得到的,其中揭示出當(dāng)前時(shí)序預(yù)測研究中存在一個(gè)「令人擔(dān)憂的趨勢」。

但該團(tuán)隊(duì)也表示:「我們的目標(biāo)并不是暗示語言模型永遠(yuǎn)無法用于時(shí)間序列?!故聦?shí)上,近期一些研究表明語言和時(shí)間序列之間具有很好的互動潛力,可以處理時(shí)間序列推理和社交理解等任務(wù)。

相反,他們的目標(biāo)是強(qiáng)調(diào)這一驚人發(fā)現(xiàn):對于已有的時(shí)間序列任務(wù),現(xiàn)有方法幾乎沒有用到預(yù)訓(xùn)練語言模型那與生俱來的推理能力。

實(shí)驗(yàn)設(shè)置

該團(tuán)隊(duì)使用了三種最先進(jìn)的時(shí)間序列預(yù)測方法,并為 LLM 提出了三種消融方法:w/o LLM、LLM2Attn、LLM2Trsf。

為了評估 LLM 在時(shí)間序列預(yù)測任務(wù)上的有效性,他們在 8 個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集上對這些方法進(jìn)行了測試。

用于語言模型和時(shí)間序列的參考方法

他們實(shí)驗(yàn)了三種近期的使用 LLM 進(jìn)行時(shí)間序列預(yù)測的方法。見表 2,這些方法使用的基礎(chǔ)模型為 GPT-2 或 LLaMA,同時(shí)使用了不同的對齊和微調(diào)策略。

LLM用于時(shí)序預(yù)測真的不行,連推理能力都沒用到

OneFitsAll:OneFitsAll(有時(shí)也被稱為 GPT4TS)方法會先對輸入時(shí)間序列使用實(shí)例歸一化和 patching 技術(shù),然后將其饋送給一個(gè)線性層,以獲得用于語言模型的輸入表征。在訓(xùn)練期間,語言模型的多頭注意力和前饋層會被凍結(jié),而位置嵌入和層歸一化會得到優(yōu)化。最終層的作用是將語言模型的最終隱藏狀態(tài)轉(zhuǎn)換成預(yù)測結(jié)果。

Time-LLM:使用 Time-LLM 時(shí),輸入時(shí)間序列會被 patching 技術(shù) token 化,并且多頭注意力會將其與詞嵌入的低維表征對齊。之后,將這個(gè)對齊過程的輸出與描述性統(tǒng)計(jì)特征的嵌入一起輸送給一個(gè)凍結(jié)的預(yù)訓(xùn)練語言模型。然后,將該語言模型的輸出表征展平,并使其通過一個(gè)線性層,從而得到預(yù)測結(jié)果。

LLaTA:LLaTA 嵌入輸入時(shí)間序列的方式是將每個(gè)通道都視為一個(gè) token。該架構(gòu)的一半是「文本分支」,其使用交叉注意力來將時(shí)間序列表征與語言模型的詞嵌入的低維表征對齊。然后將該表征傳遞給一個(gè)凍結(jié)的預(yù)訓(xùn)練語言模型,得到一個(gè)「文本式預(yù)測」。同時(shí),該架構(gòu)的「時(shí)間」分支會基于輸入時(shí)間序列為預(yù)訓(xùn)練語言模型學(xué)習(xí)一個(gè)低秩適應(yīng)器,從而得到一個(gè)用于推理的「時(shí)間預(yù)測」。該模型包含考慮這些表征之間的相似度的額外損失項(xiàng)。

該團(tuán)隊(duì)提出的消融方法

對于基于 LLM 的預(yù)測器,為了將 LLM 的影響隔離開,該團(tuán)隊(duì)提出了三種消融方法:移除 LLM 組件或?qū)⑵涮鎿Q成一個(gè)簡單模塊。

LLM用于時(shí)序預(yù)測真的不行,連推理能力都沒用到

具體來說,對于上述三種方法中的每一種,他們都進(jìn)行了以下三項(xiàng)修改:

w/o LLM,見圖 1b。完全移除語言模型,直接將輸入 token 傳遞給參考方法的最終層。

LLM2Attn,見圖 1c。將語言模型替換成單個(gè)隨機(jī)初始化的多頭注意力層。

LLM2Trsf,見圖 1d。將語言模型替換成單個(gè)隨機(jī)初始化的 Transformer 模塊。

在上述消融研究中,預(yù)測器的其余部分都保持不變(可訓(xùn)練)。比如,如圖 1b 所示,在移除了 LLM 之后,輸入編碼會被直接傳遞給輸出映射。而如圖 1c 和 1d 所示,在將 LLM 替換成注意力或 Transformer 后,它們會與原始方法的剩余結(jié)構(gòu)一起獲得訓(xùn)練。

數(shù)據(jù)集和評估指標(biāo)

基準(zhǔn)數(shù)據(jù)集。評估使用了以下真實(shí)世界數(shù)據(jù)集:ETT(其包含 4 個(gè)子集:ETTm1、ETTm2、ETTh1、ETTh2)、Illness、Weather、Traffic、Electricity。表 1 給出了這些數(shù)據(jù)集的統(tǒng)計(jì)情況。另外還有 Exchange Rate、Covid Deaths、Taxi (30 min)、NN5 (Daily) 和 FRED-MD。

LLM用于時(shí)序預(yù)測真的不行,連推理能力都沒用到

評估指標(biāo)。該研究報(bào)告的評估指標(biāo)是預(yù)測時(shí)序值和真實(shí)時(shí)序值之間的平均絕對誤差(MAE)和均方誤差(MSE)。

結(jié)果

具體來說,該團(tuán)隊(duì)探究了以下研究問題(RQ):

  • (RQ1)預(yù)訓(xùn)練語言模型是否有助于提升預(yù)測性能?

  • (RQ2)基于 LLM 的方法是否值得其消耗的計(jì)算成本?

  • (RQ3)語言模型預(yù)訓(xùn)練是否有助于執(zhí)行預(yù)測任務(wù)的性能?

  • (RQ4)LLM 能否表征時(shí)間序列中的順序依賴關(guān)系?

  • (RQ5)LLM 是否有助于少樣本學(xué)習(xí)?

  • (RQ6)性能從何而來?

預(yù)訓(xùn)練語言模型是否有助于提升預(yù)測性能?(RQ1)

實(shí)驗(yàn)結(jié)果表明,預(yù)訓(xùn)練 LLM 對時(shí)間序列預(yù)測任務(wù)來說還不是很有用。

LLM用于時(shí)序預(yù)測真的不行,連推理能力都沒用到

LLM用于時(shí)序預(yù)測真的不行,連推理能力都沒用到

總體而言,如表 3 所示,在 8 個(gè)數(shù)據(jù)集和 2 個(gè)指標(biāo)上,消融方法在 26/26 案例中優(yōu)于 Time-LLM 方法,在 22/26 案例中優(yōu)于 LLaTA,在 19/26 案例中優(yōu)于 OneFitsAll。

總之,很難說 LLM 可以有效地用于時(shí)間序列預(yù)測。

基于 LLM 的方法是否值得其消耗的計(jì)算成本?(RQ2)

這里,根據(jù)這些方法的名義性能來評估它們的計(jì)算強(qiáng)度。參考方法中的語言模型使用了數(shù)億乃至數(shù)十億參數(shù)來執(zhí)行時(shí)間序列預(yù)測。即使當(dāng)這些語言模型的參數(shù)凍結(jié)時(shí),它們在訓(xùn)練和推理時(shí)依然會有很大的計(jì)算開銷。

舉個(gè)例子,Time-LLM 有 6642 M 參數(shù),在 Weather 數(shù)據(jù)集上耗時(shí) 3003 分鐘才完成訓(xùn)練,而消融方法僅有 0.245 M 參數(shù),平均訓(xùn)練時(shí)間僅有 2.17 分鐘。表 4 給出了在 ETTh1 和 Weather 數(shù)據(jù)集上訓(xùn)練其它方法的相關(guān)信息。

LLM用于時(shí)序預(yù)測真的不行,連推理能力都沒用到

至于推理時(shí)間,這里的做法是除以最大批量大小,以估計(jì)每個(gè)示例的推理時(shí)間。平均而言,相比于修改后的模型,Time-LLM、OneFitsAl、LLaTA 所用的推理時(shí)間多 28.2、2.3、1.2 倍。

LLM用于時(shí)序預(yù)測真的不行,連推理能力都沒用到

圖 3 給出了一些示例,其中綠色標(biāo)記(消融方法)通常低于紅色標(biāo)記(LLM),并且集中于左側(cè),這說明它們計(jì)算成本更低但預(yù)測性能更好。

總之,在時(shí)間序列預(yù)測任務(wù)上,LLM 的計(jì)算強(qiáng)度無法為性能帶來相應(yīng)的提升。

語言模型預(yù)訓(xùn)練是否有助于執(zhí)行預(yù)測任務(wù)的性能?(RQ3)

評估結(jié)果表明,對于時(shí)間序列預(yù)測任務(wù)而言,使用大型數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練實(shí)在沒有必要。為了檢驗(yàn)預(yù)訓(xùn)練期間學(xué)到的知識能否給預(yù)測性能帶來有意義的提升,該團(tuán)隊(duì)實(shí)驗(yàn)了在時(shí)間序列數(shù)據(jù)上,對 LLaTA 進(jìn)行不同組合的預(yù)訓(xùn)練和微調(diào)的效果。

  • 預(yù)訓(xùn)練 + 微調(diào)(Pre+FT):這是原始方法,即在時(shí)間序列數(shù)據(jù)上微調(diào)預(yù)訓(xùn)練語言模型。對于這里的 LLaTA,做法是凍結(jié)基礎(chǔ)語言模型,學(xué)習(xí)一個(gè)低秩適應(yīng)器(LoRA)。

  • 隨機(jī)初始化 + 微調(diào)(woPre+FT):預(yù)訓(xùn)練得到的文本知識是否有助于時(shí)間序列預(yù)測?這里,隨機(jī)初始化語言模型的權(quán)重(由此清除了預(yù)訓(xùn)練的效果),再在微調(diào)數(shù)據(jù)集上從頭開始訓(xùn)練 LLM。

  • 預(yù)訓(xùn)練 + 不使用微調(diào)(Pre+woFT):在時(shí)間序列數(shù)據(jù)上進(jìn)行微調(diào)又能給預(yù)測性能帶來多大提升呢?這里是凍結(jié)語言模型,同時(shí)放棄學(xué)習(xí) LoRA。這能反映語言模型自身處理時(shí)間序列的性能。

  • 隨機(jī)初始化 + 無微調(diào)(woPre+woFT):很明顯,這就是將輸入時(shí)間序列隨機(jī)投射到一個(gè)預(yù)測結(jié)果。該結(jié)果被用作與其它方法進(jìn)行比較的基準(zhǔn)。

LLM用于時(shí)序預(yù)測真的不行,連推理能力都沒用到

整體結(jié)果見表 5。在 8 個(gè)數(shù)據(jù)集上,依照 MAE 和 MSE 指標(biāo),「預(yù)訓(xùn)練 + 微調(diào)」有三次表現(xiàn)最佳,而「隨機(jī)初始化 + 微調(diào)」獲得了 8 次最佳。這說明語言知識對時(shí)間序列預(yù)測的幫助有限。但是,「預(yù)訓(xùn)練 + 無微調(diào)」與基準(zhǔn)「隨機(jī)初始化 + 無微調(diào)」各自有 5 和 0 次最佳,這說明語言知識對微調(diào)過程的幫助也不大。

總之,預(yù)訓(xùn)練得到的文本知識對時(shí)間序列預(yù)測的幫助有限。

LLM 能否表征時(shí)間序列中的順序依賴關(guān)系?(RQ4)

大多數(shù)使用 LLM 來微調(diào)位置編碼的時(shí)間序列預(yù)測方法都有助于理解序列中時(shí)間步驟的位置。該團(tuán)隊(duì)預(yù)計(jì),對于一個(gè)有優(yōu)良位置表征的時(shí)間序列模型,如果將輸入的位置打亂,那么其預(yù)測性能將會大幅下降。他們實(shí)驗(yàn)了三種打亂時(shí)間序列數(shù)據(jù)的方法:隨機(jī)混洗整個(gè)序列(sf-all)、僅隨機(jī)混洗前一半序列(sf-half)、交換序列的前半和后半部分(ex-half)。結(jié)果見表 6。

LLM用于時(shí)序預(yù)測真的不行,連推理能力都沒用到

輸入混洗對基于 LLM 的方法與其消融方法的影響差不太多。這說明 LLM 在表征時(shí)間序列中的順序依賴關(guān)系方面并沒有什么突出能力。

LLM 是否有助于少樣本學(xué)習(xí)?(RQ5)

評估結(jié)果表明,LLM 對少樣本學(xué)習(xí)場景而言意義不大。

他們的評估實(shí)驗(yàn)是取用每個(gè)數(shù)據(jù)集的 10%,再訓(xùn)練模型及其消融方法。具體來說,這里評估的是 LLaMA(Time-LLM)。結(jié)果見表 7。

LLM用于時(shí)序預(yù)測真的不行,連推理能力都沒用到

LLM用于時(shí)序預(yù)測真的不行,連推理能力都沒用到

可以看到,有無 LLM 的表現(xiàn)差不多 —— 各自都有 8 個(gè)案例表現(xiàn)更好。該團(tuán)隊(duì)也使用基于 GPT-2 的方法 LLaTA 進(jìn)行了類似的實(shí)驗(yàn)。結(jié)果見表 8,這里消融方法在少樣本場景中的表現(xiàn)還優(yōu)于 LLM。

性能從何而來?(RQ6)

這一節(jié)評估的是 LLM 時(shí)間序列模型中常用的編碼技術(shù)。結(jié)果發(fā)現(xiàn),將 patching 和單層注意力組合起來是一種簡單卻有效的選擇。

前面發(fā)現(xiàn)對基于 LLM 的方法進(jìn)行簡單的消融并不會降低其性能。為了理解這一現(xiàn)象的原因,該團(tuán)隊(duì)研究了 LLM 時(shí)間序列任務(wù)中常用的一些編碼技術(shù),比如 patching 和分解。一種基本的 Transformer 模塊也可用于輔助編碼。

結(jié)果發(fā)現(xiàn),一種組合了 patching 和注意力的結(jié)構(gòu)在小數(shù)據(jù)集(時(shí)間戳少于 100 萬)上的表現(xiàn)優(yōu)于其它大部分編碼方法,甚至能與 LLM 方法媲美。

LLM用于時(shí)序預(yù)測真的不行,連推理能力都沒用到

其詳細(xì)結(jié)構(gòu)如圖 4 所示,其中涉及將「實(shí)例歸一化」用于時(shí)間序列,然后進(jìn)行 patching 和投射。然后,在 patch 之間使用一層注意力進(jìn)行特征學(xué)習(xí)。對于 Traffic(約 1500 萬)和 Electricity(約 800 萬)等更大的數(shù)據(jù)集,則使用了基本 Transformer 的單層線性模型的編碼表現(xiàn)更優(yōu)。在這些方法中,最后還要使用單層線性層來投射時(shí)間序列嵌入,從而得到預(yù)測結(jié)果。

總之,patching 對編碼而言非常重要。此外,基本的注意力和 Transformer 模塊也能為編碼帶來有效助益。

以上是LLM用于時(shí)序預(yù)測真的不行,連推理能力都沒用到的詳細(xì)內(nèi)容。更多信息請關(guān)注PHP中文網(wǎng)其他相關(guān)文章!

本站聲明
本文內(nèi)容由網(wǎng)友自發(fā)貢獻(xiàn),版權(quán)歸原作者所有,本站不承擔(dān)相應(yīng)法律責(zé)任。如您發(fā)現(xiàn)有涉嫌抄襲侵權(quán)的內(nèi)容,請聯(lián)系admin@php.cn

熱AI工具

Undress AI Tool

Undress AI Tool

免費(fèi)脫衣服圖片

Undresser.AI Undress

Undresser.AI Undress

人工智能驅(qū)動的應(yīng)用程序,用于創(chuàng)建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用于從照片中去除衣服的在線人工智能工具。

Clothoff.io

Clothoff.io

AI脫衣機(jī)

Video Face Swap

Video Face Swap

使用我們完全免費(fèi)的人工智能換臉工具輕松在任何視頻中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費(fèi)的代碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

功能強(qiáng)大的PHP集成開發(fā)環(huán)境

Dreamweaver CS6

Dreamweaver CS6

視覺化網(wǎng)頁開發(fā)工具

SublimeText3 Mac版

SublimeText3 Mac版

神級代碼編輯軟件(SublimeText3)

熱門話題

Laravel 教程
1601
29
PHP教程
1502
276
arXiv論文可以發(fā)「彈幕」了,斯坦福alphaXiv討論平臺上線,LeCun點(diǎn)贊 arXiv論文可以發(fā)「彈幕」了,斯坦福alphaXiv討論平臺上線,LeCun點(diǎn)贊 Aug 01, 2024 pm 05:18 PM

干杯!當(dāng)論文討論細(xì)致到詞句,是什么體驗(yàn)?最近,斯坦福大學(xué)的學(xué)生針對arXiv論文創(chuàng)建了一個(gè)開放討論論壇——alphaXiv,可以直接在任何arXiv論文之上發(fā)布問題和評論。網(wǎng)站鏈接:https://alphaxiv.org/其實(shí)不需要專門訪問這個(gè)網(wǎng)站,只需將任何URL中的arXiv更改為alphaXiv就可以直接在alphaXiv論壇上打開相應(yīng)論文:可以精準(zhǔn)定位到論文中的段落、句子:右側(cè)討論區(qū),用戶可以發(fā)表問題詢問作者論文思路、細(xì)節(jié),例如:也可以針對論文內(nèi)容發(fā)表評論,例如:「給出至

ControlNet作者又出爆款!一張圖生成繪畫全過程,兩天狂攬1.4k Star ControlNet作者又出爆款!一張圖生成繪畫全過程,兩天狂攬1.4k Star Jul 17, 2024 am 01:56 AM

同樣是圖生視頻,PaintsUndo走出了不一樣的路線。ControlNet作者LvminZhang又開始整活了!這次瞄準(zhǔn)繪畫領(lǐng)域。新項(xiàng)目PaintsUndo剛上線不久,就收獲1.4kstar(還在瘋狂漲)。項(xiàng)目地址:https://github.com/lllyasviel/Paints-UNDO通過該項(xiàng)目,用戶輸入一張靜態(tài)圖像,PaintsUndo就能自動幫你生成整個(gè)繪畫的全過程視頻,從線稿到成品都有跡可循。繪制過程,線條變化多端甚是神奇,最終視頻結(jié)果和原圖像非常相似:我們再來看一個(gè)完整的繪

黎曼猜想顯著突破!陶哲軒強(qiáng)推MIT、牛津新論文,37歲菲爾茲獎得主參與 黎曼猜想顯著突破!陶哲軒強(qiáng)推MIT、牛津新論文,37歲菲爾茲獎得主參與 Aug 05, 2024 pm 03:32 PM

最近,被稱為千禧年七大難題之一的黎曼猜想迎來了新突破。黎曼猜想是數(shù)學(xué)中一個(gè)非常重要的未解決問題,與素?cái)?shù)分布的精確性質(zhì)有關(guān)(素?cái)?shù)是那些只能被1和自身整除的數(shù)字,它們在數(shù)論中扮演著基礎(chǔ)性的角色)。在當(dāng)今的數(shù)學(xué)文獻(xiàn)中,已有超過一千條數(shù)學(xué)命題以黎曼猜想(或其推廣形式)的成立為前提。也就是說,黎曼猜想及其推廣形式一旦被證明,這一千多個(gè)命題將被確立為定理,對數(shù)學(xué)領(lǐng)域產(chǎn)生深遠(yuǎn)的影響;而如果黎曼猜想被證明是錯(cuò)誤的,那么這些命題中的一部分也將隨之失去其有效性。新的突破來自MIT數(shù)學(xué)教授LarryGuth和牛津大學(xué)

OpenAI超級對齊團(tuán)隊(duì)遺作:兩個(gè)大模型博弈一番,輸出更好懂了 OpenAI超級對齊團(tuán)隊(duì)遺作:兩個(gè)大模型博弈一番,輸出更好懂了 Jul 19, 2024 am 01:29 AM

如果AI模型給的答案一點(diǎn)也看不懂,你敢用嗎?隨著機(jī)器學(xué)習(xí)系統(tǒng)在更重要的領(lǐng)域得到應(yīng)用,證明為什么我們可以信任它們的輸出,并明確何時(shí)不應(yīng)信任它們,變得越來越重要。獲得對復(fù)雜系統(tǒng)輸出結(jié)果信任的一個(gè)可行方法是,要求系統(tǒng)對其輸出產(chǎn)生一種解釋,這種解釋對人類或另一個(gè)受信任的系統(tǒng)來說是可讀的,即可以完全理解以至于任何可能的錯(cuò)誤都可以被發(fā)現(xiàn)。例如,為了建立對司法系統(tǒng)的信任,我們要求法院提供清晰易讀的書面意見,解釋并支持其決策。對于大型語言模型來說,我們也可以采用類似的方法。不過,在采用這種方法時(shí),確保語言模型生

LLM用于時(shí)序預(yù)測真的不行,連推理能力都沒用到 LLM用于時(shí)序預(yù)測真的不行,連推理能力都沒用到 Jul 15, 2024 pm 03:59 PM

語言模型真的能用于時(shí)序預(yù)測嗎?根據(jù)貝特里奇頭條定律(任何以問號結(jié)尾的新聞標(biāo)題,都能夠用「不」來回答),答案應(yīng)該是否定的。事實(shí)似乎也果然如此:強(qiáng)大如斯的LLM并不能很好地處理時(shí)序數(shù)據(jù)。時(shí)序,即時(shí)間序列,顧名思義,是指一組按照時(shí)間發(fā)生先后順序進(jìn)行排列的數(shù)據(jù)點(diǎn)序列。在很多領(lǐng)域,時(shí)序分析都很關(guān)鍵,包括疾病傳播預(yù)測、零售分析、醫(yī)療和金融。在時(shí)序分析領(lǐng)域,近期不少研究者都在研究如何使用大型語言模型(LLM)來分類、預(yù)測和檢測時(shí)間序列中的異常。這些論文假設(shè)擅長處理文本中順序依賴關(guān)系的語言模型也能泛化用于時(shí)間序

從RLHF到DPO再到TDPO,大模型對齊算法已經(jīng)是「token-level」 從RLHF到DPO再到TDPO,大模型對齊算法已經(jīng)是「token-level」 Jun 24, 2024 pm 03:04 PM

AIxiv專欄是本站發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過去數(shù)年,本站AIxiv專欄接收報(bào)道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級實(shí)驗(yàn)室,有效促進(jìn)了學(xué)術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享,歡迎投稿或者聯(lián)系報(bào)道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com在人工智能領(lǐng)域的發(fā)展過程中,對大語言模型(LLM)的控制與指導(dǎo)始終是核心挑戰(zhàn)之一,旨在確保這些模型既強(qiáng)大又安全地服務(wù)于人類社會。早期的努力集中于通過人類反饋的強(qiáng)化學(xué)習(xí)方法(RL

登頂開源AI軟件工程師榜首,UIUC無Agent方案輕松解決SWE-bench真實(shí)編程問題 登頂開源AI軟件工程師榜首,UIUC無Agent方案輕松解決SWE-bench真實(shí)編程問題 Jul 17, 2024 pm 10:02 PM

AIxiv專欄是本站發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過去數(shù)年,本站AIxiv專欄接收報(bào)道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級實(shí)驗(yàn)室,有效促進(jìn)了學(xué)術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享,歡迎投稿或者聯(lián)系報(bào)道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com這篇論文的作者均來自伊利諾伊大學(xué)香檳分校(UIUC)張令明老師團(tuán)隊(duì),包括:StevenXia,四年級博士生,研究方向是基于AI大模型的自動代碼修復(fù);鄧茵琳,四年級博士生,研究方

首個(gè)基于Mamba的MLLM來了!模型權(quán)重、訓(xùn)練代碼等已全部開源 首個(gè)基于Mamba的MLLM來了!模型權(quán)重、訓(xùn)練代碼等已全部開源 Jul 17, 2024 am 02:46 AM

AIxiv專欄是本站發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過去數(shù)年,本站AIxiv專欄接收報(bào)道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級實(shí)驗(yàn)室,有效促進(jìn)了學(xué)術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享,歡迎投稿或者聯(lián)系報(bào)道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com。引言近年來,多模態(tài)大型語言模型(MLLM)在各個(gè)領(lǐng)域的應(yīng)用取得了顯著的成功。然而,作為許多下游任務(wù)的基礎(chǔ)模型,當(dāng)前的MLLM由眾所周知的Transformer網(wǎng)絡(luò)構(gòu)成,這種網(wǎng)

See all articles