Tokenformer:通過將參數(shù)視為令牌來重新思考 Transformer
Nov 04, 2024 am 12:36 AMTransformers 改變了人工智能,在 NLP、計算機(jī)視覺和多模式數(shù)據(jù)集成方面提供了無與倫比的性能。這些模型擅長通過注意力機(jī)制識別數(shù)據(jù)中的模式,使其成為復(fù)雜任務(wù)的理想選擇。然而,由于傳統(tǒng)結(jié)構(gòu)的計算成本較高,變壓器模型的快速擴(kuò)展需要改進(jìn)。
Transformers 徹底改變了人工智能,在自然語言處理 (NLP)、計算機(jī)視覺和多模式數(shù)據(jù)集成方面提供了無與倫比的性能。這些模型擅長通過注意力機(jī)制識別數(shù)據(jù)中的模式,使其成為復(fù)雜任務(wù)的理想選擇。然而,由于傳統(tǒng)結(jié)構(gòu)的計算成本較高,變壓器模型的快速擴(kuò)展需要改進(jìn)。隨著這些模型的增長,它們需要大量的硬件資源和訓(xùn)練時間,并且隨著模型大小的增加呈指數(shù)級增長。
縮放變壓器的主要障礙在于其線性投影層內(nèi)的固定參數(shù)。這種靜態(tài)結(jié)構(gòu)限制了模型在不完全重新訓(xùn)練的情況下擴(kuò)展的能力,隨著模型大小的增加,這種能力會呈指數(shù)級增長。當(dāng)架構(gòu)發(fā)生修改時,例如增加通道尺寸,這些傳統(tǒng)模型通常需要全面的重新訓(xùn)練。
因此,這些擴(kuò)展的計算成本變得非常高,而且該方法缺乏靈活性。無法動態(tài)添加新參數(shù)會抑制增長,使這些模型不太適應(yīng)不斷發(fā)展的人工智能應(yīng)用程序,并且在時間和資源方面成本更高。
從歷史上看,管理模型可擴(kuò)展性的方法包括使用 Net2Net 等方法復(fù)制權(quán)重或重構(gòu)模型,其中復(fù)制神經(jīng)元擴(kuò)展層。然而,這些方法通常會破壞預(yù)訓(xùn)練模型的平衡,導(dǎo)致收斂速度變慢并增加訓(xùn)練復(fù)雜性。
雖然這些方法取得了漸進(jìn)的進(jìn)展,但它們在擴(kuò)展過程中保持模型完整性方面仍然面臨限制。 Transformer 嚴(yán)重依賴靜態(tài)線性投影,導(dǎo)致參數(shù)擴(kuò)展成本高昂且不靈活。 GPT 和其他大型 Transformer 等傳統(tǒng)模型經(jīng)常從頭開始重新訓(xùn)練,每個新的擴(kuò)展階段都會產(chǎn)生高昂的計算成本。
現(xiàn)在,馬克斯普朗克研究所、谷歌和北京大學(xué)的研究人員開發(fā)了一種名為 Tokenformer 的新架構(gòu),通過將模型參數(shù)視為令牌,從根本上重新構(gòu)想了 Transformer,從而允許令牌和參數(shù)之間進(jìn)行動態(tài)交互。
在這個框架中,Tokenformer 引入了一個稱為令牌參數(shù)注意(Pattention)層的新穎組件,它有助于增量擴(kuò)展。該模型可以添加新的參數(shù)標(biāo)記而無需重新訓(xùn)練,大大降低了訓(xùn)練成本。
通過在同一框架內(nèi)表示輸入令牌和參數(shù),Tokenformer 可以靈活擴(kuò)展,為研究人員提供更高效、資源意識更強的模型架構(gòu),同時保持可擴(kuò)展性和高性能。
Tokenformer 的 Pattention 層使用輸入 token 作為查詢,而模型參數(shù)作為鍵和值,這與標(biāo)準(zhǔn) Transformer 方法不同,僅依賴于線性投影。
模型的擴(kuò)展是通過添加新的鍵值參數(shù)對、保持輸入和輸出維度不變并避免完全重新訓(xùn)練來實現(xiàn)的。 Tokenformer 的架構(gòu)設(shè)計為模塊化,使研究人員能夠通過合并額外的代幣來無縫擴(kuò)展模型。
這種增量擴(kuò)展功能支持預(yù)訓(xùn)練權(quán)重的有效重用,同時能夠快速適應(yīng)新數(shù)據(jù)集或更大的模型大小,而不會破壞學(xué)習(xí)的信息。
Tokenformer 的性能優(yōu)勢非常顯著,因為該模型在保持準(zhǔn)確性的同時顯著降低了計算成本。例如,Tokenformer 將參數(shù)從 1.24 億擴(kuò)展到 14 億,而訓(xùn)練成本僅為傳統(tǒng) Transformer 所需的一半。
在一項實驗中,該模型針對 14 億個參數(shù)配置實現(xiàn)了 11.77 的測試?yán)Щ蠖?,幾乎與從頭開始訓(xùn)練的類似大小的 Transformer 的 11.63 困惑度相匹配。
這種效率意味著 Tokenformer 可以在多個領(lǐng)域?qū)崿F(xiàn)高性能,包括語言和視覺建模任務(wù),而資源支出只是傳統(tǒng)模型的一小部分。
Tokenformer 提出了許多關(guān)于推進(jìn)人工智能研究和改進(jìn)基于 Transformer 的模型的關(guān)鍵要點。其中包括:
將參數(shù)視為令牌可以實現(xiàn)增量模型擴(kuò)展,而無需重新訓(xùn)練。
令牌參數(shù)注意層有助于高效的參數(shù)擴(kuò)展。
模塊化架構(gòu)通過合并額外的代幣來支持無縫模型增長。
該模型以最少的資源消耗在不同領(lǐng)域?qū)崿F(xiàn)了高性能。
總之,Tokenformer 提供了一種變革性方法來擴(kuò)展基于 Transformer 的模型。該模型架構(gòu)通過將參數(shù)視為令牌、降低成本并保持跨任務(wù)的模型性能來實現(xiàn)可擴(kuò)展性和資源效率。
這種靈活性代表了變壓器設(shè)計的突破,提供了一種無需重新訓(xùn)練即可適應(yīng)先進(jìn)人工智能應(yīng)用需求的模型。 Tokenformer 的架構(gòu)為未來的人工智能研究帶來了希望,提供了可持續(xù)、高效地開發(fā)大規(guī)模模型的途徑。
查看 HuggingFace 上的論文、GitHub 頁面和模型。
這項研究的所有功勞都?xì)w功于該項目的研究人員。另外,不要忘記在 Twitter 上關(guān)注我們并加入我們的 Telegram 頻道和 LinkedIn 群組。如果您喜歡我們的工作,您一定會喜歡我們的時事通訊。不要忘記加入我們的 55k ML SubReddit。
[我們的贊助機(jī)會]與 100 萬每月讀者和 50 萬社區(qū)成員推廣您的研究/產(chǎn)品/網(wǎng)絡(luò)研討會
以上是Tokenformer:通過將參數(shù)視為令牌來重新思考 Transformer的詳細(xì)內(nèi)容。更多信息請關(guān)注PHP中文網(wǎng)其他相關(guān)文章!

熱AI工具

Undress AI Tool
免費脫衣服圖片

Undresser.AI Undress
人工智能驅(qū)動的應(yīng)用程序,用于創(chuàng)建逼真的裸體照片

AI Clothes Remover
用于從照片中去除衣服的在線人工智能工具。

Clothoff.io
AI脫衣機(jī)

Video Face Swap
使用我們完全免費的人工智能換臉工具輕松在任何視頻中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的代碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
功能強大的PHP集成開發(fā)環(huán)境

Dreamweaver CS6
視覺化網(wǎng)頁開發(fā)工具

SublimeText3 Mac版
神級代碼編輯軟件(SublimeText3)

歐意(OKX)作為全球領(lǐng)先的加密貨幣交易所,提供安全可靠的交易環(huán)境和豐富的數(shù)字資產(chǎn)種類。1. 訪問官網(wǎng) www.okx.com 下載應(yīng)用程序;2. 根據(jù)設(shè)備選擇 Android 或 iOS 版本;3. 安裝應(yīng)用并完成注冊或登錄;4. 啟用雙重驗證保障賬戶安全。平臺支持現(xiàn)貨交易、杠桿交易、合約交易、DeFi、OKX Earn 理財及 NFT 市場等多種功能。

選擇可靠的加密貨幣交易平臺至關(guān)重要,以確保交易安全、降低成本并提升體驗。2025年十大交易所包括:1.OKX,具備強大技術(shù)與多種交易方式;2.Binance,交易量大且生態(tài)完善;3.Huobi,注重合規(guī)與用戶拓展;4.Coinbase,適合新手;5.Kraken,安全性高費用低;6.Bitfinex,面向?qū)I(yè)用戶;7.Bybit,專注衍生品;8.KuCoin,幣種豐富;9.Gemini,監(jiān)管嚴(yán)格;10.Gate.io,提供創(chuàng)新產(chǎn)品。選擇時應(yīng)關(guān)注安全性、交易量、手續(xù)費、幣種、用戶體驗、客服及合規(guī)性

Gate.io 是一個安全可靠的數(shù)字資產(chǎn)交易平臺,用戶應(yīng)通過官方地址訪問以避免安全風(fēng)險。為確保賬戶安全,請使用安全網(wǎng)絡(luò)環(huán)境、啟用雙重驗證、定期更改密碼、警惕釣魚網(wǎng)站和詐騙信息,并核對官方郵件地址。Gate.io 提供豐富的交易品種、合約交易、理財借貸、Startup 首發(fā)平臺、自主研發(fā)的 GateChain 公鏈、多重安全保障、7x24 小時客服支持以及功能完善的移動端 App。要開始使用 Gate.io,可訪問其官方網(wǎng)站注冊賬戶、完成實名認(rèn)證、充值并開始交易。

加密貨幣交易者應(yīng)選擇安全可靠、功能多樣的交易平臺,以確保資產(chǎn)安全和交易效率。 1. OKX:全球領(lǐng)先平臺,提供現(xiàn)貨、合約等多種交易方式,并支持便捷注冊與身份驗證流程;2. Binance:以低費用和豐富幣種著稱,適合全球用戶;3. Huobi:歷史悠久,安全性高,產(chǎn)品多樣;4. Coinbase:界面友好且合規(guī)性強,適合新手;5. Kraken:以專業(yè)性和透明度見長;6. KuCoin:幣種豐富并提供多種獎勵計劃;7. Bitfinex:面向?qū)I(yè)用戶,提供杠桿交易;8. Gate.io:創(chuàng)新產(chǎn)品與

選擇靠譜的加密貨幣交易平臺需優(yōu)先考慮安全性、費用、幣種及功能。 2025年十大可靠平臺包括OKX、Binance、Huobi、Coinbase、Kraken、KuCoin、Bitfinex、Gemini、Bitstamp和Crypto.com,它們各具特色,如OKX提供多種交易方式并注重安全;Binance以低手續(xù)費著稱;Coinbase適合新手;Kraken和Gemini強調(diào)合規(guī)與安全等。選擇時應(yīng)從以下五點考量:1. 安全性:查看是否具備雙重認(rèn)證、冷存儲等措施;2. 交易費用:比較不同平臺費率并

選擇合適的虛擬數(shù)字貨幣交易平臺至關(guān)重要,推薦十大主流平臺包括OKX、Binance、Huobi、Coinbase、Kraken、Bitfinex、Gate.io、KuCoin、Bybit和MEXC。 1. OKX提供豐富的交易品種和理財產(chǎn)品;2. Binance以低費用和強大交易引擎著稱;3. Huobi支持現(xiàn)貨、合約等多種交易服務(wù);4. Coinbase適合新手操作;5. Kraken安全性高;6. Bitfinex交易深度好;7. Gate.io用戶界面友好;8. KuCoin支持多種小幣種;

選擇加密貨幣交易平臺需綜合考慮安全性、交易量、手續(xù)費等因素,2025年十大交易所包括:1.OKX,以技術(shù)實力和多樣交易方式領(lǐng)先;2.Binance,因幣種豐富和交易量大著稱;3.Huobi,注重合規(guī)并拓展生態(tài)系統(tǒng);4.Coinbase,適合新手的用戶友好平臺;5.Kraken,以安全性和低費用受認(rèn)可;6.Bitfinex,面向?qū)I(yè)交易者的高級工具;7.Bybit,專注衍生品和高杠桿交易;8.KuCoin,提供廣泛幣種選擇;9.Gemini,強調(diào)監(jiān)管合規(guī)和機(jī)構(gòu)服務(wù);10.Gate.io,涵蓋多種交

加密貨幣交易所中,幣安、Coinbase 和 Kraken 是全球三大主流平臺,各自適合不同用戶。1. 幣安交易量最大,提供現(xiàn)貨、期貨、期權(quán)等多種交易方式,手續(xù)費低且支持幣種多,但界面復(fù)雜,適合進(jìn)階交易者;2. Coinbase 界面簡潔,支持法幣直接購買主流幣種并提供教育內(nèi)容,適合初學(xué)者和美國用戶,但幣種較少、手續(xù)費較高;3. Kraken 安全性高、合規(guī)性強,適合長期持有者,提供質(zhì)押服務(wù)和多種法幣入金方式,但界面較老舊、交易對較少。選擇時應(yīng)根據(jù)自身需求和使用習(xí)慣決定。