国产av日韩一区二区三区精品,成人性爱视频在线观看,国产,欧美,日韩,一区,www.成色av久久成人,2222eeee成人天堂

目錄
(1)設計了一個微基準來分離數(shù)值精度對數(shù)值偏差的影響。
(2)基于 Wasserstein Distance 度量進行了數(shù)據(jù)驅(qū)動的分析。
實驗方法
通過微基準量化數(shù)值偏差
通過權(quán)重差異來了解數(shù)值偏差
首頁 科技周邊 人工智能 Flash Attention穩(wěn)定嗎?Meta、哈佛發(fā)現(xiàn)其模型權(quán)重偏差呈現(xiàn)數(shù)量級波動

Flash Attention穩(wěn)定嗎?Meta、哈佛發(fā)現(xiàn)其模型權(quán)重偏差呈現(xiàn)數(shù)量級波動

May 30, 2024 pm 01:24 PM
人工智能 機器學習 ai 模型

Meta FAIR 聯(lián)合哈佛優(yōu)化大規(guī)模機器學習時產(chǎn)生的數(shù)據(jù)偏差,提供了新的研究框架。

據(jù)所周知,大語言模型的訓練常常需要數(shù)月的時間,使用數(shù)百乃至上千個GPU。以LLaMA2 70B模型為例,其訓練總共需要1,720,320個GPU小時。由于這些工作負載的規(guī)模和復雜性,導致訓練大模型存在著獨特的系統(tǒng)性挑戰(zhàn)。

最近,許多機構(gòu)在訓練SOTA生成式AI模型時報告了訓練過程中的不穩(wěn)定情況,它們通常以損失尖峰的形式出現(xiàn),比如谷歌的PaLM模型訓練過程中出現(xiàn)了多達20次的損失尖峰。

數(shù)值偏差是造成這種訓練不準確性的根因,由于大語言模型訓練執(zhí)行成本極高,如何量化數(shù)值偏差儼然成為關鍵問題。

在最新的一項工作中,來自 Meta、哈佛大學的研究者開發(fā)了一個原則性定量方法來理解訓練優(yōu)化中的數(shù)值偏差。以此評估不同的最新優(yōu)化技術(shù),并確定它們在用于訓練大模型時是否可能引入意外的不穩(wěn)定性。 研究者們發(fā)現(xiàn),盡管現(xiàn)有的優(yōu)化方法在一些任務上表現(xiàn)出色,但在大型模型上應用時,會出現(xiàn)一些數(shù)值偏差。這種數(shù)值偏差可能會在訓練過程中產(chǎn)生不穩(wěn)定性,導致模型的性能下降。 為了解決這個問題,研究者們提出了一種基于原則性定量方法的優(yōu)化

Flash Attention穩(wěn)定嗎?Meta、哈佛發(fā)現(xiàn)其模型權(quán)重偏差呈現(xiàn)數(shù)量級波動


  • 論文標題:Is Flash Attention Stable?
  • 論文鏈接:https://arxiv.org/pdf/2405.02803

結(jié)果發(fā)現(xiàn),在一次單獨的前向傳遞過程中,F(xiàn)lash Attention 的數(shù)值偏差比 BF16 的 Baseline Attention 大一個數(shù)量級。

具體而言,該方法包括兩個階段,包括:

  • 開發(fā)一個微基準來擾動給定優(yōu)化中的數(shù)值精度;
  • 通過基于 Wasserstein 距離的數(shù)據(jù)驅(qū)動分析評估數(shù)值偏差如何轉(zhuǎn)化為模型權(quán)重的變化。

研究者分析了 SOTA 優(yōu)化技術(shù) Flash Attention,并量化了可可能引入的數(shù)值偏差。Flash Attention 是一種廣泛用于加速注意力機制的技術(shù),通常被認為是 Transformer 模型中的系統(tǒng)瓶頸。Flash Attention 在提高速度和減少內(nèi)存訪問量的同時,也依賴于算法優(yōu)化,而算法優(yōu)化有可能導致數(shù)值偏差的增加。

研究者假設添加重新縮放因子(rescaling factors )可能會引入無意的近似,導致數(shù)值折衷,這可能會在后續(xù)影響訓練穩(wěn)定性。

他們在多模態(tài)文本到圖像工作負載的背景下分析了 Flash Attention,以確定 Flash Attention 與其基線之間數(shù)值偏差的潛在重要性。最終,他們引入了一個框架來量化訓練優(yōu)化的數(shù)值偏差及其下游影響。

研究者在數(shù)值偏差量化上主要作出了以下兩點貢獻:

(1)設計了一個微基準來分離數(shù)值精度對數(shù)值偏差的影響。

研究者所設計的微基準作為一種技術(shù),用于衡量和量化傳統(tǒng)黑盒優(yōu)化(如 Flash Attention)所導致的數(shù)值偏差。通過擾動通常在提供的內(nèi)核中不可用的方面,他們開創(chuàng)性地發(fā)現(xiàn)在低數(shù)值精度(BF16)下,與 Baseline Attention 相比,F(xiàn)lash Attention 的數(shù)值偏差大約高出一個數(shù)量級。

(2)基于 Wasserstein Distance 度量進行了數(shù)據(jù)驅(qū)動的分析。

通過該分析,研究者將觀察到的數(shù)值偏差置于上下文,并為其對下游模型屬性的影響形成一個上限(upper bound)。在研究者的案例研究中,他們能夠限制觀察到的數(shù)值偏差的影響,并發(fā)現(xiàn):「Flash Attention 引入的模型權(quán)重偏差大約為低精度訓練的 1/2 至 1/5 倍。」

這項研究強調(diào)了開發(fā)一種原則性方法的重要性:「不僅要量化,而且要將訓練優(yōu)化對數(shù)值偏差的影響置于上下文中?!雇ㄟ^構(gòu)建代理(proxies)來將數(shù)值偏差置于上下文中,旨在推斷通常難以衡量的下游模型效果(即訓練不穩(wěn)定性)的可能性。

實驗方法

研究者首先開發(fā)了一個微基準來分離并研究 Flash Attention 引起的數(shù)值偏差。如圖 2 所示,他們通過對 Flash Attention 進行數(shù)值上的重新實現(xiàn),以分析不同的數(shù)值精度,并在算法的每個步驟應用潛在的優(yōu)化措施。

Flash Attention穩(wěn)定嗎?Meta、哈佛發(fā)現(xiàn)其模型權(quán)重偏差呈現(xiàn)數(shù)量級波動

圖 2: 微基準設計摘要。

這是必要的,因為 Flash Attention 內(nèi)核目前僅支持 FP16 和 BF16 數(shù)值格式。該內(nèi)核還是 CUDA 代碼的包裝 API 調(diào)用,這使得擾動算法以檢查數(shù)值偏差的影響變得具有挑戰(zhàn)性。

相比之下,他們的微基準設計允許在算法內(nèi)部進行精度輸入和修改。研究者將微基準與原始的 Flash Attention kernel 進行了驗證。

他們進一步設計了一種技術(shù),以比較模型執(zhí)行過程中每個步驟的 Attention 矩陣的輸出。并修改了模型代碼,每次調(diào)用注意力時都計算 Baseline Attention 和 Flash Attention,這允許對相同的輸入矩陣進行精確的輸出矩陣比較。

為了將其置于上下文中,研究者還通過相同和獨立的訓練運行,使用 Max difference 和 Wasserstein Distance 度量來量化模型權(quán)重在整個訓練過程中的差異。

對于訓練實驗,研究者則使用一種將文本輸入轉(zhuǎn)換為圖像的生成式 AI workload(即文本到圖像模型)。他們使用 Shutterstock 數(shù)據(jù)集重新訓練模型,并在一組英偉達 80GB A100 GPU 集群上運行此實驗。

通過微基準量化數(shù)值偏差

研究者首先分析了 Flash Attention 在前向傳遞過程中的影響。他們利用微基準測試,在隨機初始化查詢、鍵、值向量相同的情況下,檢驗不同數(shù)值精度對 Attention 計算的輸出矩陣的影響。

正如圖 3 所示,當研究者使用從 BF16 到 FP64 變化的不同數(shù)值格式時,F(xiàn)lash Attention 和 Baseline Attention 之間的數(shù)值偏差隨著尾數(shù)位數(shù)的增加而減小。這表明數(shù)值差異是由于較少的尾數(shù)位數(shù)所固有的近似造成的。

Flash Attention穩(wěn)定嗎?Meta、哈佛發(fā)現(xiàn)其模型權(quán)重偏差呈現(xiàn)數(shù)量級波動

圖 3:數(shù)值格式對于 Flash Attention 的數(shù)值偏差所產(chǎn)生的效果。

之后,研究者為進行標準比較,在 FP64 數(shù)值格式下的 Baseline Attention 設置了「黃金值」,然后將不同數(shù)值格式下的 Attention 輸出與該值進行了比較(如圖 4 所示)。

Flash Attention穩(wěn)定嗎?Meta、哈佛發(fā)現(xiàn)其模型權(quán)重偏差呈現(xiàn)數(shù)量級波動

圖 4:FP64 下 Baseline Attention「黃金值」的比較。

結(jié)果表明,F(xiàn)lash Attention 的數(shù)值偏差大約是在 BF16 下 Baseline 的 10 倍。

為了進一步分析這種觀察到的數(shù)值偏差,研究者保持 tile 大小和 SRAM 大小不變的同時,掃描了矩陣的序列長度(如圖 5 所示)。

Flash Attention穩(wěn)定嗎?Meta、哈佛發(fā)現(xiàn)其模型權(quán)重偏差呈現(xiàn)數(shù)量級波動

圖 5: 序列長度對 Flash Attention 數(shù)值偏差的影響。

如圖所示,隨著序列長度的增加,無論是通過(a)最大差異上限的測量,還是通過(b)差異的平均值和標準差的測量,F(xiàn)lash Attention 和 Baseline Attention 之間的數(shù)值偏差都在增加。

除此之外,研究者還利用微基準設計進行不同優(yōu)化的實驗,以便更好地了解數(shù)值偏差的影響(如圖 6 所示)。

圖 6a 顯示了調(diào)換 block 維數(shù)的順序如何導致 Flash Attention 和 Baseline Attention 之間的數(shù)值差異增大。圖 6b 中的其他擾動,比如限制 tile 大小為正方形,不會對數(shù)值偏差產(chǎn)生影響。圖 6c 表明了 block/tile 大小越大,數(shù)值偏差越小。

Flash Attention穩(wěn)定嗎?Meta、哈佛發(fā)現(xiàn)其模型權(quán)重偏差呈現(xiàn)數(shù)量級波動

圖 6: 算法的改變及其對觀察到的數(shù)值偏差的影響。

通過權(quán)重差異來了解數(shù)值偏差

雖然在前向傳遞過程中,F(xiàn)lash Attention 可能會導致 Attention 輸出的數(shù)值偏差,但這項研究的最終目標是確定這是否會在模型訓練過程中產(chǎn)生任何影響,以研究它是否會導致訓練的不穩(wěn)定性。

因此,研究者希望量化 Flash Attention 是否在訓練過程中改變了模型,即上文觀察到的 Attention 輸出差異是否反映在訓練過程中更新的模型權(quán)重中。

研究者利用兩個指標來衡量使用 Baseline Attention 訓練的模型與使用 Flash Attention 訓練的模型之間的模型權(quán)重差異。首先計算最大差異,即找出權(quán)重矩陣之間差異的絕對值并取最大值,從而得出偏差的上限,如下所示:

Flash Attention穩(wěn)定嗎?Meta、哈佛發(fā)現(xiàn)其模型權(quán)重偏差呈現(xiàn)數(shù)量級波動

雖然最大差值提供了數(shù)值偏差的上限,但它沒有考慮到每個矩陣的分布情況。因此,研究者通過 Wasserstein Distance 來量化權(quán)重差異,這是衡量張量之間相似性的常用度量。雖然在計算上稍顯復雜,但 Wasserstein Distance 包含了張量分布的形狀信息以衡量相似性。計算公式概述如下:

Flash Attention穩(wěn)定嗎?Meta、哈佛發(fā)現(xiàn)其模型權(quán)重偏差呈現(xiàn)數(shù)量級波動

數(shù)值越低,表明矩陣之間的相似度越高。

利用這兩個指標,研究者隨后量化了在整個訓練過程中與 Baseline Attention 相比,F(xiàn)lash Attention 的模型權(quán)重是如何變化的:

Flash Attention穩(wěn)定嗎?Meta、哈佛發(fā)現(xiàn)其模型權(quán)重偏差呈現(xiàn)數(shù)量級波動

根據(jù) Wasserstein Distance 和 Max Difference 這兩個指標,在整個訓練過程中,F(xiàn)lash Attention 的加入確實改變了模型權(quán)重,而且隨著訓練的繼續(xù),這種差異只會越來越大,這表明了使用 Flash Attention 訓練的模型與使用 Baseline Attention 訓練的相同模型收斂到了不同的模型。

然而,訓練是一個隨機過程,某些模型結(jié)構(gòu)的改變可能會在下游效應和準確性方面產(chǎn)生相似的結(jié)果。即使使用 Flash Attention 和 Baseline Attention 訓練的模型權(quán)重不同,這也是值得關注的。

完全訓練模型并評估準確性是一項成本昂貴且資源密集的任務,特別是對于訓練需要數(shù)月的大模型來說。

研究者通過配置一個 proxy 來探尋:

(a) 這些權(quán)重變化的意義有多大?

(b) 能否將其與其他廣泛采用的訓練優(yōu)化中的標準權(quán)重變化聯(lián)系起來?

為了實現(xiàn)這一目標,研究者設計了一系列實驗來比較在不同場景下,訓練過程中的權(quán)重差異是如何變化的。

除了對比使用 Flash Attention 和 Baseline Attention 的訓練過程外,他們還量化了在訓練開始時權(quán)重被初始化為不同隨機值的相同訓練過程中的權(quán)重差異。這提供了一個界限,因為隨機權(quán)重初始化是一種常用的技術(shù),并且通常會產(chǎn)生等效的結(jié)果。

此外,研究者還測量了使用不同精度訓練的模型權(quán)重的變化。數(shù)值精度(即 FP16 與 FP32)有可能導致下游變化,這作為確定了 Flash Attention 權(quán)重重要性的一個上限。

如圖 8 所示,可以發(fā)現(xiàn),使用 Flash Attention 的模型權(quán)重偏差變化率與不同模型初始化的權(quán)重偏差變化率相當或更小(注意紅色和藍色曲線的斜率)。

此外,使用 FP16 與 FP32 時的權(quán)重變化率比不同模型初始化時的權(quán)重變化率更高,變化也更大。

這些結(jié)果提供了一個 proxy,并表明:「雖然 Flash Attention 會出現(xiàn)數(shù)值偏差,但它會被隨機模型初始化和低精度訓練所限制。而且所引入的模型權(quán)重偏差大約是低精度訓練時的 1/2 至 1/5 倍?!?/span>

Flash Attention穩(wěn)定嗎?Meta、哈佛發(fā)現(xiàn)其模型權(quán)重偏差呈現(xiàn)數(shù)量級波動

圖 8: 使用 Wasserstein Distance metric 測量的訓練過程中的相對權(quán)重差異。

更多研究細節(jié),可參考原論文。

以上是Flash Attention穩(wěn)定嗎?Meta、哈佛發(fā)現(xiàn)其模型權(quán)重偏差呈現(xiàn)數(shù)量級波動的詳細內(nèi)容。更多信息請關注PHP中文網(wǎng)其他相關文章!

本站聲明
本文內(nèi)容由網(wǎng)友自發(fā)貢獻,版權(quán)歸原作者所有,本站不承擔相應法律責任。如您發(fā)現(xiàn)有涉嫌抄襲侵權(quán)的內(nèi)容,請聯(lián)系admin@php.cn

熱AI工具

Undress AI Tool

Undress AI Tool

免費脫衣服圖片

Undresser.AI Undress

Undresser.AI Undress

人工智能驅(qū)動的應用程序,用于創(chuàng)建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用于從照片中去除衣服的在線人工智能工具。

Clothoff.io

Clothoff.io

AI脫衣機

Video Face Swap

Video Face Swap

使用我們完全免費的人工智能換臉工具輕松在任何視頻中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的代碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

功能強大的PHP集成開發(fā)環(huán)境

Dreamweaver CS6

Dreamweaver CS6

視覺化網(wǎng)頁開發(fā)工具

SublimeText3 Mac版

SublimeText3 Mac版

神級代碼編輯軟件(SublimeText3)

熱門話題

Laravel 教程
1601
29
PHP教程
1502
276
字節(jié)跳動剪映推出 SVIP 超級會員:連續(xù)包年 499 元,提供多種 AI 功能 字節(jié)跳動剪映推出 SVIP 超級會員:連續(xù)包年 499 元,提供多種 AI 功能 Jun 28, 2024 am 03:51 AM

本站6月27日消息,剪映是由字節(jié)跳動旗下臉萌科技開發(fā)的一款視頻剪輯軟件,依托于抖音平臺且基本面向該平臺用戶制作短視頻內(nèi)容,并兼容iOS、安卓、Windows、MacOS等操作系統(tǒng)。剪映官方宣布會員體系升級,推出全新SVIP,包含多種AI黑科技,例如智能翻譯、智能劃重點、智能包裝、數(shù)字人合成等。價格方面,剪映SVIP月費79元,年費599元(本站注:折合每月49.9元),連續(xù)包月則為59元每月,連續(xù)包年為499元每年(折合每月41.6元)。此外,剪映官方還表示,為提升用戶體驗,向已訂閱了原版VIP

使用Rag和Sem-Rag提供上下文增強AI編碼助手 使用Rag和Sem-Rag提供上下文增強AI編碼助手 Jun 10, 2024 am 11:08 AM

通過將檢索增強生成和語義記憶納入AI編碼助手,提升開發(fā)人員的生產(chǎn)力、效率和準確性。譯自EnhancingAICodingAssistantswithContextUsingRAGandSEM-RAG,作者JanakiramMSV。雖然基本AI編程助手自然有幫助,但由于依賴對軟件語言和編寫軟件最常見模式的總體理解,因此常常無法提供最相關和正確的代碼建議。這些編碼助手生成的代碼適合解決他們負責解決的問題,但通常不符合各個團隊的編碼標準、慣例和風格。這通常會導致需要修改或完善其建議,以便將代碼接受到應

七個很酷的GenAI & LLM技術(shù)性面試問題 七個很酷的GenAI & LLM技術(shù)性面試問題 Jun 07, 2024 am 10:06 AM

想了解更多AIGC的內(nèi)容,請訪問:51CTOAI.x社區(qū)https://www.51cto.com/aigc/譯者|晶顏審校|重樓不同于互聯(lián)網(wǎng)上隨處可見的傳統(tǒng)問題庫,這些問題需要跳出常規(guī)思維。大語言模型(LLM)在數(shù)據(jù)科學、生成式人工智能(GenAI)和人工智能領域越來越重要。這些復雜的算法提升了人類的技能,并在諸多行業(yè)中推動了效率和創(chuàng)新性的提升,成為企業(yè)保持競爭力的關鍵。LLM的應用范圍非常廣泛,它可以用于自然語言處理、文本生成、語音識別和推薦系統(tǒng)等領域。通過學習大量的數(shù)據(jù),LLM能夠生成文本

微調(diào)真的能讓LLM學到新東西嗎:引入新知識可能讓模型產(chǎn)生更多的幻覺 微調(diào)真的能讓LLM學到新東西嗎:引入新知識可能讓模型產(chǎn)生更多的幻覺 Jun 11, 2024 pm 03:57 PM

大型語言模型(LLM)是在巨大的文本數(shù)據(jù)庫上訓練的,在那里它們獲得了大量的實際知識。這些知識嵌入到它們的參數(shù)中,然后可以在需要時使用。這些模型的知識在訓練結(jié)束時被“具體化”。在預訓練結(jié)束時,模型實際上停止學習。對模型進行對齊或進行指令調(diào)優(yōu),讓模型學習如何充分利用這些知識,以及如何更自然地響應用戶的問題。但是有時模型知識是不夠的,盡管模型可以通過RAG訪問外部內(nèi)容,但通過微調(diào)使用模型適應新的領域被認為是有益的。這種微調(diào)是使用人工標注者或其他llm創(chuàng)建的輸入進行的,模型會遇到額外的實際知識并將其整合

你所不知道的機器學習五大學派 你所不知道的機器學習五大學派 Jun 05, 2024 pm 08:51 PM

機器學習是人工智能的重要分支,它賦予計算機從數(shù)據(jù)中學習的能力,并能夠在無需明確編程的情況下改進自身能力。機器學習在各個領域都有著廣泛的應用,從圖像識別和自然語言處理到推薦系統(tǒng)和欺詐檢測,它正在改變我們的生活方式。機器學習領域存在著多種不同的方法和理論,其中最具影響力的五種方法被稱為“機器學習五大派”。這五大派分別為符號派、聯(lián)結(jié)派、進化派、貝葉斯派和類推學派。1.符號學派符號學(Symbolism),又稱為符號主義,強調(diào)利用符號進行邏輯推理和表達知識。該學派認為學習是一種逆向演繹的過程,通過已有的

為大模型提供全新科學復雜問答基準與測評體系,UNSW、阿貢、芝加哥大學等多家機構(gòu)聯(lián)合推出SciQAG框架 為大模型提供全新科學復雜問答基準與測評體系,UNSW、阿貢、芝加哥大學等多家機構(gòu)聯(lián)合推出SciQAG框架 Jul 25, 2024 am 06:42 AM

編輯|ScienceAI問答(QA)數(shù)據(jù)集在推動自然語言處理(NLP)研究發(fā)揮著至關重要的作用。高質(zhì)量QA數(shù)據(jù)集不僅可以用于微調(diào)模型,也可以有效評估大語言模型(LLM)的能力,尤其是針對科學知識的理解和推理能力。盡管當前已有許多科學QA數(shù)據(jù)集,涵蓋了醫(yī)學、化學、生物等領域,但這些數(shù)據(jù)集仍存在一些不足。其一,數(shù)據(jù)形式較為單一,大多數(shù)為多項選擇題(multiple-choicequestions),它們易于進行評估,但限制了模型的答案選擇范圍,無法充分測試模型的科學問題解答能力。相比之下,開放式問答

VSCode 前端開發(fā)新紀元:12款 AI 代碼助手大推薦 VSCode 前端開發(fā)新紀元:12款 AI 代碼助手大推薦 Jun 11, 2024 pm 07:47 PM

在前端開發(fā)的世界里,VSCode以其強大的功能和豐富的插件生態(tài),成為了無數(shù)開發(fā)者的首選工具。而近年來,隨著人工智能技術(shù)的飛速發(fā)展,VSCode上的AI代碼助手也如雨后春筍般涌現(xiàn),極大地提升了開發(fā)者的編碼效率。VSCode上的AI代碼助手,如雨后春筍般涌現(xiàn),極大地提升了開發(fā)者的編碼效率。它利用人工智能技術(shù),能夠智能地分析代碼,提供精準的代碼補全、自動糾錯、語法檢查等功能,極大地減少了開發(fā)者在編碼過程中的錯誤和繁瑣的手工工作。有今天,就為大家推薦12款VSCode前端開發(fā)AI代碼助手,助你在編程之路

SK 海力士 8 月 6 日將展示 AI 相關新品:12 層 HBM3E、321-high NAND 等 SK 海力士 8 月 6 日將展示 AI 相關新品:12 層 HBM3E、321-high NAND 等 Aug 01, 2024 pm 09:40 PM

本站8月1日消息,SK海力士今天(8月1日)發(fā)布博文,宣布將出席8月6日至8日,在美國加利福尼亞州圣克拉拉舉行的全球半導體存儲器峰會FMS2024,展示諸多新一代產(chǎn)品。未來存儲器和存儲峰會(FutureMemoryandStorage)簡介前身是主要面向NAND供應商的閃存峰會(FlashMemorySummit),在人工智能技術(shù)日益受到關注的背景下,今年重新命名為未來存儲器和存儲峰會(FutureMemoryandStorage),以邀請DRAM和存儲供應商等更多參與者。新產(chǎn)品SK海力士去年在

See all articles