国产av日韩一区二区三区精品,成人性爱视频在线观看,国产,欧美,日韩,一区,www.成色av久久成人,2222eeee成人天堂

首頁 科技週邊 人工智慧 線性化駱駝

線性化駱駝

Feb 25, 2025 pm 06:38 PM

>本文探討了在Llama-3.2-1b語言模型中使用混合方法結合了軟馬克斯滑動窗口和線性注意力的混合方法,以替代軟瑪克斯自我發(fā)作。 這旨在提高推理速度而不會出現(xiàn)明顯的準確性損失,從而降低了使用大型語言模型的成本。 該項目基於“ LOLCAT:大型語言模型的低排名線性化”,“基於Mamba的語言模型的經驗研究”和“線性化注意”的研究。 它重點是在預先訓練的美洲駝模型中替換50%的自我發(fā)項層。

該過程分為四個部分:>

    混合注意區(qū)域:本節(jié)詳細介紹了使用可學習的因素來平衡其貢獻的自定義注意塊,該定制注意力塊結合了滑動窗口和線性注意機制。 滑動窗口方法將注意力限制在指定的窗口大小上,從而提高效率。線性注意,應用於較早的令牌,進一步優(yōu)化了計算。
  • >

    注意轉移:
  • 此階段利用“ lolcats”方法。 原始Llama注意塊的權重用於初始化混合塊。 訓練涉及通過訓練輸入的前向通行證,計算原始塊和混合塊輸出之間的MSE損失,並對混合塊進行微調以模仿原始的行為。
  • > lora finetuning:

    低級別適應性(lora)用於微調較大的美洲駝模型中的雜種注意塊。 此步驟著重於訓練混合塊的參數(shù),同時凍結其他參數(shù),並使用Dolly-15K數(shù)據(jù)集優(yōu)化文本生成模型。
  • 評估:與原始Llama-3.2-1b模型評估混合模型的性能。 基準測試側重於推理速度(令牌每秒和秒)和準確性(使用MMLU基準測試)。

  • >結果表明,混合模型提供了顯著的速度改進,尤其是對於更長的序列,同時保持了MMLU基準測試的可比精度。 但是,該研究還強調了GPU硬件對速度和準確性測量的重大影響。 建議進一步的研究以探索不同硬件對基準結果的影響。

    >

Linearizing Llama

Linearizing Llama結論強調了混合注意機製作為提高LLM推理速度的成本效益方法的潛力。 該研究還指出,在評估模型性能時,需要進一步優(yōu)化線性注意體系結構以及考慮硬件限制的重要性。 該項目的代碼可在

linearizing-llama-3.2-1b>。

>許可參考:

[1] fineweb-edu:odc-by v1.0 [2] Dolly-15K:CC BY-SA 3.0 [3] MMLU:麻省理工學院許可

以上是線性化駱駝的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發(fā)現(xiàn)涉嫌抄襲或侵權的內容,請聯(lián)絡admin@php.cn

熱AI工具

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創(chuàng)建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發(fā)環(huán)境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發(fā)工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

Laravel 教程
1600
29
PHP教程
1502
276
Kimi K2:最強大的開源代理模型 Kimi K2:最強大的開源代理模型 Jul 12, 2025 am 09:16 AM

還記得今年早些時候破壞了Genai行業(yè)的大量開源中國模型嗎?儘管DeepSeek佔據(jù)了大多數(shù)頭條新聞,但Kimi K1.5是列表中的重要名字之一。模型很酷。

Grok 4 vs Claude 4:哪個更好? Grok 4 vs Claude 4:哪個更好? Jul 12, 2025 am 09:37 AM

到2025年中期,AI“軍備競賽”正在加熱,XAI和Anthropic都發(fā)布了他們的旗艦車型Grok 4和Claude 4。這兩種模型處於設計理念和部署平臺的相反端,但他們卻在

今天已經在我們中間走了10個驚人的人形機器人 今天已經在我們中間走了10個驚人的人形機器人 Jul 16, 2025 am 11:12 AM

但是我們可能甚至不必等10年就可以看到一個。實際上,可以被認為是真正有用的,類人類機器的第一波。 近年來,有許多原型和生產模型從T中走出來

上下文工程是' new'及時的工程 上下文工程是' new'及時的工程 Jul 12, 2025 am 09:33 AM

直到上一年,迅速的工程被認為是與大語言模型(LLM)互動的關鍵技能。然而,最近,LLM在推理和理解能力方面已經顯著提高。自然,我們的期望

Leia的浸入式移動應用將3D深度帶入日常照片 Leia的浸入式移動應用將3D深度帶入日常照片 Jul 09, 2025 am 11:17 AM

基於Leia專有的神經深度引擎,應用程序流程靜止圖像,並添加了自然深度以及模擬運動(例如Pans,Zooms和Alallax Effects),以創(chuàng)建簡短的視頻捲軸,從而給人以踏入SCE的印象

7種AI代理的7種類型是什麼? 7種AI代理的7種類型是什麼? Jul 11, 2025 am 11:08 AM

想像一些複雜的東西,例如AI引擎準備提供有關米蘭新服裝系列的詳細反饋,或者自動市場分析用於全球運營的企業(yè),或者智能係統(tǒng)管理大型車隊。

這些AI模型沒有學習語言,他們學習了策略 這些AI模型沒有學習語言,他們學習了策略 Jul 09, 2025 am 11:16 AM

倫敦國王學院和牛津大學的研究人員的一項新研究分享了Openai,Google和Anthropic在基於迭代囚犯的困境基於的cutthroat競爭中一起投擲的結果。這是沒有的

隱藏的命令危機:研究人員遊戲AI將發(fā)布 隱藏的命令危機:研究人員遊戲AI將發(fā)布 Jul 13, 2025 am 11:08 AM

科學家發(fā)現(xiàn)了一種巧妙而令人震驚的方法來繞過系統(tǒng)。 2025年7月標誌著一項精心製作的戰(zhàn)略,研究人員將無形的指示插入其學術意見 - 這些秘密指令是尾巴

See all articles