国产av日韩一区二区三区精品,成人性爱视频在线观看,国产,欧美,日韩,一区,www.成色av久久成人,2222eeee成人天堂

目錄
KAN卷積
結(jié)論
首頁 科技週邊 人工智慧 替代MLP的KAN,被開源專案擴(kuò)展到卷積了

替代MLP的KAN,被開源專案擴(kuò)展到卷積了

Jun 01, 2024 pm 10:03 PM
模型 定理

本月初,來自 MIT 等機(jī)構(gòu)的研究者提出了一種非常有潛力的 MLP 替代方法 ——KAN。

KAN在準(zhǔn)確性和可解釋性方面表現(xiàn)優(yōu)於MLP。而且它能以非常少的參數(shù)量勝過以更大參數(shù)量運行的MLP。例如,作者表示,他們用KAN以更小的網(wǎng)路和更高的自動化程度重現(xiàn)了DeepMind的結(jié)果。具體來說,DeepMind的MLP有大約300,000個參數(shù),而KAN只有約200個參數(shù)。

KAN 與 MLP 一樣具有強大的數(shù)學(xué)基礎(chǔ),MLP 基於通用逼近定理,而 KAN 基於 Kolmogorov-Arnold 表示定理。

如下圖所示,KAN 在邊上具有激活函數(shù),而 MLP 在節(jié)點上具有激活函數(shù)。 KAN 似乎比 MLP 的參數(shù)效率更高,但每個 KAN 層比 MLP 層擁有更多的參數(shù)。 圖片: [圖1:示意圖] 簡要解釋: KAN 是一種基於邊的神經(jīng)網(wǎng)路結(jié)構(gòu),每個節(jié)點都有邊的權(quán)重和活化函數(shù)。它透過邊的傳播來實現(xiàn)訊息的傳遞和更新。 MLP 是一種基於節(jié)點的神經(jīng)網(wǎng)路結(jié)構(gòu),每個節(jié)點都有輸入的

替代MLP的KAN,被開源專案擴(kuò)展到卷積了

最近,有研究者將KAN 創(chuàng)新框架的概念擴(kuò)展到卷積神經(jīng)網(wǎng)絡(luò),將卷積的經(jīng)典線性變換改為每個像素中可學(xué)習(xí)的非線性激活函數(shù),提出並開源KAN 卷積(CKAN)。

替代MLP的KAN,被開源專案擴(kuò)展到卷積了

計畫地址:https://github.com/AntonioTepsich/Convolutional-KANs

KAN卷積

KAN 卷積與卷積非常相似,但不是在內(nèi)核和影像中對應(yīng)像素之間應(yīng)用點積,而是對每個元素應(yīng)用可學(xué)習(xí)的非線性激活函數(shù),然後將它們相加。 KAN 卷積的內(nèi)核當(dāng)於 4 個輸入和 1 個輸出神經(jīng)元的 KAN 線性層。對於每個輸入 i,應(yīng)用 ?_i 可學(xué)習(xí)函數(shù),該卷積步驟的結(jié)果像素是 ?_i (x_i) 的總和。

替代MLP的KAN,被開源專案擴(kuò)展到卷積了

KAN 磁碟區(qū)中的參數(shù)

假設(shè)有一個KxK 內(nèi)核,對於該矩陣的每個元素,都有一個?,其參數(shù)計數(shù)為:gridsize 1,??定義為:

替代MLP的KAN,被開源專案擴(kuò)展到卷積了

##這為激活函數(shù)b 提供了更多的可表達(dá)性,線性層的參數(shù)計數(shù)為gridsize 2。因此,KAN 卷積總共有 K^2??(gridsize 2) 個參數(shù),而普通卷積只有 K^2??。

初步評估

作者測試過的不同架構(gòu)有:

  • 連接到KAN 線性層的KAN 卷積層(KKAN)
  • 與MLP 相連的KAN 卷積層(CKAN)
  • 在卷積之間進(jìn)行批量歸一化的CKAN (CKAN_BN)
  • ConvNet(連接到MLP 的經(jīng)典卷積)(ConvNet)
  • 簡單MLP

替代MLP的KAN,被開源專案擴(kuò)展到卷積了

作者表示,KAN 卷積的實作是一個很有前景的想法,儘管它仍處於早期階段。他們進(jìn)行了一些初步實驗,以評估 KAN 卷積的表現(xiàn)。

值得注意的是,之所以公佈這些「初步」結(jié)果,是因為他們希望盡快向外界介紹這個想法,並推動社區(qū)更廣泛的研究。

替代MLP的KAN,被開源專案擴(kuò)展到卷積了

卷積層中列表每個元素都包含卷積數(shù)和對應(yīng)的核心大小。

基於 28x28 MNIST 資料集,可以觀察到 KANConv & MLP 模型與 ConvNet(大)相比達(dá)到了可接受的準(zhǔn)確度。然而,不同之處在於 KANConv & MLP 所需的參數(shù)數(shù)量是標(biāo)準(zhǔn) ConvNet 所需的參數(shù)數(shù)量的 7 倍。此外,KKAN 的準(zhǔn)確率比 ConvNet Medium 低 0.04,而參數(shù)數(shù)量(94k 對 157k)幾乎只有 ConvNet Medium 的一半,這顯示了該架構(gòu)的潛力。我們還需要在更多的資料集上進(jìn)行實驗,才能對此得出結(jié)論。

在接下來的幾天和幾周里,作者還將徹底調(diào)整模型和用於比較的模型的超參數(shù)。雖然已經(jīng)嘗試了一些超參數(shù)和架構(gòu)的變化,但這只是啟發(fā)式的,並沒有採取任何精確的方法。由於計算能力和時間的原因,他們還沒有使用大型或更複雜的數(shù)據(jù)集,並正在努力解決這個問題。

未來,作者將在更複雜的資料集上進(jìn)行實驗,這意味著 KANS 的參數(shù)量將會增加,因為需要實現(xiàn)更多的 KAN 卷積層。

結(jié)論

目前,與傳統(tǒng)卷積網(wǎng)路相比,作者表示並沒有看到KAN 卷積網(wǎng)路的效能有顯著提高。他們分析認(rèn)為,這是由於使用的是簡單資料集和模型,與嘗試過的最佳架構(gòu)(ConvNet Big,基於規(guī)模因素,這種比較是不公平的)相比,該架構(gòu)的優(yōu)勢在於它對參數(shù)的要求要少得多。

在2 個相同的捲積層和KAN 卷積層與最後連接的相同MLP 之間進(jìn)行的比較顯示,經(jīng)典方法略勝一籌,準(zhǔn)確率提高了0.06,而KAN 卷積層和KAN 線性層的參數(shù)數(shù)幾乎只有經(jīng)典方法的一半,準(zhǔn)確??率卻降低了0.04。

作者表示,隨著模型和資料集複雜度的增加,KAN 卷積網(wǎng)路的效能應(yīng)該會有所提高。同時,隨著輸入維數(shù)的增加,模型的參數(shù)數(shù)量也會成長得更快。

以上是替代MLP的KAN,被開源專案擴(kuò)展到卷積了的詳細(xì)內(nèi)容。更多資訊請關(guān)注PHP中文網(wǎng)其他相關(guān)文章!

本網(wǎng)站聲明
本文內(nèi)容由網(wǎng)友自願投稿,版權(quán)歸原作者所有。本站不承擔(dān)相應(yīng)的法律責(zé)任。如發(fā)現(xiàn)涉嫌抄襲或侵權(quán)的內(nèi)容,請聯(lián)絡(luò)admin@php.cn

熱AI工具

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅(qū)動的應(yīng)用程序,用於創(chuàng)建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發(fā)環(huán)境

Dreamweaver CS6

Dreamweaver CS6

視覺化網(wǎng)頁開發(fā)工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

AI顛覆數(shù)學(xué)研究!菲爾茲獎得主、華裔數(shù)學(xué)家領(lǐng)銜11篇頂刊論文|陶哲軒轉(zhuǎn)贊 AI顛覆數(shù)學(xué)研究!菲爾茲獎得主、華裔數(shù)學(xué)家領(lǐng)銜11篇頂刊論文|陶哲軒轉(zhuǎn)贊 Apr 09, 2024 am 11:52 AM

AI,的確正在改變數(shù)學(xué)。最近,一直十分關(guān)注這個議題的陶哲軒,轉(zhuǎn)發(fā)了最近一期的《美國數(shù)學(xué)學(xué)會通報》(BulletinoftheAmericanMathematicalSociety)。圍繞著「機(jī)器會改變數(shù)學(xué)嗎?」這個話題,許多數(shù)學(xué)家發(fā)表了自己的觀點,全程火花四射,內(nèi)容硬核,精彩紛呈。作者陣容強大,包括菲爾茲獎得主AkshayVenkatesh、華裔數(shù)學(xué)家鄭樂雋、紐大電腦科學(xué)家ErnestDavis等多位業(yè)界知名學(xué)者。 AI的世界已經(jīng)發(fā)生了天翻地覆的變化,要知道,其中許多文章是在一年前提交的,而在這一

你好,電動Atlas!波士頓動力機(jī)器人復(fù)活,180度詭異動作嚇到馬斯克 你好,電動Atlas!波士頓動力機(jī)器人復(fù)活,180度詭異動作嚇到馬斯克 Apr 18, 2024 pm 07:58 PM

波士頓動力Atlas,正式進(jìn)入電動機(jī)器人時代!昨天,液壓Atlas剛「含淚」退出歷史舞臺,今天波士頓動力就宣布:電動Atlas上崗??磥恚谏逃萌诵螜C(jī)器人領(lǐng)域,波士頓動力是下定決心要跟特斯拉硬剛一把了。新影片放出後,短短十幾小時內(nèi),就已經(jīng)有一百多萬觀看。舊人離去,新角色登場,這是歷史的必然。毫無疑問,今年是人形機(jī)器人的爆發(fā)年。網(wǎng)友銳評:機(jī)器人的進(jìn)步,讓今年看起來像人類的開幕式動作、自由度遠(yuǎn)超人類,但這真不是恐怖片?影片一開始,Atlas平靜地躺在地上,看起來應(yīng)該是仰面朝天。接下來,讓人驚掉下巴

全球最強開源 MoE 模型來了,中文能力比肩 GPT-4,價格僅 GPT-4-Turbo 的近百分之一 全球最強開源 MoE 模型來了,中文能力比肩 GPT-4,價格僅 GPT-4-Turbo 的近百分之一 May 07, 2024 pm 04:13 PM

想像一下,一個人工智慧模型,不僅擁有超越傳統(tǒng)運算的能力,還能以更低的成本實現(xiàn)更有效率的效能。這不是科幻,DeepSeek-V2[1],全球最強開源MoE模型來了。 DeepSeek-V2是一個強大的專家混合(MoE)語言模型,具有訓(xùn)練經(jīng)濟(jì)、推理高效的特點。它由236B個參數(shù)組成,其中21B個參數(shù)用於啟動每個標(biāo)記。與DeepSeek67B相比,DeepSeek-V2效能更強,同時節(jié)省了42.5%的訓(xùn)練成本,減少了93.3%的KV緩存,最大生成吞吐量提高到5.76倍。 DeepSeek是一家探索通用人工智

Google狂喜:JAX性能超越Pytorch、TensorFlow!或成GPU推理訓(xùn)練最快選擇 Google狂喜:JAX性能超越Pytorch、TensorFlow!或成GPU推理訓(xùn)練最快選擇 Apr 01, 2024 pm 07:46 PM

谷歌力推的JAX在最近的基準(zhǔn)測試中表現(xiàn)已經(jīng)超過Pytorch和TensorFlow,7項指標(biāo)排名第一。而且測試並不是JAX性能表現(xiàn)最好的TPU上完成的。雖然現(xiàn)在在開發(fā)者中,Pytorch依然比Tensorflow更受歡迎。但未來,也許有更多的大型模型會基於JAX平臺進(jìn)行訓(xùn)練和運行。模型最近,Keras團(tuán)隊為三個後端(TensorFlow、JAX、PyTorch)與原生PyTorch實作以及搭配TensorFlow的Keras2進(jìn)行了基準(zhǔn)測試。首先,他們?yōu)樯墒胶头巧墒饺斯ぶ腔廴蝿?wù)選擇了一組主流

DualBEV:大幅超越BEVFormer、BEVDet4D,開卷! DualBEV:大幅超越BEVFormer、BEVDet4D,開卷! Mar 21, 2024 pm 05:21 PM

這篇論文探討了在自動駕駛中,從不同視角(如透視圖和鳥瞰圖)準(zhǔn)確檢測物體的問題,特別是如何有效地從透視圖(PV)到鳥瞰圖(BEV)空間轉(zhuǎn)換特徵,這一轉(zhuǎn)換是透過視覺轉(zhuǎn)換(VT)模組實施的?,F(xiàn)有的方法大致分為兩種策略:2D到3D和3D到2D轉(zhuǎn)換。 2D到3D的方法透過預(yù)測深度機(jī)率來提升密集的2D特徵,但深度預(yù)測的固有不確定性,尤其是在遠(yuǎn)處區(qū)域,可能會引入不準(zhǔn)確性。而3D到2D的方法通常使用3D查詢來採樣2D特徵,並透過Transformer學(xué)習(xí)3D和2D特徵之間對應(yīng)關(guān)係的注意力權(quán)重,這增加了計算和部署的

特斯拉機(jī)器人進(jìn)廠打工,馬斯克:手的自由度今年將達(dá)到22個! 特斯拉機(jī)器人進(jìn)廠打工,馬斯克:手的自由度今年將達(dá)到22個! May 06, 2024 pm 04:13 PM

特斯拉機(jī)器人Optimus最新影片出爐,已經(jīng)可以在工廠裡打工了。正常速度下,它分揀電池(特斯拉的4680電池)是這樣的:官方還放出了20倍速下的樣子——在小小的「工位」上,揀啊揀啊揀:這次放出的影片亮點之一在於Optimus在廠子裡完成這項工作,是完全自主的,全程沒有人為的干預(yù)。而且在Optimus的視角之下,它還可以把放歪了的電池重新?lián)炱饋矸胖?,主打一個自動糾錯:對於Optimus的手,英偉達(dá)科學(xué)家JimFan給出了高度的評價:Optimus的手是全球五指機(jī)器人裡最靈巧的之一。它的手不僅有觸覺

替代MLP的KAN,被開源專案擴(kuò)展到卷積了 替代MLP的KAN,被開源專案擴(kuò)展到卷積了 Jun 01, 2024 pm 10:03 PM

本月初,來自MIT等機(jī)構(gòu)的研究者提出了一種非常有潛力的MLP替代方法—KAN。 KAN在準(zhǔn)確性和可解釋性方面表現(xiàn)優(yōu)於MLP。而且它能以非常少的參數(shù)量勝過以更大參數(shù)量運行的MLP。例如,作者表示,他們用KAN以更小的網(wǎng)路和更高的自動化程度重現(xiàn)了DeepMind的結(jié)果。具體來說,DeepMind的MLP有大約300,000個參數(shù),而KAN只有約200個參數(shù)。 KAN與MLP一樣具有強大的數(shù)學(xué)基礎(chǔ),MLP基於通用逼近定理,而KAN基於Kolmogorov-Arnold表示定理。如下圖所示,KAN在邊上具

本地運作效能超越 OpenAI Text-Embedding-Ada-002 的 Embedding 服務(wù),太方便了! 本地運作效能超越 OpenAI Text-Embedding-Ada-002 的 Embedding 服務(wù),太方便了! Apr 15, 2024 am 09:01 AM

Ollama是一款超實用的工具,讓你能夠在本地輕鬆運行Llama2、Mistral、Gemma等開源模型。本文我將介紹如何使用Ollama實現(xiàn)對文本的向量化處理。如果你本地還沒有安裝Ollama,可以閱讀這篇文章。本文我們將使用nomic-embed-text[2]模型。它是一種文字編碼器,在短的上下文和長的上下文任務(wù)上,效能超越了OpenAItext-embedding-ada-002和text-embedding-3-small。啟動nomic-embed-text服務(wù)當(dāng)你已經(jīng)成功安裝好o

See all articles