国产av日韩一区二区三区精品,成人性爱视频在线观看,国产,欧美,日韩,一区,www.成色av久久成人,2222eeee成人天堂

目錄
1. 全連接網(wǎng)路(FCN)
#2. 卷積神經(jīng)網(wǎng)路(CNN)
2.1 CNN的架構(gòu)特點(diǎn)
2.2 CNN的用例
2.3 CNN對(duì)比FCN的優(yōu)勢(shì)
3. 循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)
3.1 RNN 的架構(gòu)特點(diǎn)
3.2 RNN的典型用例
3.3 RNN 與CNN 的比較優(yōu)勢(shì)
4. 長(zhǎng)短記憶神經(jīng)網(wǎng)路(LSTM)
LSTM對(duì)比於GRU和RNN的優(yōu)缺點(diǎn)
5. 閘控循環(huán)單元(GRU)
GRU對(duì)比LSTM 和RNN的優(yōu)缺點(diǎn)
6.Transformer
6.1 Transformer的架構(gòu)特點(diǎn)
6.2 Transformer的用例
6.2.1 語(yǔ)言領(lǐng)域
6.2.2 視覺(jué)領(lǐng)域
6.2.3 多模態(tài)任務(wù)
6.3 Transformer對(duì)比RNN/GRU/LSTM的優(yōu)缺點(diǎn)
7. 推理偏差
8. 小結(jié)
首頁(yè) 科技週邊 人工智慧 深度學(xué)習(xí)架構(gòu)的比較分析

深度學(xué)習(xí)架構(gòu)的比較分析

May 17, 2023 pm 04:34 PM
架構(gòu) 數(shù)據(jù) 深度學(xué)習(xí)

深度學(xué)習(xí)的概念源自於人工神經(jīng)網(wǎng)路的研究,含有多個(gè)隱藏層的多層感知器是一種深度學(xué)習(xí)結(jié)構(gòu)。深度學(xué)習(xí)透過(guò)組合低層特徵形成更抽象的高層表示,以表徵資料的類(lèi)別或特徵。它能夠發(fā)現(xiàn)資料的分佈式特徵表示。深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的一種,而機(jī)器學(xué)習(xí)是實(shí)現(xiàn)人工智慧的必經(jīng)之路。

那麼,各種深度學(xué)習(xí)的系統(tǒng)架構(gòu)之間有哪些差異呢?

1. 全連接網(wǎng)路(FCN)

完全連接網(wǎng)路(FCN)由一系列完全連接的層組成,每個(gè)層中的每個(gè)神經(jīng)元都連接到另一層中的每個(gè)神經(jīng)元。其主要優(yōu)點(diǎn)是“結(jié)構(gòu)不可知”,即不需要對(duì)輸入做出特殊的假設(shè)。雖然這種結(jié)構(gòu)不可知使得完全連接網(wǎng)絡(luò)非常廣泛適用,但是這樣的網(wǎng)絡(luò)傾向於比專(zhuān)門(mén)針對(duì)問(wèn)題空間結(jié)構(gòu)調(diào)整的特殊網(wǎng)絡(luò)表現(xiàn)更弱。

下圖顯示了一個(gè)多層深度的完全連接網(wǎng)路:

深度學(xué)習(xí)架構(gòu)的比較分析

#2. 卷積神經(jīng)網(wǎng)路(CNN)

卷積神經(jīng)網(wǎng)路(CNN)是一種多層神經(jīng)網(wǎng)路架構(gòu),主要用於影像處理應(yīng)用。 CNN架構(gòu)明確假定輸入具有空間維度(以及可選的深度維度),例如圖像,這允許將某些屬性編碼到模型架構(gòu)中。 Yann LeCun創(chuàng)建了第一個(gè)CNN,該架構(gòu)最初用於識(shí)別手寫(xiě)字元。

2.1 CNN的架構(gòu)特點(diǎn)

分解一下使用CNN的電腦視覺(jué)模型的技術(shù)細(xì)節(jié):

  • 模型的輸入:CNN模型的輸入通常是圖像或文字. CNN也可用於文本,但通常不怎麼使用。

圖像在這裡被表示為像素網(wǎng)格,就是由正整數(shù)組成的網(wǎng)格,每個(gè)數(shù)字都被分配一種顏色。

  • 模型的輸出:模型的輸出取決於它試圖預(yù)測(cè)什麼,而下面的範(fàn)例表示一些常見(jiàn)的任務(wù):
  • 深度學(xué)習(xí)架構(gòu)的比較分析

一個(gè)簡(jiǎn)單的捲積神經(jīng)網(wǎng)路由一系列層構(gòu)成,每一層透過(guò)可微分函數(shù)將一個(gè)活化的體積塊轉(zhuǎn)換為另一個(gè)表達(dá)。卷積神經(jīng)網(wǎng)路的架構(gòu)主要使用三種類(lèi)型的層:卷積層、池化層和全連接層。下圖展示了卷積神經(jīng)網(wǎng)路層的不同部分:

  • #卷積:?卷積過(guò)濾器掃描影像,使用加法和乘法運(yùn)算。 CNN試圖學(xué)習(xí)卷積濾波器中的值以預(yù)測(cè)所需的輸出。
  • 非線性:?這是應(yīng)用於卷積濾波器的方程,它允許CNN學(xué)習(xí)輸入和輸出影像之間的複雜關(guān)係。
  • 池化:?也稱為“最大池化”,它只選擇一系列數(shù)字中的最大數(shù)字。這有助於減少表達(dá)的大小並減少CNN必須進(jìn)行的計(jì)算量,用於提升效率。

這三種運(yùn)算的結(jié)合組成了完全卷積網(wǎng)路。

2.2 CNN的用例

CNN(卷積神經(jīng)網(wǎng)路)是一種常用於解決與空間資料相關(guān)的問(wèn)題的神經(jīng)網(wǎng)絡(luò),通常用於影像(2D CNN)和音訊( 1D CNN)等領(lǐng)域。 CNN的廣泛應(yīng)用包括人臉辨識(shí)、醫(yī)學(xué)分析和分類(lèi)等。透過(guò)CNN,可以在影像或音訊資料中捕捉到更細(xì)緻的特徵,從而實(shí)現(xiàn)更精確的識(shí)別和分析。此外,CNN也可以應(yīng)用於其他領(lǐng)域,如自然語(yǔ)言處理和時(shí)間序列資料等??傊?,CNN是可以幫助我們更好地理解和分析各種類(lèi)型的數(shù)據(jù)。

2.3 CNN對(duì)比FCN的優(yōu)勢(shì)

參數(shù)共享/運(yùn)算可行性:

#由於CNN使用參數(shù)共享,所以CNN與FCN架構(gòu)的權(quán)重?cái)?shù)量通常相差幾個(gè)數(shù)量級(jí)。

對(duì)於全連接神經(jīng)網(wǎng)絡(luò),有一個(gè)形狀為(Hin×Win×Cin)的輸入和一個(gè)形狀為(Hout×Wout×Cout)的輸出。這意味著輸出特徵的每個(gè)像素顏色都與輸入特徵的每個(gè)像素顏色連接。對(duì)於輸入影像和輸出影像的每個(gè)像素,都有一個(gè)獨(dú)立的可學(xué)習(xí)參數(shù)。因此,參數(shù)數(shù)為(Hin×Hout×Win×Wout×Cin×Cout)。

在卷積層中,輸入是形狀為(Hin,Win,Cin)的圖像,權(quán)重考慮給定像素的鄰域大小為K×K。輸出是給定像素及其鄰域的加權(quán)和。輸入通道和輸出通道的每個(gè)對(duì)(Cin,Cout)都有一個(gè)單獨(dú)的內(nèi)核,但內(nèi)核的權(quán)重形狀為(K,K,Cin,Cout)的張量與位置無(wú)關(guān)。實(shí)際上,該層可以接受任何分辨率的圖像,而全連接層只能使用固定分辨率。最后,該層參數(shù)為(K,K,Cin,Cout),對(duì)于內(nèi)核大小K遠(yuǎn)小于輸入分辨率的情況,變量數(shù)量會(huì)顯著減少。

自從AlexNet贏得ImageNet比賽以來(lái),每個(gè)贏得比賽的神經(jīng)網(wǎng)絡(luò)都使用了CNN組件,這一事實(shí)證明CNN對(duì)于圖像數(shù)據(jù)更有效。很可能找不到任何有意義的比較,因?yàn)閮H使用FC層處理圖像數(shù)據(jù)是不可行的,而CNN可以處理這些數(shù)據(jù)。為什么呢?

FC層中有1000個(gè)神經(jīng)元的權(quán)重?cái)?shù)量對(duì)于圖像而言大約為1.5億。?這僅僅是一個(gè)層的權(quán)重?cái)?shù)量。?而現(xiàn)代的CNN體系結(jié)構(gòu)具有50-100層,同時(shí)具有總共幾十萬(wàn)個(gè)參數(shù)(例如,ResNet50具有23M個(gè)參數(shù),Inception V3具有21M個(gè)參數(shù))。

從數(shù)學(xué)角度來(lái)看,比較CNN和FCN(具有100個(gè)隱藏單元)之間的權(quán)重?cái)?shù)量,輸入圖像為500×500×3的話:

  • FC layer 的 Wx =?100×(500×500×3)=100×750000=75M
  • CNN layer =?
<code>((shape of width of the filter * shape of height of the filter * number of filters in the previous layer+1)*number of filters)( +1 是為了偏置) = (Fw×Fh×D+1)×F=(5×5×3+1)?2=152</code>

平移不變性

不變性指的是一個(gè)對(duì)象即使位置發(fā)生了改變,仍然能夠被正確地識(shí)別。這通常是一個(gè)積極的特性,因?yàn)樗S護(hù)了對(duì)象的身份(或類(lèi)別)。這里的“平移”是指在幾何學(xué)中的特定含義。下圖顯示了相同的對(duì)象在不同的位置上,由于平移不變性,CNN能夠正確地識(shí)別它們都是貓。

3. 循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)

RNN是構(gòu)建其他深度學(xué)習(xí)架構(gòu)的基礎(chǔ)網(wǎng)絡(luò)體系結(jié)構(gòu)之一。一個(gè)關(guān)鍵的不同之處在于,與正常的前饋網(wǎng)絡(luò)不同,RNN可以具有反饋到其先前或同一層的連接。從某種意義上說(shuō),RNN在先前的計(jì)算中具有“記憶”,并將這些信息用于當(dāng)前處理。

深度學(xué)習(xí)架構(gòu)的比較分析

3.1 RNN 的架構(gòu)特點(diǎn)

“Recurrent”這個(gè)術(shù)語(yǔ)適用于網(wǎng)絡(luò)在每個(gè)序列實(shí)例上執(zhí)行相同的任務(wù),因此輸出取決于先前的計(jì)算和結(jié)果。

RNN自然適用于許多NLP任務(wù),如語(yǔ)言建模。它們能夠捕捉“狗”和“熱狗”之間的含義差異,因此RNN是為建模語(yǔ)言和類(lèi)似序列建模任務(wù)中的這種上下文依賴而量身定制的,這成為在這些領(lǐng)域使用RNN而不是CNN的主要原因。RNN的另一個(gè)優(yōu)點(diǎn)是模型大小不隨輸入大小而增加,因此有可能處理任意長(zhǎng)度的輸入。

此外,與CNN不同的是,RNN具有靈活的計(jì)算步驟,提供更好的建模能力,并創(chuàng)造了捕捉無(wú)限上下文的可能性,因?yàn)樗紤]了歷史信息,并且其權(quán)重在時(shí)間上是共享的。然而,循環(huán)神經(jīng)網(wǎng)絡(luò)會(huì)面臨梯度消失問(wèn)題。梯度變得很小,因此使得反向傳播的更新權(quán)重非常小。由于每個(gè)標(biāo)記需要順序處理以及存在梯度消失/爆炸,RNN訓(xùn)練速度慢并且有時(shí)很難收斂。

下圖斯坦福大學(xué)是RNN架構(gòu)示例。

深度學(xué)習(xí)架構(gòu)的比較分析

另一個(gè)需要注意的是,CNN與RNN具有不同的架構(gòu)。CNN是一種前饋神經(jīng)網(wǎng)絡(luò),它使用過(guò)濾器和池化層,而RNN則通過(guò)自回歸的方式將結(jié)果反饋到網(wǎng)絡(luò)中。

3.2 RNN的典型用例

RNN是一種專(zhuān)門(mén)用于分析時(shí)間序列數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)。其中,時(shí)間序列數(shù)據(jù)是指按時(shí)間順序排列的數(shù)據(jù),例如文本或視頻。RNN在文本翻譯、自然語(yǔ)言處理、情感分析和語(yǔ)音分析等方面具有廣泛的應(yīng)用。例如,它可以用于分析音頻記錄,以便識(shí)別說(shuō)話人的語(yǔ)音并將其轉(zhuǎn)換為文本。另外,RNN還可以用于文本生成,例如為電子郵件或社交媒體發(fā)布創(chuàng)建文本。?

3.3 RNN 與CNN 的比較優(yōu)勢(shì)

在CNN中,輸入和輸出的大小是固定的。這意味著CNN接收固定大小的圖像,並將其輸出到適當(dāng)?shù)募?jí)別,同時(shí)伴隨其預(yù)測(cè)的置信度。然而,在RNN中,輸入和輸出的大小可能會(huì)有所變化。這個(gè)特性適用於需要可變大小輸入和輸出的應(yīng)用,例如生成文字。

門(mén)控循環(huán)單元(GRU)和長(zhǎng)短時(shí)記憶單元(LSTM)都提供了解決循環(huán)神經(jīng)網(wǎng)路(RNN)遇到的梯度消失問(wèn)題的解決方案。

4. 長(zhǎng)短記憶神經(jīng)網(wǎng)路(LSTM)

長(zhǎng)短記憶神經(jīng)網(wǎng)路(LSTM)是一種特殊的RNN。它透過(guò)學(xué)習(xí)長(zhǎng)期依賴關(guān)係,使RNN更容易在許多時(shí)間戳上保留資訊。下圖是LSTM架構(gòu)的可視化表示。

深度學(xué)習(xí)架構(gòu)的比較分析

深度學(xué)習(xí)架構(gòu)的比較分析

#LSTM無(wú)所不在,可以在許多應(yīng)用程式或產(chǎn)品中找到,例如智慧型手機(jī)。其強(qiáng)大之處在於它擺脫了典型的基於神經(jīng)元的架構(gòu),而是採(cǎi)用了記憶單元的概念。這個(gè)記憶單元根據(jù)其輸入的函數(shù)保留其值,可以短時(shí)間或長(zhǎng)時(shí)間保持其值。這允許單元記住重要的內(nèi)容,而不僅僅是最後計(jì)算的值。

LSTM 記憶單元包含三個(gè)門(mén),控制其單元內(nèi)的訊息流入或流出。

  • 輸入閘門(mén):控制何時(shí)可以將資訊流入記憶體。

深度學(xué)習(xí)架構(gòu)的比較分析

忘記門(mén):負(fù)責(zé)追蹤哪些資訊可以“遺忘”,為處理單元騰出空間記住新資料。

深度學(xué)習(xí)架構(gòu)的比較分析

輸出閘門(mén):決定處理單元內(nèi)儲(chǔ)存的資訊何時(shí)可以用作細(xì)胞的輸出。

深度學(xué)習(xí)架構(gòu)的比較分析

LSTM對(duì)比於GRU和RNN的優(yōu)缺點(diǎn)

相較於GRU和尤其是RNN,LSTM可以學(xué)習(xí)到更長(zhǎng)期的依賴關(guān)係。由於有三個(gè)閘門(mén)(GRU中為兩個(gè),RNN中為零),因此與RNN和GRU相比,LSTM有較多的參數(shù)。這些額外的參數(shù)允許LSTM模型更好地處理複雜的序列數(shù)據(jù),如自然語(yǔ)言或時(shí)間序列數(shù)據(jù)。此外,LSTM還可以處理變長(zhǎng)的輸入序列,因?yàn)樗鼈兊拈l門(mén)結(jié)構(gòu)允許它們忽略不必要的輸入。因此,LSTM在許多應(yīng)用中都表現(xiàn)出色,包括語(yǔ)音辨識(shí)、機(jī)器翻譯和股票市場(chǎng)預(yù)測(cè)等。

5. 閘控循環(huán)單元(GRU)

GRU有兩個(gè)閘門(mén):更新閘和重置閘門(mén)(本質(zhì)上是兩個(gè)向量),以決定應(yīng)該傳遞什麼訊息到輸出。

深度學(xué)習(xí)架構(gòu)的比較分析

  • 重設(shè)閘門(mén)(Reset gate):?幫助模型決定可以忘記多少過(guò)去的資訊。
  • 更新閘門(mén)(Update gate):?幫助模型確定過(guò)去資訊(先前的時(shí)間步驟)中有多少需要傳遞到未來(lái)。

GRU對(duì)比LSTM 和RNN的優(yōu)缺點(diǎn)

與RNN類(lèi)似,GRU也是一種遞歸神經(jīng)網(wǎng)絡(luò),它可以有效地長(zhǎng)時(shí)間保留資訊並捕捉比RNN更長(zhǎng)的依賴關(guān)係。然而,GRU相比較於LSTM更為簡(jiǎn)單,訓(xùn)練速度更快。

儘管GRU在實(shí)作上比RNN更為複雜,但由於其僅包含兩個(gè)門(mén)控機(jī)制,因此其參數(shù)數(shù)量較少,通常無(wú)法像LSTM那樣捕捉更長(zhǎng)範(fàn)圍的依賴關(guān)係。因此,GRU在某些情況下可能需要更多的訓(xùn)練資料以達(dá)到與LSTM相同的表現(xiàn)水準(zhǔn)。

此外,由於GRU相對(duì)較為簡(jiǎn)單,其運(yùn)算成本也較低,因此在資源有限的環(huán)境下,如行動(dòng)裝置或嵌入式系統(tǒng),使用GRU可能更為合適。另一方面,如果模型的準(zhǔn)確性對(duì)應(yīng)用至關(guān)重要,則LSTM可能是更好的選擇。

6.Transformer

有關(guān) Transformers 的論文?「Attention is All You Need」?幾乎是 Arxiv 上有史以來(lái)排名第一的論文。變形金剛是一種大型編碼器-解碼器模型,能夠使用複雜的注意力機(jī)制來(lái)處理整個(gè)序列。

深度學(xué)習(xí)架構(gòu)的比較分析

通常,在自然語(yǔ)言處理應(yīng)用中,首先使用嵌入演算法將每個(gè)輸入單字轉(zhuǎn)換為向量。嵌入只在最底層的編碼器中發(fā)生。所有編碼器共享的抽像是,它們接收一個(gè)大小為512的向量列表,這將是詞嵌入,但在其他編碼器中,它將是直接位於下面的編碼器輸出中。

注意提供了解決瓶頸問(wèn)題的方法。對(duì)於這些類(lèi)型的模型,上下文向量成為了一個(gè)瓶頸,這使得模型難以處理長(zhǎng)句子。注意力允許模型根據(jù)需要集中關(guān)注輸入序列的相關(guān)部分,並將每個(gè)單字的表示視為一個(gè)查詢,以存取和合併一組值中的資訊。

6.1 Transformer的架構(gòu)特點(diǎn)

通常,在Transformer架構(gòu)中,編碼器能夠?qū)⑺须[藏狀態(tài)傳遞給解碼器。但是,在產(chǎn)生輸出之前,解碼器使用注意力進(jìn)行了額外的步驟。解碼器透過(guò)其softmax得分乘以每個(gè)隱藏狀態(tài),從而放大得分更高的隱藏狀態(tài)並淹沒(méi)其他隱藏狀態(tài)。這使得模型能夠集中關(guān)注與輸出相關(guān)的輸入部分。

自我專(zhuān)注位於編碼器中,第一步是從每個(gè)編碼器輸入向量(每個(gè)單字的嵌入)建立3個(gè)向量:Key、Query和Value向量,這些向量是透過(guò)將嵌入乘以在訓(xùn)練過(guò)程中訓(xùn)練的3個(gè)矩陣來(lái)建立的。 K、V、Q維度為64,而嵌入和編碼器輸入/輸出向量的維度為512。下圖來(lái)自Jay Alammar的 Illustrated Transformer,這可能是網(wǎng)路上最好的視覺(jué)化解讀。

深度學(xué)習(xí)架構(gòu)的比較分析

這個(gè)清單的大小是可以設(shè)定的超參數(shù),基本上將是訓(xùn)練資料集中最長(zhǎng)句子的長(zhǎng)度。

  • 注意:

深度學(xué)習(xí)架構(gòu)的比較分析

#什麼是query、key和value向量?它們是在計(jì)算和思考注意力時(shí)有用的抽象概念。在解碼器中的交叉注意力除了輸入之外,計(jì)算與自註意力的計(jì)算相同。交叉注意力不對(duì)稱地組合了兩個(gè)維度相同的獨(dú)立嵌入序列,而自註意力的輸入是單獨(dú)的嵌入序列。

為了討論Transformer,還必須討論兩個(gè)預(yù)訓(xùn)練模型,即BERT和GPT,因?yàn)樗鼈儗?dǎo)致了Transformer的成功。

GPT?的預(yù)訓(xùn)練解碼器有12層,其中包含768維隱藏狀態(tài),3072維前饋隱藏層,採(cǎi)用40,000個(gè)合併的位元組對(duì)編碼。主要應(yīng)用在自然語(yǔ)言的推理中,將句子對(duì)標(biāo)示為蘊(yùn)含、矛盾或中性。

BERT是預(yù)訓(xùn)練編碼器,使用掩碼語(yǔ)言建模,將輸入中的一部分單字替換為特殊的[MASK]標(biāo)記,然後嘗試預(yù)測(cè)這些單字。因此,只需要在預(yù)測(cè)的掩碼單字上計(jì)算損失。兩種BERT模型大小都有大量的編碼器層(論文稱為T(mén)ransformer塊)-Base版本有12個(gè),Large版本有24個(gè)。這些也具有比初始論文中Transformer參考實(shí)作中的預(yù)設(shè)配置(6個(gè)編碼器層,512個(gè)隱藏單元和8個(gè)注意頭)更大的前饋網(wǎng)路(分別為768和1024個(gè)隱藏單元)和更多的注意頭(分別為12和16)。 BERT模型很容易進(jìn)行微調(diào),通??梢栽趩我籊PU上完成。 BERT可以用在NLP中翻譯,特別是低資源語(yǔ)言翻譯。

Transformer的一個(gè)效能缺點(diǎn)是,它們?cè)谧晕谊P(guān)注方面的計(jì)算時(shí)間是二次的,而RNN只是線性成長(zhǎng)。

6.2 Transformer的用例

6.2.1 語(yǔ)言領(lǐng)域

在傳統(tǒng)的語(yǔ)言模型中,相鄰的單字會(huì)先被分組在一起,而Transformer則能夠並行處理,使得輸入資料中的每個(gè)元素都能夠連接或關(guān)注每個(gè)其他元素。這被稱為「自我注意力」。這意味著Transformer一開(kāi)始訓(xùn)練時(shí)就可以看到整個(gè)資料集的內(nèi)容。

在Transformer出現(xiàn)之前,AI語(yǔ)言任務(wù)的進(jìn)展在很大程度上落後於其他領(lǐng)域的發(fā)展。實(shí)際上,在過(guò)去的10年左右的深度學(xué)習(xí)革命中,自然語(yǔ)言處理是後來(lái)者,而NLP在某種程度上落後於電腦視覺(jué)。然而,隨著Transformers的出現(xiàn),NLP領(lǐng)域得到了極大的推動(dòng),並且推出了一系列在各種NLP任務(wù)中取得佳績(jī)的模型。

例如,為了理解基於傳統(tǒng)語(yǔ)言模型(基於遞歸架構(gòu),如RNN、LSTM或GRU)與Transformer之間的區(qū)別,我們可以舉個(gè)例子:「The owl spied a squirrel. It tried to grab it with its talons but only got the end of its tail.」第二句的結(jié)構(gòu)很令人困惑:那個(gè)「it」是指什麼??jī)H專(zhuān)注於「it」周?chē)鷨巫值膫鹘y(tǒng)語(yǔ)言模型會(huì)遇到困難,但是將每個(gè)單字與每個(gè)其他單字相連的Transformer可以分辨出貓頭鷹抓住了松鼠,而鬆鼠失去了部分尾巴。

6.2.2 視覺(jué)領(lǐng)域

在CNN中,我們從局部開(kāi)始,逐漸獲得全局視角。 CNN透過(guò)從局部到全局的方式建構(gòu)特徵,逐像素識(shí)別影像,以識(shí)別例如角落或線條等特徵。然而,在transformer中,透過(guò)自我注意力,即使在資訊處理的第一層上,也會(huì)建立遠(yuǎn)端影像位置之間的連接(就像語(yǔ)言一樣)。如果CNN的方法就像從單一像素開(kāi)始縮放,那麼transformer會(huì)逐漸將整個(gè)模糊的影像聚焦。

深度學(xué)習(xí)架構(gòu)的比較分析

CNN透過(guò)重複應(yīng)用輸入資料的局部補(bǔ)丁上的濾鏡,產(chǎn)生局部特徵表示,並逐步增加它們的感受視野並建立全局特徵表示。正是因?yàn)榫矸e,照片應(yīng)用程式才能將梨子與雲(yún)彩區(qū)分開(kāi)來(lái)。在transformer架構(gòu)之前,CNN被認(rèn)為是視覺(jué)任務(wù)不可或缺的。

Vision Transformer模型的架構(gòu)與2017年提出的第一個(gè)transformer幾乎相同,只有一些微小的變化使其能夠分析圖像而不是單字。由於語(yǔ)言往往是離散的,因此需要將輸入影像離散化,以使transformer能夠處理視覺(jué)輸入。在每個(gè)像素上完全模仿語(yǔ)言方法並執(zhí)行自我關(guān)注將計(jì)算時(shí)間變得極為昂貴。因此,ViT將更大的圖像分成方形單元或補(bǔ)?。?lèi)似於NLP中的令牌)。大小是任意的,因?yàn)楦鶕?jù)原始影像的分辨率,token可以變大或變?。A(yù)設(shè)為16x16像素)。但是透過(guò)處理組中的像素並對(duì)每個(gè)像素應(yīng)用自我注意力,ViT可以快速處理巨大的訓(xùn)練資料集,輸出越來(lái)越準(zhǔn)確的分類(lèi)。

6.2.3 多模態(tài)任務(wù)

與Transformer 相比,其他深度學(xué)習(xí)架構(gòu)只會(huì)一種技巧,而多模態(tài)學(xué)習(xí)需要在一個(gè)流暢的架構(gòu)中處理具有不同模式的模態(tài),並具有相當(dāng)高的關(guān)係歸納偏差,才能達(dá)到人類(lèi)智能的水平。換句話說(shuō),需要一個(gè)單一多用途的架構(gòu),可以無(wú)縫地在閱讀/觀看、說(shuō)話和聆聽(tīng)等感官之間轉(zhuǎn)換。

對(duì)於多模態(tài)任務(wù),需要同時(shí)處理多種類(lèi)型的數(shù)據(jù),如原始圖像、視訊和語(yǔ)言等,而 Transformer 提供了通用架構(gòu)的潛力。

深度學(xué)習(xí)架構(gòu)的比較分析

由於早期架構(gòu)中採(cǎi)用的分立方法,每種類(lèi)型的資料都有自己特定的模型,因此這是一項(xiàng)難以完成的任務(wù)。然而,Transformer 提供了一種簡(jiǎn)單的方法來(lái)組合多個(gè)輸入來(lái)源。例如,多模態(tài)網(wǎng)路可以為系統(tǒng)提供動(dòng)力,讀取人的嘴唇動(dòng)作並同時(shí)使用語(yǔ)言和圖像資訊的豐富表示來(lái)監(jiān)聽(tīng)他們的聲音。透過(guò)交叉注意力,Transformer 能夠從不同來(lái)源衍生查詢、鍵和值向量,成為多模態(tài)學(xué)習(xí)的強(qiáng)大工具。

因此,Transformer 是實(shí)現(xiàn)神經(jīng)網(wǎng)路架構(gòu)「融合」的一大步,從而可以幫助實(shí)現(xiàn)對(duì)多種模態(tài)資料的通用處理。

6.3 Transformer對(duì)比RNN/GRU/LSTM的優(yōu)缺點(diǎn)

與RNN/GRU/LSTM相比,Transformer可以學(xué)習(xí)比RNN和其變體(如GRU和LSTM)更長(zhǎng)的依賴關(guān)係。

然而,最大的好處來(lái)自於Transformer如何適用於並行化。與在每個(gè)時(shí)間步驟處理一個(gè)單字的RNN不同,Transformer的一個(gè)關(guān)鍵屬性是每個(gè)位置上的單字都通過(guò)自己的路徑流經(jīng)編碼器。在自我注意力層中,由於自我注意層計(jì)算每個(gè)輸入序列中的其他單字對(duì)該單字的重要性,這些路徑之間存在依賴關(guān)係。但是,一旦產(chǎn)生了自我注意力輸出,前饋層就沒(méi)有這些依賴關(guān)係,因此各個(gè)路徑可以在通過(guò)前饋層時(shí)並行執(zhí)行。這在Transformer編碼器的情況下是一個(gè)特別有用的特性,它可以在自我注意力層後與其他單字並行處理每個(gè)輸入單字。然而,這個(gè)特性對(duì)於解碼器並不是非常重要,因?yàn)樗淮沃划a(chǎn)生一個(gè)單詞,不使用平行單字路徑。

Transformer架構(gòu)的運(yùn)行時(shí)間與輸入序列的長(zhǎng)度呈二次方關(guān)係,這表示當(dāng)處理長(zhǎng)文件或?qū)⒆衷鳛檩斎霑r(shí),處理速度可能會(huì)很慢。換句話說(shuō),在進(jìn)行自我注意力形成期間,需要計(jì)算所有交互對(duì),這意味著計(jì)算隨著序列長(zhǎng)度呈二次增長(zhǎng),即O(T^2?d),其中T序列長(zhǎng)度,D是維度。例如,對(duì)應(yīng)一個(gè)簡(jiǎn)單的句子d=1000,T≤30?T^2≤900?T^2d≈900K。而對(duì)於循環(huán)神經(jīng),它僅以線性方式成長(zhǎng)。

如果Transformer不需要在句子中的每一對(duì)單字之間計(jì)算成對(duì)的交互作用,那不是很好?有研究表明可以在不計(jì)算所有單字對(duì)之間的交互作用(例如透過(guò)近似成對(duì)關(guān)注)的情況下實(shí)現(xiàn)相當(dāng)高的表現(xiàn)水準(zhǔn)。

與CNN相比,Transformer的資料需求極高。 CNN仍然具有樣本效率,這使它們成為低資源任務(wù)的絕佳選擇。這對(duì)於圖像/視訊生成任務(wù)尤其如此,即使對(duì)於CNN架構(gòu),需要大量資料(因此暗示Transformer架構(gòu)需要極高的資料需求)。例如,Radford等人最近提出的CLIP架構(gòu)是使用基於CNN的ResNets作為視覺(jué)骨幹進(jìn)行訓(xùn)練的(而不是類(lèi)似ViT的Transformer架構(gòu))。雖然Transformer在滿足其數(shù)據(jù)需求後提供了準(zhǔn)確性提升,但CNN則提供了一種在可用數(shù)據(jù)量不是異常高的任務(wù)中提供良好準(zhǔn)確性表現(xiàn)的方式。因此,兩種架構(gòu)都有其用途。

由於Transformer 架構(gòu)的運(yùn)行時(shí)間與輸入序列的長(zhǎng)度呈現(xiàn)二次方關(guān)係。也就是說(shuō),在所有單字對(duì)上計(jì)算注意力需要圖中邊的數(shù)量隨節(jié)點(diǎn)數(shù)呈二次方增長(zhǎng),即在一個(gè) n 個(gè)單字的句子中,Transformer 需要計(jì)算 n^2 個(gè)單字對(duì)。這意味著參數(shù)數(shù)量龐大(即記憶體佔(zhàn)用高),導(dǎo)致計(jì)算複雜度高。高運(yùn)算需求對(duì)電源和電池壽命都會(huì)產(chǎn)生負(fù)面影響,特別是對(duì)於可移動(dòng)裝置而言??傮w而言,為了提供更好的效能(例如準(zhǔn)確性),Transformer需要更高的運(yùn)算能力、更多的資料、電源/電池壽命和記憶體佔(zhàn)用。

7. 推理偏差

實(shí)踐中使用的每個(gè)機(jī)器學(xué)習(xí)演算法,從最近鄰到梯度提升,都帶有自己關(guān)於哪些分類(lèi)更容易學(xué)習(xí)的歸納偏差。幾乎所有學(xué)習(xí)演算法都有一個(gè)偏差,即學(xué)習(xí)那些相似的項(xiàng)(在某些特徵空間中「接近」彼此)更可能屬於同一類(lèi)。線性模型,例如邏輯迴歸,也假設(shè)類(lèi)別可以透過(guò)線性邊界分離,這是一個(gè)「硬」偏差,因?yàn)槟P蜔o(wú)法學(xué)習(xí)其他內(nèi)容。即便對(duì)於正則化回歸,這幾乎是機(jī)器學(xué)習(xí)中經(jīng)常使用的類(lèi)型,也存在一種偏差,即傾向於學(xué)習(xí)涉及少數(shù)特徵,具有低特徵權(quán)重的邊界,這是「軟」偏差,因?yàn)槟P涂梢詫W(xué)習(xí)涉及許多具有高權(quán)重功能的類(lèi)別邊界,但這更困難/需要更多資料。

即使是深度學(xué)習(xí)模型也同樣具有推理偏差,例如,LSTM神經(jīng)網(wǎng)路對(duì)自然語(yǔ)言處理任務(wù)非常有效,因?yàn)樗蜢对陂L(zhǎng)序列上保留上下文資訊。

深度學(xué)習(xí)架構(gòu)的比較分析

了解領(lǐng)域知識(shí)和問(wèn)題難度可以幫助我們選擇適當(dāng)?shù)难菟惴☉?yīng)用。例如,從臨床記錄中提取相關(guān)術(shù)語(yǔ)以確定患者是否被診斷為癌癥的問(wèn)題。在這種情況下,邏輯迴歸表現(xiàn)良好,因?yàn)橛性S多獨(dú)立有資訊量的術(shù)語(yǔ)。對(duì)於其他問(wèn)題,例如從複雜的PDF報(bào)告中提取遺傳測(cè)試的結(jié)果,使用LSTM可以更好地處理每個(gè)單字的長(zhǎng)程上下文,從而獲得更好的效能。一旦選擇了基礎(chǔ)演算法,了解其偏差也可以幫助我們執(zhí)行特徵工程,即選擇要輸入到學(xué)習(xí)演算法中的資訊的過(guò)程。

每個(gè)模型結(jié)構(gòu)都有一種內(nèi)在的推理偏差,幫助理解資料中的模式,從而實(shí)現(xiàn)學(xué)習(xí)。例如,CNN表現(xiàn)出空間參數(shù)共享、平移/空間不變性,而RNN則表現(xiàn)出時(shí)間參數(shù)共享。

8. 小結(jié)

老碼農(nóng)嘗試比較分析了深度學(xué)習(xí)架構(gòu)中的Transformer、CNN、RNN/GRU/LSTM,理解到Transformer可以學(xué)習(xí)更長(zhǎng)的依賴關(guān)係,但需要更高的數(shù)據(jù)需求和計(jì)算能力;Transformer適用於多模態(tài)任務(wù),可以無(wú)縫地在閱讀/觀看、說(shuō)話和聽(tīng)取等感官之間轉(zhuǎn)換;每個(gè)模型結(jié)構(gòu)都有一種內(nèi)在的推理偏差,幫助理解數(shù)據(jù)中的模式,從而實(shí)現(xiàn)學(xué)習(xí)。

【參考資料】

  • CNN vs fully connected network for image recognition?,https://stats.stackexchange.com/questions/341863/cnn-vs-fully-connected -network-for-image-recognition
  • https://web.stanford.edu/class/archive/cs/cs224n/cs224n.1184/lectures/lecture12.pdf
  • #Introduction to LSTM Units in RNN,https://www.pluralsight.com/guides/introduction-to-lstm-units-in-rnn
  • Learning Transferable Visual Models From Natural Language Supervision,https://arxiv.org/ abs/2103.00020
  • Linformer: Self-Attention with Linear Complexity,https://arxiv.org/abs/2006.04768
  • Rethinking Attention with Performers,https://arxiv.org/abs/
  • Rethinking Attention with Performers,https://arxiv.org/abs/
  • Rethinking Attention with Performers,https://arxiv.org/abs/
  • Rethinking Attention with Performers,https://arxiv.org/abs/
  • Rethinking Attention with Performers,https://arxiv.org/abs/
  • Rethinking Attention with Performers,https://arxiv.org/abs/
  • 」 2009.14794
  • Big Bird: Transformers for Longer Sequences,https://arxiv.org/abs/2007.14062
Synthesizer: Rethinking Self-Attention in Transformer Models,https://arxiv.org/ abs/2005.00743######Do Vision Transformers See Like Convolutional Neural Networks?,https://arxiv.org/abs/2108.08810######Illustrated Transformer,https://jalammar.github. -transformer/######

以上是深度學(xué)習(xí)架構(gòu)的比較分析的詳細(xì)內(nèi)容。更多資訊請(qǐng)關(guān)注PHP中文網(wǎng)其他相關(guān)文章!

本網(wǎng)站聲明
本文內(nèi)容由網(wǎng)友自願(yuàn)投稿,版權(quán)歸原作者所有。本站不承擔(dān)相應(yīng)的法律責(zé)任。如發(fā)現(xiàn)涉嫌抄襲或侵權(quán)的內(nèi)容,請(qǐng)聯(lián)絡(luò)admin@php.cn

熱AI工具

Undress AI Tool

Undress AI Tool

免費(fèi)脫衣圖片

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅(qū)動(dòng)的應(yīng)用程序,用於創(chuàng)建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費(fèi)的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費(fèi)的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強(qiáng)大的PHP整合開(kāi)發(fā)環(huán)境

Dreamweaver CS6

Dreamweaver CS6

視覺(jué)化網(wǎng)頁(yè)開(kāi)發(fā)工具

SublimeText3 Mac版

SublimeText3 Mac版

神級(jí)程式碼編輯軟體(SublimeText3)

熱門(mén)話題

使用ddrescue在Linux上恢復(fù)數(shù)據(jù) 使用ddrescue在Linux上恢復(fù)數(shù)據(jù) Mar 20, 2024 pm 01:37 PM

DDREASE是一種用於從檔案或區(qū)塊裝置(如硬碟、SSD、RAM磁碟、CD、DVD和USB儲(chǔ)存裝置)復(fù)原資料的工具。它將資料從一個(gè)區(qū)塊設(shè)備複製到另一個(gè)區(qū)塊設(shè)備,留下?lián)p壞的資料區(qū)塊,只移動(dòng)好的資料區(qū)塊。 ddreasue是一種強(qiáng)大的恢復(fù)工具,完全自動(dòng)化,因?yàn)樗诨謴?fù)操作期間不需要任何干擾。此外,由於有了ddasue地圖文件,它可以隨時(shí)停止和恢復(fù)。 DDREASE的其他主要功能如下:它不會(huì)覆寫(xiě)恢復(fù)的數(shù)據(jù),但會(huì)在迭代恢復(fù)的情況下填補(bǔ)空白。但是,如果指示工具明確執(zhí)行此操作,則可以將其截?cái)?。將資料從多個(gè)檔案或區(qū)塊還原到單

開(kāi)源!超越ZoeDepth! DepthFM:快速且精確的單目深度估計(jì)! 開(kāi)源!超越ZoeDepth! DepthFM:快速且精確的單目深度估計(jì)! Apr 03, 2024 pm 12:04 PM

0.這篇文章乾了啥?提出了DepthFM:一個(gè)多功能且快速的最先進(jìn)的生成式單目深度估計(jì)模型。除了傳統(tǒng)的深度估計(jì)任務(wù)外,DepthFM還展示了在深度修復(fù)等下游任務(wù)中的最先進(jìn)能力。 DepthFM效率高,可以在少數(shù)推理步驟內(nèi)合成深度圖。以下一起來(lái)閱讀這項(xiàng)工作~1.論文資訊標(biāo)題:DepthFM:FastMonocularDepthEstimationwithFlowMatching作者:MingGui,JohannesS.Fischer,UlrichPrestel,PingchuanMa,Dmytr

超越ORB-SLAM3! SL-SLAM:低光、嚴(yán)重抖動(dòng)和弱紋理場(chǎng)景全搞定 超越ORB-SLAM3! SL-SLAM:低光、嚴(yán)重抖動(dòng)和弱紋理場(chǎng)景全搞定 May 30, 2024 am 09:35 AM

寫(xiě)在前面今天我們探討下深度學(xué)習(xí)技術(shù)如何改善在複雜環(huán)境中基於視覺(jué)的SLAM(同時(shí)定位與地圖建構(gòu))表現(xiàn)。透過(guò)將深度特徵提取和深度匹配方法相結(jié)合,這裡介紹了一種多功能的混合視覺(jué)SLAM系統(tǒng),旨在提高在諸如低光條件、動(dòng)態(tài)光照、弱紋理區(qū)域和嚴(yán)重抖動(dòng)等挑戰(zhàn)性場(chǎng)景中的適應(yīng)性。我們的系統(tǒng)支援多種模式,包括拓展單目、立體、單目-慣性以及立體-慣性配置。除此之外,也分析如何將視覺(jué)SLAM與深度學(xué)習(xí)方法結(jié)合,以啟發(fā)其他研究。透過(guò)在公共資料集和自採(cǎi)樣資料上的廣泛實(shí)驗(yàn),展示了SL-SLAM在定位精度和追蹤魯棒性方面優(yōu)

Google狂喜:JAX性能超越Pytorch、TensorFlow!或成GPU推理訓(xùn)練最快選擇 Google狂喜:JAX性能超越Pytorch、TensorFlow!或成GPU推理訓(xùn)練最快選擇 Apr 01, 2024 pm 07:46 PM

谷歌力推的JAX在最近的基準(zhǔn)測(cè)試中表現(xiàn)已經(jīng)超過(guò)Pytorch和TensorFlow,7項(xiàng)指標(biāo)排名第一。而且測(cè)試並不是JAX性能表現(xiàn)最好的TPU上完成的。雖然現(xiàn)在在開(kāi)發(fā)者中,Pytorch依然比Tensorflow更受歡迎。但未來(lái),也許有更多的大型模型會(huì)基於JAX平臺(tái)進(jìn)行訓(xùn)練和運(yùn)行。模型最近,Keras團(tuán)隊(duì)為三個(gè)後端(TensorFlow、JAX、PyTorch)與原生PyTorch實(shí)作以及搭配TensorFlow的Keras2進(jìn)行了基準(zhǔn)測(cè)試。首先,他們?yōu)樯墒胶头巧墒饺斯ぶ腔廴蝿?wù)選擇了一組主流

iPhone上的蜂窩數(shù)據(jù)網(wǎng)路速度慢:修復(fù) iPhone上的蜂窩數(shù)據(jù)網(wǎng)路速度慢:修復(fù) May 03, 2024 pm 09:01 PM

在iPhone上面臨滯後,緩慢的行動(dòng)數(shù)據(jù)連線?通常,手機(jī)上蜂窩互聯(lián)網(wǎng)的強(qiáng)度取決於幾個(gè)因素,例如區(qū)域、蜂窩網(wǎng)絡(luò)類(lèi)型、漫遊類(lèi)型等。您可以採(cǎi)取一些措施來(lái)獲得更快、更可靠的蜂窩網(wǎng)路連線。修復(fù)1–強(qiáng)制重啟iPhone有時(shí),強(qiáng)制重啟設(shè)備只會(huì)重置許多內(nèi)容,包括蜂窩網(wǎng)路連線。步驟1–只需按一次音量調(diào)高鍵並放開(kāi)即可。接下來(lái),按降低音量鍵並再次釋放它。步驟2–過(guò)程的下一部分是按住右側(cè)的按鈕。讓iPhone完成重啟。啟用蜂窩數(shù)據(jù)並檢查網(wǎng)路速度。再次檢查修復(fù)2–更改資料模式雖然5G提供了更好的網(wǎng)路速度,但在訊號(hào)較弱

特斯拉機(jī)器人進(jìn)廠打工,馬斯克:手的自由度今年將達(dá)到22個(gè)! 特斯拉機(jī)器人進(jìn)廠打工,馬斯克:手的自由度今年將達(dá)到22個(gè)! May 06, 2024 pm 04:13 PM

特斯拉機(jī)器人Optimus最新影片出爐,已經(jīng)可以在工廠裡打工了。正常速度下,它分揀電池(特斯拉的4680電池)是這樣的:官方還放出了20倍速下的樣子——在小小的「工位」上,揀啊揀啊揀:這次放出的影片亮點(diǎn)之一在於Optimus在廠子裡完成這項(xiàng)工作,是完全自主的,全程沒(méi)有人為的干預(yù)。而且在Optimus的視角之下,它還可以把放歪了的電池重新?lián)炱饋?lái)放置,主打一個(gè)自動(dòng)糾錯(cuò):對(duì)於Optimus的手,英偉達(dá)科學(xué)家JimFan給出了高度的評(píng)價(jià):Optimus的手是全球五指機(jī)器人裡最靈巧的之一。它的手不僅有觸覺(jué)

Spring Data JPA 的架構(gòu)和工作原理是什麼? Spring Data JPA 的架構(gòu)和工作原理是什麼? Apr 17, 2024 pm 02:48 PM

SpringDataJPA基於JPA架構(gòu),透過(guò)映射、ORM和事務(wù)管理與資料庫(kù)互動(dòng)。其儲(chǔ)存庫(kù)提供CRUD操作,派生查詢簡(jiǎn)化了資料庫(kù)存取。此外,它使用延遲加載,僅在必要時(shí)檢索數(shù)據(jù),從而提高了效能。

超強(qiáng)!深度學(xué)習(xí)Top10演算法! 超強(qiáng)!深度學(xué)習(xí)Top10演算法! Mar 15, 2024 pm 03:46 PM

自2006年深度學(xué)習(xí)概念被提出以來(lái),20年快過(guò)去了,深度學(xué)習(xí)作為人工智慧領(lǐng)域的一場(chǎng)革命,已經(jīng)催生了許多具有影響力的演算法。那麼,你所認(rèn)為深度學(xué)習(xí)的top10演算法有哪些呢?以下是我心目中深度學(xué)習(xí)的頂尖演算法,它們?cè)趧?chuàng)新、應(yīng)用價(jià)值和影響力方面都佔(zhàn)有重要地位。 1.深度神經(jīng)網(wǎng)路(DNN)背景:深度神經(jīng)網(wǎng)路(DNN)也叫多層感知機(jī),是最普遍的深度學(xué)習(xí)演算法,發(fā)明之初由於算力瓶頸而飽受質(zhì)疑,直到近些年算力、數(shù)據(jù)的爆發(fā)才迎來(lái)突破。 DNN是一種神經(jīng)網(wǎng)路模型,它包含多個(gè)隱藏層。在該模型中,每一層將輸入傳遞給下一層,並

See all articles