国产av成人一区二区三区,成人无码视频

深度學(xué)習(xí)的概念源自於人工神經(jīng)網(wǎng)路的研究，含有多個(gè)隱藏層的多層感知器是一種深度學(xué)習(xí)結(jié)構(gòu)。深度學(xué)習(xí)透過(guò)組合低層特徵形成更抽象的高層表示，以表徵資料的類(lèi)別或特徵。它能夠發(fā)現(xiàn)資料的分佈式特徵表示。深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的一種，而機(jī)器學(xué)習(xí)是實(shí)現(xiàn)人工智慧的必經(jīng)之路。

那麼，各種深度學(xué)習(xí)的系統(tǒng)架構(gòu)之間有哪些差異呢？

1. 全連接網(wǎng)路（FCN）

完全連接網(wǎng)路（FCN）由一系列完全連接的層組成，每個(gè)層中的每個(gè)神經(jīng)元都連接到另一層中的每個(gè)神經(jīng)元。其主要優(yōu)點(diǎn)是“結(jié)構(gòu)不可知”，即不需要對(duì)輸入做出特殊的假設(shè)。雖然這種結(jié)構(gòu)不可知使得完全連接網(wǎng)絡(luò)非常廣泛適用，但是這樣的網(wǎng)絡(luò)傾向於比專(zhuān)門(mén)針對(duì)問(wèn)題空間結(jié)構(gòu)調(diào)整的特殊網(wǎng)絡(luò)表現(xiàn)更弱。

下圖顯示了一個(gè)多層深度的完全連接網(wǎng)路：

深度學(xué)習(xí)架構(gòu)的比較分析

#2. 卷積神經(jīng)網(wǎng)路（CNN）

卷積神經(jīng)網(wǎng)路（CNN）是一種多層神經(jīng)網(wǎng)路架構(gòu)，主要用於影像處理應(yīng)用。 CNN架構(gòu)明確假定輸入具有空間維度（以及可選的深度維度），例如圖像，這允許將某些屬性編碼到模型架構(gòu)中。 Yann LeCun創(chuàng)建了第一個(gè)CNN，該架構(gòu)最初用於識(shí)別手寫(xiě)字元。

2.1 CNN的架構(gòu)特點(diǎn)

分解一下使用CNN的電腦視覺(jué)模型的技術(shù)細(xì)節(jié)：

模型的輸入：CNN模型的輸入通常是圖像或文字. CNN也可用於文本，但通常不怎麼使用。

圖像在這裡被表示為像素網(wǎng)格，就是由正整數(shù)組成的網(wǎng)格，每個(gè)數(shù)字都被分配一種顏色。

模型的輸出：模型的輸出取決於它試圖預(yù)測(cè)什麼，而下面的範(fàn)例表示一些常見(jiàn)的任務(wù)：

一個(gè)簡(jiǎn)單的捲積神經(jīng)網(wǎng)路由一系列層構(gòu)成，每一層透過(guò)可微分函數(shù)將一個(gè)活化的體積塊轉(zhuǎn)換為另一個(gè)表達(dá)。卷積神經(jīng)網(wǎng)路的架構(gòu)主要使用三種類(lèi)型的層：卷積層、池化層和全連接層。下圖展示了卷積神經(jīng)網(wǎng)路層的不同部分：

#卷積:?卷積過(guò)濾器掃描影像，使用加法和乘法運(yùn)算。 CNN試圖學(xué)習(xí)卷積濾波器中的值以預(yù)測(cè)所需的輸出。
非線性:?這是應(yīng)用於卷積濾波器的方程，它允許CNN學(xué)習(xí)輸入和輸出影像之間的複雜關(guān)係。
池化:?也稱為“最大池化”，它只選擇一系列數(shù)字中的最大數(shù)字。這有助於減少表達(dá)的大小並減少CNN必須進(jìn)行的計(jì)算量，用於提升效率。

這三種運(yùn)算的結(jié)合組成了完全卷積網(wǎng)路。

2.2 CNN的用例

CNN（卷積神經(jīng)網(wǎng)路）是一種常用於解決與空間資料相關(guān)的問(wèn)題的神經(jīng)網(wǎng)絡(luò)，通常用於影像（2D CNN）和音訊（ 1D CNN）等領(lǐng)域。 CNN的廣泛應(yīng)用包括人臉辨識(shí)、醫(yī)學(xué)分析和分類(lèi)等。透過(guò)CNN，可以在影像或音訊資料中捕捉到更細(xì)緻的特徵，從而實(shí)現(xiàn)更精確的識(shí)別和分析。此外，CNN也可以應(yīng)用於其他領(lǐng)域，如自然語(yǔ)言處理和時(shí)間序列資料等?？傊?，CNN是可以幫助我們更好地理解和分析各種類(lèi)型的數(shù)據(jù)。

2.3 CNN對(duì)比FCN的優(yōu)勢(shì)

參數(shù)共享/運(yùn)算可行性:

#由於CNN使用參數(shù)共享，所以CNN與FCN架構(gòu)的權(quán)重?cái)?shù)量通常相差幾個(gè)數(shù)量級(jí)。

對(duì)於全連接神經(jīng)網(wǎng)絡(luò)，有一個(gè)形狀為(Hin×Win×Cin)的輸入和一個(gè)形狀為(Hout×Wout×Cout)的輸出。這意味著輸出特徵的每個(gè)像素顏色都與輸入特徵的每個(gè)像素顏色連接。對(duì)於輸入影像和輸出影像的每個(gè)像素，都有一個(gè)獨(dú)立的可學(xué)習(xí)參數(shù)。因此，參數(shù)數(shù)為(Hin×Hout×Win×Wout×Cin×Cout)。

在卷積層中，輸入是形狀為(Hin,Win,Cin)的圖像，權(quán)重考慮給定像素的鄰域大小為K×K。輸出是給定像素及其鄰域的加權(quán)和。輸入通道和輸出通道的每個(gè)對(duì)(Cin,Cout)都有一個(gè)單獨(dú)的內(nèi)核，但內(nèi)核的權(quán)重形狀為(K,K,Cin,Cout)的張量與位置無(wú)關(guān)。實(shí)際上，該層可以接受任何分辨率的圖像，而全連接層只能使用固定分辨率。最后，該層參數(shù)為(K,K,Cin,Cout)，對(duì)于內(nèi)核大小K遠(yuǎn)小于輸入分辨率的情況，變量數(shù)量會(huì)顯著減少。

自從AlexNet贏得ImageNet比賽以來(lái)，每個(gè)贏得比賽的神經(jīng)網(wǎng)絡(luò)都使用了CNN組件，這一事實(shí)證明CNN對(duì)于圖像數(shù)據(jù)更有效。很可能找不到任何有意義的比較，因?yàn)閮H使用FC層處理圖像數(shù)據(jù)是不可行的，而CNN可以處理這些數(shù)據(jù)。為什么呢？

FC層中有1000個(gè)神經(jīng)元的權(quán)重?cái)?shù)量對(duì)于圖像而言大約為1.5億。?這僅僅是一個(gè)層的權(quán)重?cái)?shù)量。?而現(xiàn)代的CNN體系結(jié)構(gòu)具有50-100層，同時(shí)具有總共幾十萬(wàn)個(gè)參數(shù)（例如，ResNet50具有23M個(gè)參數(shù)，Inception V3具有21M個(gè)參數(shù)）。

從數(shù)學(xué)角度來(lái)看，比較CNN和FCN（具有100個(gè)隱藏單元）之間的權(quán)重?cái)?shù)量，輸入圖像為500×500×3的話：

FC layer 的 Wx =?100×(500×500×3)=100×750000=75M
CNN layer =?

<code>((shape of width of the filter * shape of height of the filter * number of filters in the previous layer+1)*number of filters)( +1 是為了偏置) = (Fw×Fh×D+1)×F=(5×5×3+1)?2=152</code>

平移不變性

不變性指的是一個(gè)對(duì)象即使位置發(fā)生了改變，仍然能夠被正確地識(shí)別。這通常是一個(gè)積極的特性，因?yàn)樗S護(hù)了對(duì)象的身份（或類(lèi)別）。這里的“平移”是指在幾何學(xué)中的特定含義。下圖顯示了相同的對(duì)象在不同的位置上，由于平移不變性，CNN能夠正確地識(shí)別它們都是貓。

3. 循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）

RNN是構(gòu)建其他深度學(xué)習(xí)架構(gòu)的基礎(chǔ)網(wǎng)絡(luò)體系結(jié)構(gòu)之一。一個(gè)關(guān)鍵的不同之處在于，與正常的前饋網(wǎng)絡(luò)不同，RNN可以具有反饋到其先前或同一層的連接。從某種意義上說(shuō)，RNN在先前的計(jì)算中具有“記憶”，并將這些信息用于當(dāng)前處理。

深度學(xué)習(xí)架構(gòu)的比較分析

3.1 RNN 的架構(gòu)特點(diǎn)

“Recurrent”這個(gè)術(shù)語(yǔ)適用于網(wǎng)絡(luò)在每個(gè)序列實(shí)例上執(zhí)行相同的任務(wù)，因此輸出取決于先前的計(jì)算和結(jié)果。

RNN自然適用于許多NLP任務(wù)，如語(yǔ)言建模。它們能夠捕捉“狗”和“熱狗”之間的含義差異，因此RNN是為建模語(yǔ)言和類(lèi)似序列建模任務(wù)中的這種上下文依賴而量身定制的，這成為在這些領(lǐng)域使用RNN而不是CNN的主要原因。RNN的另一個(gè)優(yōu)點(diǎn)是模型大小不隨輸入大小而增加，因此有可能處理任意長(zhǎng)度的輸入。

此外，與CNN不同的是，RNN具有靈活的計(jì)算步驟，提供更好的建模能力，并創(chuàng)造了捕捉無(wú)限上下文的可能性，因?yàn)樗紤]了歷史信息，并且其權(quán)重在時(shí)間上是共享的。然而，循環(huán)神經(jīng)網(wǎng)絡(luò)會(huì)面臨梯度消失問(wèn)題。梯度變得很小，因此使得反向傳播的更新權(quán)重非常小。由于每個(gè)標(biāo)記需要順序處理以及存在梯度消失/爆炸，RNN訓(xùn)練速度慢并且有時(shí)很難收斂。

下圖斯坦福大學(xué)是RNN架構(gòu)示例。

深度學(xué)習(xí)架構(gòu)的比較分析

另一個(gè)需要注意的是，CNN與RNN具有不同的架構(gòu)。CNN是一種前饋神經(jīng)網(wǎng)絡(luò)，它使用過(guò)濾器和池化層，而RNN則通過(guò)自回歸的方式將結(jié)果反饋到網(wǎng)絡(luò)中。

3.2 RNN的典型用例

RNN是一種專(zhuān)門(mén)用于分析時(shí)間序列數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)。其中，時(shí)間序列數(shù)據(jù)是指按時(shí)間順序排列的數(shù)據(jù)，例如文本或視頻。RNN在文本翻譯、自然語(yǔ)言處理、情感分析和語(yǔ)音分析等方面具有廣泛的應(yīng)用。例如，它可以用于分析音頻記錄，以便識(shí)別說(shuō)話人的語(yǔ)音并將其轉(zhuǎn)換為文本。另外，RNN還可以用于文本生成，例如為電子郵件或社交媒體發(fā)布創(chuàng)建文本。?

3.3 RNN 與CNN 的比較優(yōu)勢(shì)

在CNN中，輸入和輸出的大小是固定的。這意味著CNN接收固定大小的圖像，並將其輸出到適當(dāng)?shù)募?jí)別，同時(shí)伴隨其預(yù)測(cè)的置信度。然而，在RNN中，輸入和輸出的大小可能會(huì)有所變化。這個(gè)特性適用於需要可變大小輸入和輸出的應(yīng)用，例如生成文字。

門(mén)控循環(huán)單元（GRU）和長(zhǎng)短時(shí)記憶單元（LSTM）都提供了解決循環(huán)神經(jīng)網(wǎng)路（RNN）遇到的梯度消失問(wèn)題的解決方案。

4. 長(zhǎng)短記憶神經(jīng)網(wǎng)路(LSTM)

長(zhǎng)短記憶神經(jīng)網(wǎng)路（LSTM）是一種特殊的RNN。它透過(guò)學(xué)習(xí)長(zhǎng)期依賴關(guān)係，使RNN更容易在許多時(shí)間戳上保留資訊。下圖是LSTM架構(gòu)的可視化表示。

深度學(xué)習(xí)架構(gòu)的比較分析

#LSTM無(wú)所不在，可以在許多應(yīng)用程式或產(chǎn)品中找到，例如智慧型手機(jī)。其強(qiáng)大之處在於它擺脫了典型的基於神經(jīng)元的架構(gòu)，而是採(cǎi)用了記憶單元的概念。這個(gè)記憶單元根據(jù)其輸入的函數(shù)保留其值，可以短時(shí)間或長(zhǎng)時(shí)間保持其值。這允許單元記住重要的內(nèi)容，而不僅僅是最後計(jì)算的值。

LSTM 記憶單元包含三個(gè)門(mén)，控制其單元內(nèi)的訊息流入或流出。

輸入閘門(mén)：控制何時(shí)可以將資訊流入記憶體。

深度學(xué)習(xí)架構(gòu)的比較分析

忘記門(mén)：負(fù)責(zé)追蹤哪些資訊可以“遺忘”，為處理單元騰出空間記住新資料。

深度學(xué)習(xí)架構(gòu)的比較分析

輸出閘門(mén)：決定處理單元內(nèi)儲(chǔ)存的資訊何時(shí)可以用作細(xì)胞的輸出。

深度學(xué)習(xí)架構(gòu)的比較分析

LSTM對(duì)比於GRU和RNN的優(yōu)缺點(diǎn)

相較於GRU和尤其是RNN，LSTM可以學(xué)習(xí)到更長(zhǎng)期的依賴關(guān)係。由於有三個(gè)閘門(mén)（GRU中為兩個(gè)，RNN中為零），因此與RNN和GRU相比，LSTM有較多的參數(shù)。這些額外的參數(shù)允許LSTM模型更好地處理複雜的序列數(shù)據(jù)，如自然語(yǔ)言或時(shí)間序列數(shù)據(jù)。此外，LSTM還可以處理變長(zhǎng)的輸入序列，因?yàn)樗鼈兊拈l門(mén)結(jié)構(gòu)允許它們忽略不必要的輸入。因此，LSTM在許多應(yīng)用中都表現(xiàn)出色，包括語(yǔ)音辨識(shí)、機(jī)器翻譯和股票市場(chǎng)預(yù)測(cè)等。

5. 閘控循環(huán)單元(GRU)

GRU有兩個(gè)閘門(mén)：更新閘和重置閘門(mén)（本質(zhì)上是兩個(gè)向量），以決定應(yīng)該傳遞什麼訊息到輸出。

深度學(xué)習(xí)架構(gòu)的比較分析

重設(shè)閘門(mén)（Reset gate）：?幫助模型決定可以忘記多少過(guò)去的資訊。
更新閘門(mén)（Update gate）：?幫助模型確定過(guò)去資訊（先前的時(shí)間步驟）中有多少需要傳遞到未來(lái)。

GRU對(duì)比LSTM 和RNN的優(yōu)缺點(diǎn)

與RNN類(lèi)似，GRU也是一種遞歸神經(jīng)網(wǎng)絡(luò)，它可以有效地長(zhǎng)時(shí)間保留資訊並捕捉比RNN更長(zhǎng)的依賴關(guān)係。然而，GRU相比較於LSTM更為簡(jiǎn)單，訓(xùn)練速度更快。

儘管GRU在實(shí)作上比RNN更為複雜，但由於其僅包含兩個(gè)門(mén)控機(jī)制，因此其參數(shù)數(shù)量較少，通常無(wú)法像LSTM那樣捕捉更長(zhǎng)範(fàn)圍的依賴關(guān)係。因此，GRU在某些情況下可能需要更多的訓(xùn)練資料以達(dá)到與LSTM相同的表現(xiàn)水準(zhǔn)。

此外，由於GRU相對(duì)較為簡(jiǎn)單，其運(yùn)算成本也較低，因此在資源有限的環(huán)境下，如行動(dòng)裝置或嵌入式系統(tǒng)，使用GRU可能更為合適。另一方面，如果模型的準(zhǔn)確性對(duì)應(yīng)用至關(guān)重要，則LSTM可能是更好的選擇。

6.Transformer

有關(guān) Transformers 的論文?「Attention is All You Need」?幾乎是 Arxiv 上有史以來(lái)排名第一的論文。變形金剛是一種大型編碼器-解碼器模型，能夠使用複雜的注意力機(jī)制來(lái)處理整個(gè)序列。

深度學(xué)習(xí)架構(gòu)的比較分析

通常，在自然語(yǔ)言處理應(yīng)用中，首先使用嵌入演算法將每個(gè)輸入單字轉(zhuǎn)換為向量。嵌入只在最底層的編碼器中發(fā)生。所有編碼器共享的抽像是，它們接收一個(gè)大小為512的向量列表，這將是詞嵌入，但在其他編碼器中，它將是直接位於下面的編碼器輸出中。

注意提供了解決瓶頸問(wèn)題的方法。對(duì)於這些類(lèi)型的模型，上下文向量成為了一個(gè)瓶頸，這使得模型難以處理長(zhǎng)句子。注意力允許模型根據(jù)需要集中關(guān)注輸入序列的相關(guān)部分，並將每個(gè)單字的表示視為一個(gè)查詢，以存取和合併一組值中的資訊。

6.1 Transformer的架構(gòu)特點(diǎn)

通常，在Transformer架構(gòu)中，編碼器能夠?qū)⑺须[藏狀態(tài)傳遞給解碼器。但是，在產(chǎn)生輸出之前，解碼器使用注意力進(jìn)行了額外的步驟。解碼器透過(guò)其softmax得分乘以每個(gè)隱藏狀態(tài)，從而放大得分更高的隱藏狀態(tài)並淹沒(méi)其他隱藏狀態(tài)。這使得模型能夠集中關(guān)注與輸出相關(guān)的輸入部分。

自我專(zhuān)注位於編碼器中，第一步是從每個(gè)編碼器輸入向量（每個(gè)單字的嵌入）建立3個(gè)向量：Key、Query和Value向量，這些向量是透過(guò)將嵌入乘以在訓(xùn)練過(guò)程中訓(xùn)練的3個(gè)矩陣來(lái)建立的。 K、V、Q維度為64，而嵌入和編碼器輸入/輸出向量的維度為512。下圖來(lái)自Jay Alammar的 Illustrated Transformer，這可能是網(wǎng)路上最好的視覺(jué)化解讀。

深度學(xué)習(xí)架構(gòu)的比較分析

這個(gè)清單的大小是可以設(shè)定的超參數(shù)，基本上將是訓(xùn)練資料集中最長(zhǎng)句子的長(zhǎng)度。

注意：

深度學(xué)習(xí)架構(gòu)的比較分析

#什麼是query、key和value向量？它們是在計(jì)算和思考注意力時(shí)有用的抽象概念。在解碼器中的交叉注意力除了輸入之外，計(jì)算與自註意力的計(jì)算相同。交叉注意力不對(duì)稱地組合了兩個(gè)維度相同的獨(dú)立嵌入序列，而自註意力的輸入是單獨(dú)的嵌入序列。

為了討論Transformer，還必須討論兩個(gè)預(yù)訓(xùn)練模型，即BERT和GPT，因?yàn)樗鼈儗?dǎo)致了Transformer的成功。

GPT?的預(yù)訓(xùn)練解碼器有12層，其中包含768維隱藏狀態(tài)，3072維前饋隱藏層，採(cǎi)用40,000個(gè)合併的位元組對(duì)編碼。主要應(yīng)用在自然語(yǔ)言的推理中，將句子對(duì)標(biāo)示為蘊(yùn)含、矛盾或中性。

BERT是預(yù)訓(xùn)練編碼器，使用掩碼語(yǔ)言建模，將輸入中的一部分單字替換為特殊的[MASK]標(biāo)記，然後嘗試預(yù)測(cè)這些單字。因此，只需要在預(yù)測(cè)的掩碼單字上計(jì)算損失。兩種BERT模型大小都有大量的編碼器層（論文稱為T(mén)ransformer塊）-Base版本有12個(gè)，Large版本有24個(gè)。這些也具有比初始論文中Transformer參考實(shí)作中的預(yù)設(shè)配置（6個(gè)編碼器層，512個(gè)隱藏單元和8個(gè)注意頭）更大的前饋網(wǎng)路（分別為768和1024個(gè)隱藏單元）和更多的注意頭（分別為12和16）。 BERT模型很容易進(jìn)行微調(diào)，通?？梢栽趩我籊PU上完成。 BERT可以用在NLP中翻譯，特別是低資源語(yǔ)言翻譯。

Transformer的一個(gè)效能缺點(diǎn)是，它們?cè)谧晕谊P(guān)注方面的計(jì)算時(shí)間是二次的，而RNN只是線性成長(zhǎng)。

6.2 Transformer的用例

6.2.1 語(yǔ)言領(lǐng)域

在傳統(tǒng)的語(yǔ)言模型中，相鄰的單字會(huì)先被分組在一起，而Transformer則能夠並行處理，使得輸入資料中的每個(gè)元素都能夠連接或關(guān)注每個(gè)其他元素。這被稱為「自我注意力」。這意味著Transformer一開(kāi)始訓(xùn)練時(shí)就可以看到整個(gè)資料集的內(nèi)容。

在Transformer出現(xiàn)之前，AI語(yǔ)言任務(wù)的進(jìn)展在很大程度上落後於其他領(lǐng)域的發(fā)展。實(shí)際上，在過(guò)去的10年左右的深度學(xué)習(xí)革命中，自然語(yǔ)言處理是後來(lái)者，而NLP在某種程度上落後於電腦視覺(jué)。然而，隨著Transformers的出現(xiàn)，NLP領(lǐng)域得到了極大的推動(dòng)，並且推出了一系列在各種NLP任務(wù)中取得佳績(jī)的模型。

例如，為了理解基於傳統(tǒng)語(yǔ)言模型（基於遞歸架構(gòu)，如RNN、LSTM或GRU）與Transformer之間的區(qū)別，我們可以舉個(gè)例子：「The owl spied a squirrel. It tried to grab it with its talons but only got the end of its tail.」第二句的結(jié)構(gòu)很令人困惑：那個(gè)「it」是指什麼？?jī)H專(zhuān)注於「it」周?chē)鷨巫值膫鹘y(tǒng)語(yǔ)言模型會(huì)遇到困難，但是將每個(gè)單字與每個(gè)其他單字相連的Transformer可以分辨出貓頭鷹抓住了松鼠，而鬆鼠失去了部分尾巴。

6.2.2 視覺(jué)領(lǐng)域

在CNN中，我們從局部開(kāi)始，逐漸獲得全局視角。 CNN透過(guò)從局部到全局的方式建構(gòu)特徵，逐像素識(shí)別影像，以識(shí)別例如角落或線條等特徵。然而，在transformer中，透過(guò)自我注意力，即使在資訊處理的第一層上，也會(huì)建立遠(yuǎn)端影像位置之間的連接（就像語(yǔ)言一樣）。如果CNN的方法就像從單一像素開(kāi)始縮放，那麼transformer會(huì)逐漸將整個(gè)模糊的影像聚焦。

深度學(xué)習(xí)架構(gòu)的比較分析

CNN透過(guò)重複應(yīng)用輸入資料的局部補(bǔ)丁上的濾鏡，產(chǎn)生局部特徵表示，並逐步增加它們的感受視野並建立全局特徵表示。正是因?yàn)榫矸e，照片應(yīng)用程式才能將梨子與雲(yún)彩區(qū)分開(kāi)來(lái)。在transformer架構(gòu)之前，CNN被認(rèn)為是視覺(jué)任務(wù)不可或缺的。

Vision Transformer模型的架構(gòu)與2017年提出的第一個(gè)transformer幾乎相同，只有一些微小的變化使其能夠分析圖像而不是單字。由於語(yǔ)言往往是離散的，因此需要將輸入影像離散化，以使transformer能夠處理視覺(jué)輸入。在每個(gè)像素上完全模仿語(yǔ)言方法並執(zhí)行自我關(guān)注將計(jì)算時(shí)間變得極為昂貴。因此，ViT將更大的圖像分成方形單元或補(bǔ)?。?lèi)似於NLP中的令牌）。大小是任意的，因?yàn)楦鶕?jù)原始影像的分辨率，token可以變大或變?。A(yù)設(shè)為16x16像素）。但是透過(guò)處理組中的像素並對(duì)每個(gè)像素應(yīng)用自我注意力，ViT可以快速處理巨大的訓(xùn)練資料集，輸出越來(lái)越準(zhǔn)確的分類(lèi)。

6.2.3 多模態(tài)任務(wù)

與Transformer 相比，其他深度學(xué)習(xí)架構(gòu)只會(huì)一種技巧，而多模態(tài)學(xué)習(xí)需要在一個(gè)流暢的架構(gòu)中處理具有不同模式的模態(tài)，並具有相當(dāng)高的關(guān)係歸納偏差，才能達(dá)到人類(lèi)智能的水平。換句話說(shuō)，需要一個(gè)單一多用途的架構(gòu)，可以無(wú)縫地在閱讀/觀看、說(shuō)話和聆聽(tīng)等感官之間轉(zhuǎn)換。

對(duì)於多模態(tài)任務(wù)，需要同時(shí)處理多種類(lèi)型的數(shù)據(jù)，如原始圖像、視訊和語(yǔ)言等，而 Transformer 提供了通用架構(gòu)的潛力。

深度學(xué)習(xí)架構(gòu)的比較分析

由於早期架構(gòu)中採(cǎi)用的分立方法，每種類(lèi)型的資料都有自己特定的模型，因此這是一項(xiàng)難以完成的任務(wù)。然而，Transformer 提供了一種簡(jiǎn)單的方法來(lái)組合多個(gè)輸入來(lái)源。例如，多模態(tài)網(wǎng)路可以為系統(tǒng)提供動(dòng)力，讀取人的嘴唇動(dòng)作並同時(shí)使用語(yǔ)言和圖像資訊的豐富表示來(lái)監(jiān)聽(tīng)他們的聲音。透過(guò)交叉注意力，Transformer 能夠從不同來(lái)源衍生查詢、鍵和值向量，成為多模態(tài)學(xué)習(xí)的強(qiáng)大工具。

因此，Transformer 是實(shí)現(xiàn)神經(jīng)網(wǎng)路架構(gòu)「融合」的一大步，從而可以幫助實(shí)現(xiàn)對(duì)多種模態(tài)資料的通用處理。

6.3 Transformer對(duì)比RNN/GRU/LSTM的優(yōu)缺點(diǎn)

與RNN/GRU/LSTM相比，Transformer可以學(xué)習(xí)比RNN和其變體（如GRU和LSTM）更長(zhǎng)的依賴關(guān)係。

然而，最大的好處來(lái)自於Transformer如何適用於並行化。與在每個(gè)時(shí)間步驟處理一個(gè)單字的RNN不同，Transformer的一個(gè)關(guān)鍵屬性是每個(gè)位置上的單字都通過(guò)自己的路徑流經(jīng)編碼器。在自我注意力層中，由於自我注意層計(jì)算每個(gè)輸入序列中的其他單字對(duì)該單字的重要性，這些路徑之間存在依賴關(guān)係。但是，一旦產(chǎn)生了自我注意力輸出，前饋層就沒(méi)有這些依賴關(guān)係，因此各個(gè)路徑可以在通過(guò)前饋層時(shí)並行執(zhí)行。這在Transformer編碼器的情況下是一個(gè)特別有用的特性，它可以在自我注意力層後與其他單字並行處理每個(gè)輸入單字。然而，這個(gè)特性對(duì)於解碼器並不是非常重要，因?yàn)樗淮沃划a(chǎn)生一個(gè)單詞，不使用平行單字路徑。

Transformer架構(gòu)的運(yùn)行時(shí)間與輸入序列的長(zhǎng)度呈二次方關(guān)係，這表示當(dāng)處理長(zhǎng)文件或?qū)⒆衷鳛檩斎霑r(shí)，處理速度可能會(huì)很慢。換句話說(shuō)，在進(jìn)行自我注意力形成期間，需要計(jì)算所有交互對(duì)，這意味著計(jì)算隨著序列長(zhǎng)度呈二次增長(zhǎng)，即O(T^2?d)，其中T序列長(zhǎng)度，D是維度。例如，對(duì)應(yīng)一個(gè)簡(jiǎn)單的句子d=1000，T≤30?T^2≤900?T^2d≈900K。而對(duì)於循環(huán)神經(jīng)，它僅以線性方式成長(zhǎng)。

如果Transformer不需要在句子中的每一對(duì)單字之間計(jì)算成對(duì)的交互作用，那不是很好？有研究表明可以在不計(jì)算所有單字對(duì)之間的交互作用（例如透過(guò)近似成對(duì)關(guān)注）的情況下實(shí)現(xiàn)相當(dāng)高的表現(xiàn)水準(zhǔn)。

與CNN相比，Transformer的資料需求極高。 CNN仍然具有樣本效率，這使它們成為低資源任務(wù)的絕佳選擇。這對(duì)於圖像/視訊生成任務(wù)尤其如此，即使對(duì)於CNN架構(gòu)，需要大量資料（因此暗示Transformer架構(gòu)需要極高的資料需求）。例如，Radford等人最近提出的CLIP架構(gòu)是使用基於CNN的ResNets作為視覺(jué)骨幹進(jìn)行訓(xùn)練的（而不是類(lèi)似ViT的Transformer架構(gòu)）。雖然Transformer在滿足其數(shù)據(jù)需求後提供了準(zhǔn)確性提升，但CNN則提供了一種在可用數(shù)據(jù)量不是異常高的任務(wù)中提供良好準(zhǔn)確性表現(xiàn)的方式。因此，兩種架構(gòu)都有其用途。

由於Transformer 架構(gòu)的運(yùn)行時(shí)間與輸入序列的長(zhǎng)度呈現(xiàn)二次方關(guān)係。也就是說(shuō)，在所有單字對(duì)上計(jì)算注意力需要圖中邊的數(shù)量隨節(jié)點(diǎn)數(shù)呈二次方增長(zhǎng)，即在一個(gè) n 個(gè)單字的句子中，Transformer 需要計(jì)算 n^2 個(gè)單字對(duì)。這意味著參數(shù)數(shù)量龐大（即記憶體佔(zhàn)用高），導(dǎo)致計(jì)算複雜度高。高運(yùn)算需求對(duì)電源和電池壽命都會(huì)產(chǎn)生負(fù)面影響，特別是對(duì)於可移動(dòng)裝置而言?？傮w而言，為了提供更好的效能（例如準(zhǔn)確性），Transformer需要更高的運(yùn)算能力、更多的資料、電源/電池壽命和記憶體佔(zhàn)用。

7. 推理偏差

實(shí)踐中使用的每個(gè)機(jī)器學(xué)習(xí)演算法，從最近鄰到梯度提升，都帶有自己關(guān)於哪些分類(lèi)更容易學(xué)習(xí)的歸納偏差。幾乎所有學(xué)習(xí)演算法都有一個(gè)偏差，即學(xué)習(xí)那些相似的項(xiàng)（在某些特徵空間中「接近」彼此）更可能屬於同一類(lèi)。線性模型，例如邏輯迴歸，也假設(shè)類(lèi)別可以透過(guò)線性邊界分離，這是一個(gè)「硬」偏差，因?yàn)槟Ｐ蜔o(wú)法學(xué)習(xí)其他內(nèi)容。即便對(duì)於正則化回歸，這幾乎是機(jī)器學(xué)習(xí)中經(jīng)常使用的類(lèi)型，也存在一種偏差，即傾向於學(xué)習(xí)涉及少數(shù)特徵，具有低特徵權(quán)重的邊界，這是「軟」偏差，因?yàn)槟Ｐ涂梢詫W(xué)習(xí)涉及許多具有高權(quán)重功能的類(lèi)別邊界，但這更困難/需要更多資料。

即使是深度學(xué)習(xí)模型也同樣具有推理偏差，例如，LSTM神經(jīng)網(wǎng)路對(duì)自然語(yǔ)言處理任務(wù)非常有效，因?yàn)樗蜢对陂L(zhǎng)序列上保留上下文資訊。

深度學(xué)習(xí)架構(gòu)的比較分析

了解領(lǐng)域知識(shí)和問(wèn)題難度可以幫助我們選擇適當(dāng)?shù)难菟惴☉?yīng)用。例如，從臨床記錄中提取相關(guān)術(shù)語(yǔ)以確定患者是否被診斷為癌癥的問(wèn)題。在這種情況下，邏輯迴歸表現(xiàn)良好，因?yàn)橛性S多獨(dú)立有資訊量的術(shù)語(yǔ)。對(duì)於其他問(wèn)題，例如從複雜的PDF報(bào)告中提取遺傳測(cè)試的結(jié)果，使用LSTM可以更好地處理每個(gè)單字的長(zhǎng)程上下文，從而獲得更好的效能。一旦選擇了基礎(chǔ)演算法，了解其偏差也可以幫助我們執(zhí)行特徵工程，即選擇要輸入到學(xué)習(xí)演算法中的資訊的過(guò)程。

每個(gè)模型結(jié)構(gòu)都有一種內(nèi)在的推理偏差，幫助理解資料中的模式，從而實(shí)現(xiàn)學(xué)習(xí)。例如，CNN表現(xiàn)出空間參數(shù)共享、平移/空間不變性，而RNN則表現(xiàn)出時(shí)間參數(shù)共享。

8. 小結(jié)

老碼農(nóng)嘗試比較分析了深度學(xué)習(xí)架構(gòu)中的Transformer、CNN、RNN/GRU/LSTM，理解到Transformer可以學(xué)習(xí)更長(zhǎng)的依賴關(guān)係，但需要更高的數(shù)據(jù)需求和計(jì)算能力；Transformer適用於多模態(tài)任務(wù)，可以無(wú)縫地在閱讀/觀看、說(shuō)話和聽(tīng)取等感官之間轉(zhuǎn)換；每個(gè)模型結(jié)構(gòu)都有一種內(nèi)在的推理偏差，幫助理解數(shù)據(jù)中的模式，從而實(shí)現(xiàn)學(xué)習(xí)。

【參考資料】

CNN vs fully connected network for image recognition?，https://stats.stackexchange.com/questions/341863/cnn-vs-fully-connected -network-for-image-recognition
https://web.stanford.edu/class/archive/cs/cs224n/cs224n.1184/lectures/lecture12.pdf
#Introduction to LSTM Units in RNN，https://www.pluralsight.com/guides/introduction-to-lstm-units-in-rnn
Learning Transferable Visual Models From Natural Language Supervision，https://arxiv.org/ abs/2103.00020
Linformer: Self-Attention with Linear Complexity，https://arxiv.org/abs/2006.04768
Rethinking Attention with Performers，https://arxiv.org/abs/
Rethinking Attention with Performers，https://arxiv.org/abs/
Rethinking Attention with Performers，https://arxiv.org/abs/
」 2009.14794
Big Bird: Transformers for Longer Sequences，https://arxiv.org/abs/2007.14062

Synthesizer: Rethinking Self-Attention in Transformer Models，https://arxiv.org/ abs/2005.00743######Do Vision Transformers See Like Convolutional Neural Networks?，https://arxiv.org/abs/2108.08810######Illustrated Transformer，https://jalammar.github. -transformer/######

以上是深度學(xué)習(xí)架構(gòu)的比較分析的詳細(xì)內(nèi)容。更多資訊請(qǐng)關(guān)注PHP中文網(wǎng)其他相關(guān)文章！

本網(wǎng)站聲明

本文內(nèi)容由網(wǎng)友自願(yuàn)投稿，版權(quán)歸原作者所有。本站不承擔(dān)相應(yīng)的法律責(zé)任。如發(fā)現(xiàn)涉嫌抄襲或侵權(quán)的內(nèi)容，請(qǐng)聯(lián)絡(luò)admin@php.cn