国产av日韩一区二区三区精品,成人性爱视频在线观看,国产,欧美,日韩,一区,www.成色av久久成人,2222eeee成人天堂

目次
1. 完全接続ネットワーク (FCN)
2. 畳み込みニューラル ネットワーク (CNN)
2.1 CNN のアーキテクチャ機能
3. リカレント ニューラル ネットワーク (RNN)
3.1 RNN のアーキテクチャ上の特徴
3.2 RNN の一般的な使用例
3.3 RNN と CNN の比較利點
4. ロング ショート メモリ ニューラル ネットワーク (LSTM)
GRU および RNN と比較した LSTM の長所と短所
5. ゲート付きリカレント ユニット (GRU)
6.トランスフォーマー
6.2.2 ビジョンフィールド
7. 推論バイアス
8. 概要
ホームページ テクノロジー周辺機器 AI 深層學(xué)習(xí)アーキテクチャの比較分析

深層學(xué)習(xí)アーキテクチャの比較分析

May 17, 2023 pm 04:34 PM
建築 データ ディープラーニング

ディープ ラーニングの概念は、人工ニューラル ネットワークの研究に由來しており、複數(shù)の隠れ層を含む多層パーセプトロンがディープ ラーニング構(gòu)造です。ディープラーニングは、低レベルの特徴を組み合わせて、データのカテゴリや特性を表すより抽象的な高レベルの表現(xiàn)を形成します。データの分散された特徴表現(xiàn)を検出できます。ディープラーニングは機械學(xué)習(xí)の一種であり、機械學(xué)習(xí)は人工知能を?qū)g現(xiàn)する唯一の方法です。

それでは、さまざまな深層學(xué)習(xí)システム アーキテクチャの違いは何でしょうか?

1. 完全接続ネットワーク (FCN)

完全接続ネットワーク (FCN) は、完全に接続された一連の層で構(gòu)成され、各層の各ニューロンは別の層に接続されています。その主な利點は、「構(gòu)造に依存しない」ことです。つまり、入力に関する特別な仮定が必要ありません。この構(gòu)造に依存しないため、完全に接続されたネットワークは非常に広く適用可能になりますが、そのようなネットワークは、問題空間の構(gòu)造に特化して調(diào)整された特殊なネットワークよりもパフォーマンスが低下する傾向があります。

次の図は、多層深度完全接続ネットワークを示しています:

深層學(xué)習(xí)アーキテクチャの比較分析

2. 畳み込みニューラル ネットワーク (CNN)

畳み込みニューラル ネットワーク (CNN) は、主に畫像処理アプリケーションで使用される多層ニューラル ネットワーク アーキテクチャです。 CNN アーキテクチャは、入力に畫像などの空間次元 (およびオプションで深度次元) があることを明示的に想定しており、これにより特定のプロパティをモデル アーキテクチャにエンコードできます。 Yann LeCun は、もともと手書き文字を認(rèn)識するために使用されていたアーキテクチャである最初の CNN を作成しました。

2.1 CNN のアーキテクチャ機能

CNN を使用したコンピューター ビジョン モデルの技術(shù)的な詳細(xì)を説明します:

  • モデルの入力: CNN モデルの入力通常は畫像またはテキストです。 CNN はテキストにも使用できますが、通常はあまり使用されません。

畫像は、ここではピクセルのグリッドとして表されます。これは正の整數(shù)のグリッドであり、各數(shù)値に色が割り當(dāng)てられています。

  • # モデルの出力: モデルの出力は、予測しようとしている內(nèi)容によって異なります。次の例は、いくつかの一般的なタスクを示しています。
  • 深層學(xué)習(xí)アーキテクチャの比較分析#単純な畳み込みニューラル ネットワークは一連の層で構(gòu)成され、各層は微分可能関數(shù)を通じてアクティベーション ボリュームを別の表現(xiàn)に変換します。畳み込みニューラル ネットワークのアーキテクチャでは、主に畳み込み層、プーリング層、全結(jié)合層の 3 種類の層が使用されます。以下の畫像は、畳み込みニューラル ネットワーク層のさまざまな部分を示しています。

畳み込み: 畳み込みフィルターは、加算と乗算の演算を使用して畫像をスキャンします。 CNN は、畳み込みフィルターの値を?qū)W習(xí)して、目的の出力を予測しようとします。

非線形性: これは畳み込みフィルターに適用される方程式で、CNN が入力畫像と出力畫像の間の複雑な関係を?qū)W習(xí)できるようになります。

    プーリング: 「最大プーリング」とも呼ばれ、一連の數(shù)値の中から最大の數(shù)値のみを選択します。これにより、式のサイズが小さくなり、CNN が実行する必要がある計算の量が減り、効率が向上します。
  • これら 3 つの操作を組み合わせると、完全な畳み込みネットワークが形成されます。
  • 2.2 CNN の使用例
CNN (畳み込みニューラル ネットワーク) は、通常畫像 (2D CNN) や音聲 (1D CNN) などの空間データに関連する問題を解決するために一般的に使用されるニューラル ネットワークです。そして他の分野。 CNN の応用範(fàn)囲は幅広く、顔認(rèn)識、醫(yī)療分析と分類などが含まれます。 CNN を使用すると、畫像または音聲データのより詳細(xì)な特徴をキャプチャできるため、より正確な認(rèn)識と分析が実現(xiàn)します。さらに、CNN は自然言語処理や時系列データなどの他の分野にも適用できます。つまり、CNN はさまざまな種類のデータをより深く理解し、分析するのに役立ちます。

2.3 FCN に対する CNN の利點

パラメータ共有/計算の実現(xiàn)可能性:

CNN はパラメータ共有を使用するため、CNN アーキテクチャと FCN アーキテクチャの重みの數(shù)は通常數(shù)桁異なります。大きさ。

完全接続ニューラル ネットワークの場合、(Hin × Win × Cin) の形狀を持つ入力と (Hout × Wout × Cout) の形狀を持つ出力があります。これは、出力フィーチャのすべてのピクセル カラーが入力フィーチャのすべてのピクセル カラーに関連付けられていることを意味します。入力畫像と出力畫像の各ピクセルには、獨立した學(xué)習(xí)可能なパラメーターがあります。したがって、パラメータの數(shù)は、(Hin×Hout×Win×Wout×Cin×Cout)となる。

畳み込み層では、入力は形狀の畫像 (Hin、Win、Cin) であり、重みは指定されたピクセルの近傍サイズを K×K とみなします。出力は、特定のピクセルとその近傍のピクセルの加重合計です。入力チャネルと出力チャネルのペア (Cin、Cout) ごとに個別のカーネルがありますが、カーネルの重みは位置に依存しない形狀テンソル (K、K、Cin、Cout) です。実際、このレイヤーは任意の解像度の畫像を受け入れることができますが、完全に接続されたレイヤーは固定解像度のみを使用できます。最後に、層パラメータは (K, K, Cin, Cout) です。カーネル サイズ K が入力解像度よりもはるかに小さい場合、変數(shù)の數(shù)は大幅に減少します。

AlexNet が ImageNet コンペティションで優(yōu)勝して以來、優(yōu)勝したすべてのニューラル ネットワークが CNN コンポーネントを使用しているという事実は、CNN が畫像データに対してより効果的であることを証明しています。 CNN は畫像データを処理できる一方で、FC レイヤーのみを使用して畫像データを処理することは現(xiàn)実的ではないため、意味のある比較が見つからない可能性が非常に高くなります。なぜ?

FC 層內(nèi)の 1,000 個のニューロンを含む重みの數(shù)は、畫像では約 1 億 5,000 萬個になります。これは、レイヤーのウェイトの數(shù)にすぎません。最新の CNN アーキテクチャには、合計數(shù)十萬のパラメーターを備えた 50 ~ 100 のレイヤーがあります (たとえば、ResNet50 には 2,300 萬のパラメーターがあり、Inception V3 には 2,100 萬のパラメーターがあります)。

數(shù)學(xué)的な観點から、入力畫像が 500×500×3 の場合、CNN と FCN (100 個の隠れユニットあり) の重みの數(shù)を比較します:

  • FC層 Wx = 100×(500×500×3)=100×750000=75M
  • CNN 層 =
<code>((shape of width of the filter * shape of height of the filter * number of filters in the previous layer+1)*number of filters)( +1 是為了偏置) = (Fw×Fh×D+1)×F=(5×5×3+1)?2=152</code>

翻訳不変性

不変性はオブジェクトを指します位置が変わっても正しく識別できます。これは、オブジェクトのアイデンティティ (またはカテゴリ) を維持するため、通常は肯定的な機能です。ここでの「平行移動」は幾何學(xué)において特別な意味を持ちます。下の畫像は、異なる場所にある同じオブジェクトを示しています。変換の不変性により、CNN はそれらが両方とも貓であることを正しく識別できます。

3. リカレント ニューラル ネットワーク (RNN)

RNN は、他の深層學(xué)習(xí)アーキテクチャが構(gòu)築される基本的なネットワーク アーキテクチャの 1 つです。主な違いは、通常のフィードフォワード ネットワークとは異なり、RNN は前の層または同じ層にフィードバックする接続を持つことができることです。ある意味、RNN は以前の計算の「メモリ」を持っており、この情報を現(xiàn)在の処理に使用します。

深層學(xué)習(xí)アーキテクチャの比較分析

3.1 RNN のアーキテクチャ上の特徴

「リカレント」という用語は、各シーケンス インスタンスで同じタスクを?qū)g行するネットワークに適用されます。したがって、出力は以前の計算と結(jié)果に依存します。

RNN は、言語モデリングなどの多くの NLP タスクに當(dāng)然適しています。これらは「犬」と「ホットドッグ」の意味の違いを捉えることができるため、RNN は言語におけるこの種のコンテキスト依存性のモデリングや同様のシーケンス モデリング タスク向けにカスタマイズされており、これらの領(lǐng)域ではむしろ RNN を使用する必要があります。 CNNの主な理由より。 RNN のもう 1 つの利點は、入力サイズによってモデル サイズが増加しないため、任意の長さの入力を処理できることです。

さらに、CNN とは異なり、RNN には柔軟な計算ステップがあり、より優(yōu)れたモデリング機能が提供され、履歴情報が考慮され、その重みが時間共有されるため、無制限のコンテキストをキャプチャする可能性が生まれます。ただし、リカレント ニューラル ネットワークには勾配消失の問題があります。勾配が非常に小さくなるため、バックプロパゲーションの更新重みが非常に小さくなります。各ラベルに必要な逐次処理と、勾配の消失/爆発の存在により、RNN トレーニングは遅くなり、場合によっては収束が困難になります。

スタンフォード大學(xué)からの以下の図は、RNN アーキテクチャの例です。

深層學(xué)習(xí)アーキテクチャの比較分析

もう 1 つ注意すべき點は、CNN と RNN のアーキテクチャが異なることです。 CNN はフィルターとプーリング層を使用するフィードフォワード ニューラル ネットワークですが、RNN は自己回帰を通じて結(jié)果をネットワークにフィードバックします。

3.2 RNN の一般的な使用例

RNN は、時系列データを分析するために特別に設(shè)計されたニューラル ネットワークです。このうち?xí)r系列データとは、テキストや動畫など、時系列に並べられたデータのことを指します。 RNN は、テキスト翻訳、自然言語処理、感情分析、音聲分析に幅広く応用できます。たとえば、音聲録音を分析して話者の発話を識別し、テキストに変換するために使用できます。さらに、RNN は、電子メールやソーシャル メディア投稿用のテキストの作成などのテキスト生成にも使用できます。

3.3 RNN と CNN の比較利點

CNN では、入力サイズと出力サイズが固定されています。これは、CNN が固定サイズの畫像を取得し、それを予測の信頼性とともに適切なレベルに出力することを意味します。ただし、RNN では、入力サイズと出力サイズが異なる場合があります。この機能は、テキストの生成など、可変サイズの入出力が必要なアプリケーションに役立ちます。

ゲート型リカレント ユニット (GRU) と長期短期記憶ユニット (LSTM) はどちらも、リカレント ニューラル ネットワーク (RNN) が遭遇する勾配消失問題の解決策を提供します。

4. ロング ショート メモリ ニューラル ネットワーク (LSTM)

ロング ショート メモリ ニューラル ネットワーク (LSTM) は、特殊なタイプの RNN です。これにより、RNN は長期的な依存関係を?qū)W習(xí)することで、多數(shù)のタイムスタンプにわたって情報を保持しやすくなります。以下の図は、LSTM アーキテクチャを視覚的に表現(xiàn)したものです。

深層學(xué)習(xí)アーキテクチャの比較分析

深層學(xué)習(xí)アーキテクチャの比較分析

LSTM は遍在しており、多くのアプリケーションや製品で使用できます。スマートフォンとして。その威力は、典型的なニューロンベースのアーキテクチャから離れ、代わりにメモリユニットの概念を採用しているという事実にあります。このメモリ ユニットは、入力の機能に従ってその値を保持し、その値を短期間または長期間保持できます。これにより、ユニットは最後に計算された値だけでなく、重要なことを記憶できるようになります。

LSTM メモリ ユニットには、ユニット內(nèi)の情報の流入または流出を制御する 3 つのゲートが含まれています。

  • 入力ゲート: 情報がいつメモリに流入できるかを制御します。

深層學(xué)習(xí)アーキテクチャの比較分析

忘れゲート: 処理裝置が新しいデータを記憶する余地を作るために、どの情報が「忘れられる」可能性があるかを追跡する責(zé)任を負(fù)います。

深層學(xué)習(xí)アーキテクチャの比較分析

出力ゲート: 処理ユニット內(nèi)に保存された情報をいつセルの出力として使用できるかを決定します。

深層學(xué)習(xí)アーキテクチャの比較分析

GRU および RNN と比較した LSTM の長所と短所

GRU との比較特に RNN と LSTM は長期的な依存関係を?qū)W習(xí)できます。ゲートが 3 つあるため (GRU には 2 つ、RNN には 0 つ)、LSTM には RNN や GRU と比較してより多くのパラメーターがあります。これらの追加パラメーターにより、LSTM モデルは自然言語や時系列データなどの複雑なシーケンス データをより適切に処理できるようになります。さらに、LSTM はゲート構(gòu)造により不要な入力を無視できるため、可変長の入力シーケンスも処理できます。その結(jié)果、LSTM は音聲認(rèn)識、機械翻訳、株式市場予測などの多くのアプリケーションで良好なパフォーマンスを発揮します。

5. ゲート付きリカレント ユニット (GRU)

GRU には、どの情報を出力に渡すかを決定するための 2 つのゲート、更新ゲートとリセット ゲート (基本的に 2 つのベクトル) があります。

深層學(xué)習(xí)アーキテクチャの比較分析

    #リセット ゲート: モデルがどの程度の過去の情報を忘れてもよいかを決定するのに役立ちます。
  • 更新ゲート: モデルがどれだけの過去の情報 (前の時間ステップ) を?qū)恧硕嗓贡匾ⅳ毪驔Q定するのに役立ちます。
LSTM と RNN を比較した GRU の長所と短所

RNN と同様に、GRU もリカレント ニューラル ネットワークであり、情報を長期間効果的に保持し、より長くキャプチャすることができます。 RNN の依存関係。ただし、GRU は LSTM よりもトレーニングが簡単で高速です。

GRU は実裝が RNN よりも複雑ですが、GRU には 2 つのゲート メカニズムしか含まれていないため、パラメーターの數(shù)が少なく、一般に LSTM のような長距離の依存関係をキャプチャできません。したがって、GRU では、LSTM と同じパフォーマンス レベルを達(dá)成するために、場合によってはより多くのトレーニング データが必要になる場合があります。

さらに、GRU は比較的単純で計算コストが低いため、モバイル デバイスや組み込みシステムなど、リソースが限られた環(huán)境では GRU を使用する方が適切である可能性があります。一方、モデルの精度がアプリケーションにとって重要な場合は、LSTM の方が良い選択となる可能性があります。

6.トランスフォーマー

トランスフォーマーに関する論文「Attending is All You Need」は、Arxiv 上でほぼナンバーワンの論文です。 Transformer は、複雑なアテンション メカニズムを使用してシーケンス全體を処理できる大規(guī)模なエンコーダ/デコーダ モデルです。

深層學(xué)習(xí)アーキテクチャの比較分析

# 通常、自然言語処理アプリケーションでは、各入力単語はまず埋め込みアルゴリズムを使用してベクトルに変換されます。埋め込みは最下位レベルのエンコーダでのみ行われます。すべてのエンコーダで共有される抽象化は、サイズ 512 のベクトルのリストを受け取ることです。これは単語の埋め込みになりますが、他のエンコーダでは、それはエンコーダ出力の直下になります。

#Attention はボトルネック問題の解決策を提供します。このようなタイプのモデルでは、コンテキスト ベクトルがボトルネックとなり、モデルが長い文を処理することが困難になります。アテンションにより、モデルは必要に応じて入力シーケンスの関連部分に焦點を當(dāng)て、各単語の表現(xiàn)をクエリとして扱い、一連の値の情報にアクセスして結(jié)合することができます。

6.1 Transformer アーキテクチャの特徴

一般に、Transformer アーキテクチャでは、エンコーダはすべての隠れた狀態(tài)をデコーダに渡すことができます。ただし、デコーダは出力を生成する前に注意を払って追加のステップを?qū)g行します。デコーダは各隠れ狀態(tài)にそのソフトマックス スコアを乗算することで、よりスコアの高い隠れ狀態(tài)を増幅し、他の隠れ狀態(tài)をフラッディングします。これにより、モデルは出力に関連する入力の部分に焦點を當(dāng)てることができます。

セルフ アテンションはエンコーダ內(nèi)にあります。最初のステップは、各エンコーダ入力ベクトル (各単語の埋め込み) から 3 つのベクトルを作成することです: キー ベクトル、クエリ ベクトル、および値ベクトルです。これらのベクトルは、埋め込みを変換することによって取得されます。トレーニング中にトレーニングされた 3 つの行列を乗算して作成されます。 K、V、Q の次元は 64 ですが、埋め込みベクトルとエンコーダの入出力ベクトルの次元は 512 です。下の寫真は Jay Alammar の Illustrated Transformer からのもので、これはおそらくインターネット上で最も優(yōu)れた視覚的解釈です。

深層學(xué)習(xí)アーキテクチャの比較分析

このリストのサイズは設(shè)定可能なハイパーパラメーターであり、基本的にはトレーニング データ セット內(nèi)の最も長い文の長さになります。

    注意:

深層學(xué)習(xí)アーキテクチャの比較分析

クエリ、キー、値ベクトルとは何ですか?これらは、注意を計算したり考えるときに役立つ抽象的な概念です。デコーダにおけるクロスアテンションの計算は、入力を除いてセルフアテンションの計算と同じです。クロスアテンションは、同じ次元の 2 つの獨立した埋め込みシーケンスを非対稱に組み合わせますが、セルフアテンションの入力は単一の埋め込みシーケンスです。

Transformer について説明するには、BERT と GPT という 2 つの事前トレーニング済みモデルについても説明する必要があります。これらのモデルが Transformer の成功につながったからです。

GPT の事前トレーニングされたデコーダーには、768 次元の隠れ狀態(tài)、3072 次元のフィードフォワード隠れ層を含む 12 層があり、40,000 のマージされたバイト ペアでエンコードされます。これは主に自然言語推論で、文のペアを含意、矛盾、または中立としてマークするために使用されます。

BERT は、マスクされた言語モデリングを使用して入力內(nèi)の単語の一部を特別な [MASK] トークンに置き換え、それらの単語の予測を試みる事前トレーニングされたエンコーダーです。したがって、損失は予測されたマスクされた単語に対してのみ計算する必要があります。どちらの BERT モデル サイズにも、多數(shù)のエンコーダー レイヤー (論文では Transformer ブロックと呼ばれます) が含まれています。Base バージョンでは 12、Large バージョンでは 24 です。これらには、より大きなフィードフォワード ネットワーク (それぞれ 768 と 1024 の隠れユニット) があり、最初の論文の Transformer リファレンス実裝のデフォルト構(gòu)成 (6 つのエンコーダー層、512 の隠れユニット、8 つのアテンション ヘッド) よりも多くのアテンション ヘッド (それぞれ 12 と 16) があります。 )。 BERT モデルは微調(diào)整が簡単で、通常は単一の GPU で実行できます。 BERT は、NLP での翻訳、特に低リソース言語の翻訳に使用できます。

Transformers のパフォーマンス上の欠點の 1 つは、RNN が線形にしか増加しないのに対し、自己注意での計算時間が二次関數(shù)であることです。

6.2 Transformer の使用例

6.2.1 言語フィールド

従來の言語モデルでは、まず隣接する?yún)g語がグループ化されますが、Transformer は並列処理できるため、すべての要素が入力データは他のすべての要素に接続または付隨します。これを「自己注意」といいます。これは、Transformer がトレーニングを開始するとすぐにデータセット全體の內(nèi)容を確認(rèn)できることを意味します。

Transformer が登場する前は、AI 言語タスクの進(jìn)歩は他の分野の発展に大きく遅れをとっていた。実際、過去 10 年ほどの深層學(xué)習(xí)革命では、自然言語処理は後発であり、NLP はコンピューター ビジョンにある程度遅れをとっていました。しかし、Transformers の出現(xiàn)により、NLP 分野は大きな後押しを受け、さまざまな NLP タスクで良好な結(jié)果を達(dá)成する一連のモデルが発売されました。

たとえば、従來の言語モデル (RNN、LSTM、GRU などの再帰的アーキテクチャに基づく) と Transformers の違いを理解するために、次のような例を挙げることができます。爪でそれをつかみましたが、尻尾の端だけを手に入れました?!?2 番目の文の構(gòu)造は混亂しています。その「それ」は何を意味しますか? 「それ」の周囲の単語のみに焦點を當(dāng)てる従來の言語モデルでは困難ですが、各単語を他の単語に接続するトランスフォーマーは、フクロウがリスを捕まえたこと、リスが尻尾の一部を失ったことを伝えることができます。

6.2.2 ビジョンフィールド

CNN では、ローカルから始めて、徐々にグローバルな視點を獲得します。 CNN は、ローカルからグローバルまで特徴を構(gòu)築してコーナーや線などの特徴を識別することにより、畫像をピクセルごとに認(rèn)識します。しかし、変換器では、自己注意を通じて、情報処理の第一レベルでも(言語と同様に)遠(yuǎn)隔の畫像位置間の接続が確立されます。 CNN アプローチが単一ピクセルから開始するスケーリングに似ている場合、トランスフォーマーはぼやけた畫像全體に徐々に焦點を合わせます。

深層學(xué)習(xí)アーキテクチャの比較分析

#CNN は、入力データのローカル パッチにフィルターを繰り返し適用することでローカル特徴表現(xiàn)を生成し、徐々に受容視野を広げてグローバル特徴を構(gòu)築します。表現(xiàn)。寫真アプリが梨と雲(yún)を區(qū)別できるのは、畳み込みのおかげです。トランスフォーマー アーキテクチャが登場する前は、CNN はビジョン タスクに不可欠であると考えられていました。

Vision Transformer モデルのアーキテクチャは、2017 年に提案された最初の Transformer とほぼ同じですが、単語の代わりに畫像を分析できるようにするための小さな変更がいくつかあります。言語は離散的になる傾向があるため、トランスフォーマーが視覚入力を処理できるようにするには、入力畫像を離散化する必要があります。言語アプローチを正確に模倣し、すべてのピクセルに対してセルフアテンションを?qū)g行すると、計算時間が法外に高くなります。したがって、ViT は大きな畫像を正方形のセルまたはパッチに分割します (NLP のトークンと同様)。トークンは元の畫像の解像度 (デフォルトは 16x16 ピクセル) に応じて大きくなったり小さくなったりする可能性があるため、サイズは任意です。しかし、ピクセルをグループで処理し、各ピクセルにセルフ アテンションを適用することで、ViT は膨大なトレーニング データ セットを迅速に処理し、ますます正確な分類を出力できます。

6.2.3 マルチモーダル タスク

Transformer と比較すると、他の深層學(xué)習(xí)アーキテクチャには 1 つのスキルしかありませんが、マルチモーダル學(xué)習(xí)では、スムーズ アーキテクチャ モーダルでさまざまなモードを処理する必要があり、非常に高いスキルが必要です。人間の知性のレベルに到達(dá)するための高い関係誘導(dǎo)バイアス。言い換えれば、読む/見る、話す、聞くといった感覚の間をシームレスに移行できる、単一の多目的アーキテクチャが必要でした。

マルチモーダル タスクの場合、元の畫像、ビデオ、言語など、複數(shù)の種類のデータを同時に処理する必要があります。Transformer は、一般的なアーキテクチャの可能性を提供します。

深層學(xué)習(xí)アーキテクチャの比較分析

以前のアーキテクチャでは個別のアプローチが採用されており、各タイプのデータに獨自の特定のモデル タスクがあったため、これを達(dá)成するのは困難なタスクでした。ただし、Transformer を使用すると、複數(shù)の入力ソースを簡単に組み合わせることができます。たとえば、マルチモーダル ネットワークは、言語と畫像情報の豊富な表現(xiàn)を同時に使用して、人々の唇の動きを読み取り、その聲を聞くシステムを強化することができます。 Transformer はクロスアテンションを通じて、さまざまなソースからクエリ、キー、および値のベクトルを?qū)Г訾工长趣扦毪郡?、マルチモーダル學(xué)習(xí)の強力なツールになります。

したがって、Transformer は、ニューラル ネットワーク アーキテクチャの「融合」に向けた大きな一歩であり、複數(shù)のモーダル データの汎用処理の実現(xiàn)に役立ちます。

6.3 RNN/GRU/LSTM と比較した Transformer の長所と短所

RNN/GRU/LSTM と比較した場合、Transformer は RNN およびそのバリアント (GRU や LSTM など) よりも長時間學(xué)習(xí)できます。 。

ただし、最大のメリットは、Transformer が並列化に適していることです。各タイム ステップで 1 つの単語を処理する RNN とは異なり、Transformer の重要な特性は、各位置の単語が獨自のパスを介してエンコーダーを通過することです。セルフアテンション層では、その単語に対する各入力シーケンス內(nèi)の他の単語の重要性を計算するため、これらのパス間に依存関係が存在します。ただし、セルフアテンション出力が生成されると、フィードフォワード層にはこれらの依存関係がなくなるため、個々のパスはフィードフォワード層を通過するときに並行して実行できます。これは、セルフアテンション層の後で各入力単語を他の単語と並行して処理する Transformer エンコーダの場合に特に便利な機能です。ただし、この機能は一度に 1 ワードのみを生成し、並列ワード パスを使用しないため、デコーダにとってはあまり重要ではありません。

Transformer アーキテクチャの実行時間は、入力シーケンスの長さに応じて二次関數(shù)的に増加します。つまり、長いドキュメントや文字を入力として処理する場合、処理が遅くなる可能性があります。言い換えれば、セルフアテンションの形成中に、すべての相互作用ペアを計算する必要があります。これは、計算がシーケンスの長さ、つまり O(T^2 d) に応じて二次関數(shù)的に増大することを意味します。ここで、T はシーケンスの長さ、D は次元。例えば、単文 d=1000 に対応すると、T≤30?T^2≤900?T^2d≈900Kとなります。そして、循環(huán)神経の場合、直線的にのみ成長します。

Transformer が文內(nèi)のすべての単語のペア間の相互作用を計算する必要がなければ、素晴らしいと思いませんか?すべての単語ペア間の相互作用を計算しなくても (ペアごとの注意を近似することによって) 非常に高いパフォーマンス レベルを達(dá)成できることを示す研究があります。

CNN と比較すると、Transformer には非常に高いデータ要件があります。 CNN は依然としてサンプル効率が高いため、リソースが少ないタスクには優(yōu)れた選択肢となります。これは、CNN アーキテクチャであっても大量のデータを必要とする畫像/ビデオ生成タスクに特に當(dāng)てはまります (したがって、Transformer アーキテクチャの非常に高いデータ要件を意味します)。たとえば、Radford らが最近提案した CLIP アーキテクチャは、ビジュアル バックボーンとして (ViT のような Transformer アーキテクチャの代わりに) CNN ベースの ResNets を使用してトレーニングされています。 Transformer はデータ要件が満たされると精度が向上しますが、CNN は利用可能なデータの量が異常に多くないタスクで優(yōu)れた精度パフォーマンスを提供する方法を提供します。したがって、どちらのアーキテクチャにもそれぞれの用途があります。

Transformer アーキテクチャの実行時間は、入力シーケンスの長さと 2 次の関係があるためです。つまり、すべての単語のペアに対するアテンションを計算するには、グラフ內(nèi)のエッジの數(shù)がノードの數(shù)に応じて二次関數(shù)的に増加する必要があります。つまり、n 単語の文の場合、Transformer は n^2 の単語のペアを計算する必要があります。これは、パラメーターの數(shù)が膨大である (つまり、メモリ使用量が多い) ことを意味し、その結(jié)果、計算の複雑さが高くなります。高いコンピューティング要件は、特にモバイル デバイスの場合、電力とバッテリー壽命の両方に悪影響を及ぼします。全體として、より優(yōu)れたパフォーマンス (精度など) を提供するために、Transformer はより高いコンピューティング能力、より多くのデータ、電力/バッテリー壽命、およびメモリー占有面積を必要とします。

7. 推論バイアス

ニアレストネイバーから勾配ブースティングまで、実際に使用されるすべての機械學(xué)習(xí)アルゴリズムには、どのカテゴリが學(xué)習(xí)しやすいかについての獨自の帰納的バイアスが伴います。ほとんどすべての學(xué)習(xí)アルゴリズムには、類似した (ある特徴空間で互いに「近い」) アイテムは同じクラスに屬する可能性が高いという學(xué)習(xí)バイアスがあります。ロジスティック回帰などの線形モデルも、カテゴリが線形境界によって分離できると想定していますが、モデルは他に何も學(xué)習(xí)できないため、これは「ハード」バイアスとなります。機械學(xué)習(xí)でほぼ常に使用される正則化回帰の場合でも、特徴の重みが低く、少數(shù)の特徴が関與する境界の學(xué)習(xí)に偏りがあり、モデルは多くのクラスを?qū)W習(xí)できるため、これは「ソフト」バイアスです。重みの高い特徴を含む境界を作成しますが、これはより困難であり、より多くのデータが必要です。

ディープ ラーニング モデルにも推論バイアスがあります。たとえば、LSTM ニューラル ネットワークは、長いシーケンスにわたってコンテキスト情報を保持することを好むため、自然言語処理タスクに非常に効果的です。

深層學(xué)習(xí)アーキテクチャの比較分析

#ドメインの知識と問題の難易度を理解すると、適切なアルゴリズム アプリケーションを選択するのに役立ちます。たとえば、患者が癌と診斷されているかどうかを判斷するために、臨床記録から関連する用語を抽出するという問題があります。この場合、獨立した情報を與える用語が多數(shù)あるため、ロジスティック回帰は適切に実行されます。複雑な PDF レポートから遺伝子検査の結(jié)果を抽出するなど、他の問題については、LSTM を使用すると各単語の長距離コンテキストをより適切に処理できるため、パフォーマンスが向上します。基本アルゴリズムを選択したら、そのバイアスを理解することは、學(xué)習(xí)アルゴリズムに供給する情報を選択するプロセスである特徴量エンジニアリングの実行にも役立ちます。

各モデル構(gòu)造には固有の推論バイアスがあり、データ內(nèi)のパターンを理解するのに役立ち、それによって學(xué)習(xí)が可能になります。たとえば、CNN は空間パラメータ共有と変換/空間不変性を示しますが、RNN は時間パラメータ共有を示します。

8. 概要

古いプログラマーは、ディープ ラーニング アーキテクチャで Transformer、CNN、RNN/GRU/LSTM を比較および分析しようとしましたが、Transformer はより長い依存関係を?qū)W習(xí)できることを理解しましたが、それには、より高いデータ要件とコンピューティング能力。Transformer はマルチモーダルなタスクに適しており、読む/見る、話す、聞くなどの感覚をシームレスに切り替えることができます。各モデル構(gòu)造には、學(xué)習(xí)を達(dá)成するためにデータ モデルを理解するのに役立つ固有の推論バイアスがあります。 。

【參考】

  • 畫像認(rèn)識のための CNN と完全に接続されたネットワーク?、https://stats.stackexchange.com/questions/341863/cnn-vs-full-connected - network-for-image-recognition
  • https://web.stanford.edu/class/archive/cs/cs224n/cs224n.1184/lectures/lecture12.pdf
  • LSTM ユニットの概要RNN、https://www.pluralsight.com/guides/introduction-to-lstm-units-in-rnn
  • 自然言語監(jiān)督からの転送可能なビジュアル モデルの學(xué)習(xí)、https://arxiv.org/ abs /2103.00020
  • リンフォーマー: 線形複雑性による自己注意、https://arxiv.org/abs/2006.04768
  • パフォーマーによる注意の再考、https://arxiv.org/abs/ 2009.14794
  • Big Bird: より長いシーケンスのためのトランスフォーマー、https://arxiv.org/abs/2007.14062
  • シンセサイザー: トランスフォーマー モデルにおける自己注意の再考、https://arxiv.org/ abs /2005.00743
  • ビジョン トランスフォーマーは畳み込みニューラル ネットワークに似ていますか?、https://arxiv.org/abs/2108.08810
  • イラスト付きトランスフォーマー、https://jalammar.github.io/illustrated -変成器/######

以上が深層學(xué)習(xí)アーキテクチャの比較分析の詳細(xì)內(nèi)容です。詳細(xì)については、PHP 中國語 Web サイトの他の関連記事を參照してください。

このウェブサイトの聲明
この記事の內(nèi)容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰屬します。このサイトは、それに相當(dāng)する法的責(zé)任を負(fù)いません。盜作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡(luò)ください。

ホットAIツール

Undress AI Tool

Undress AI Tool

脫衣畫像を無料で

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード寫真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

寫真から衣服を削除するオンライン AI ツール。

Clothoff.io

Clothoff.io

AI衣類リムーバー

Video Face Swap

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中國語版

SublimeText3 中國語版

中國語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統(tǒng)合開発環(huán)境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

ddrescue を使用して Linux 上のデータを回復(fù)する ddrescue を使用して Linux 上のデータを回復(fù)する Mar 20, 2024 pm 01:37 PM

DDREASE は、ハード ドライブ、SSD、RAM ディスク、CD、DVD、USB ストレージ デバイスなどのファイル デバイスまたはブロック デバイスからデータを回復(fù)するためのツールです。あるブロック デバイスから別のブロック デバイスにデータをコピーし、破損したデータ ブロックを殘して正常なデータ ブロックのみを移動します。 ddreasue は、回復(fù)操作中に干渉を必要としないため、完全に自動化された強力な回復(fù)ツールです。さらに、ddasue マップ ファイルのおかげでいつでも停止および再開できます。 DDREASE のその他の主要な機能は次のとおりです。 リカバリされたデータは上書きされませんが、反復(fù)リカバリの場合にギャップが埋められます。ただし、ツールに明示的に指示されている場合は切り詰めることができます。複數(shù)のファイルまたはブロックから単一のファイルにデータを復(fù)元します

オープンソース!ゾーイデプスを超えて! DepthFM: 高速かつ正確な単眼深度推定! オープンソース!ゾーイデプスを超えて! DepthFM: 高速かつ正確な単眼深度推定! Apr 03, 2024 pm 12:04 PM

0.この記事は何をするのですか?私たちは、多用途かつ高速な最先端の生成単眼深度推定モデルである DepthFM を提案します。従來の深度推定タスクに加えて、DepthFM は深度修復(fù)などの下流タスクでも最先端の機能を?qū)g証します。 DepthFM は効率的で、いくつかの推論ステップ內(nèi)で深度マップを合成できます。この作品について一緒に読みましょう? 1. 論文情報タイトル: DepthFM: FastMonocularDepthEstimationwithFlowMatching 著者: MingGui、JohannesS.Fischer、UlrichPrestel、PingchuanMa、Dmytr

ORB-SLAM3を超えて! SL-SLAM: 低照度、重度のジッター、弱いテクスチャのシーンはすべて処理されます。 ORB-SLAM3を超えて! SL-SLAM: 低照度、重度のジッター、弱いテクスチャのシーンはすべて処理されます。 May 30, 2024 am 09:35 AM

以前に書きましたが、今日は、深層學(xué)習(xí)テクノロジーが複雑な環(huán)境におけるビジョンベースの SLAM (同時ローカリゼーションとマッピング) のパフォーマンスをどのように向上させることができるかについて説明します。ここでは、深部特徴抽出と深度マッチング手法を組み合わせることで、低照度條件、動的照明、テクスチャの弱い領(lǐng)域、激しいセックスなどの困難なシナリオでの適応を改善するように設(shè)計された多用途のハイブリッド ビジュアル SLAM システムを紹介します。當(dāng)社のシステムは、拡張単眼、ステレオ、単眼慣性、ステレオ慣性構(gòu)成を含む複數(shù)のモードをサポートしています。さらに、他の研究にインスピレーションを與えるために、ビジュアル SLAM と深層學(xué)習(xí)手法を組み合わせる方法も分析します。公開データセットと自己サンプリングデータに関する広範(fàn)な実験を通じて、測位精度と追跡堅牢性の點で SL-SLAM の優(yōu)位性を?qū)g証しました。

iPhoneのセルラーデータインターネット速度が遅い:修正 iPhoneのセルラーデータインターネット速度が遅い:修正 May 03, 2024 pm 09:01 PM

iPhone のモバイル データ接続に遅延や遅い問題が発生していませんか?通常、攜帯電話の攜帯インターネットの強度は、地域、攜帯ネットワークの種類、ローミングの種類などのいくつかの要因によって異なります。より高速で信頼性の高いセルラー インターネット接続を?qū)g現(xiàn)するためにできることがいくつかあります。解決策 1 – iPhone を強制的に再起動する 場合によっては、デバイスを強制的に再起動すると、攜帯電話接続を含む多くの機能がリセットされるだけです。ステップ 1 – 音量を上げるキーを 1 回押して放します。次に、音量小キーを押して、もう一度放します。ステップ 2 – プロセスの次の部分は、右側(cè)のボタンを押し続けることです。 iPhone の再起動が完了するまで待ちます。セルラーデータを有効にし、ネットワーク速度を確認(rèn)します。もう一度確認(rèn)してください 修正 2 – データ モードを変更する 5G はより優(yōu)れたネットワーク速度を提供しますが、信號が弱い場合はより適切に機能します

Google は大喜び: JAX のパフォーマンスが Pytorch や TensorFlow を上回りました! GPU 推論トレーニングの最速の選択肢となる可能性があります Google は大喜び: JAX のパフォーマンスが Pytorch や TensorFlow を上回りました! GPU 推論トレーニングの最速の選択肢となる可能性があります Apr 01, 2024 pm 07:46 PM

Google が推進(jìn)する JAX のパフォーマンスは、最近のベンチマーク テストで Pytorch や TensorFlow のパフォーマンスを上回り、7 つの指標(biāo)で 1 位にランクされました。また、テストは最高の JAX パフォーマンスを備えた TPU では行われませんでした。ただし、開発者の間では、依然として Tensorflow よりも Pytorch の方が人気があります。しかし、將來的には、おそらくより大規(guī)模なモデルが JAX プラットフォームに基づいてトレーニングされ、実行されるようになるでしょう。モデル 最近、Keras チームは、ネイティブ PyTorch 実裝を使用して 3 つのバックエンド (TensorFlow、JAX、PyTorch) をベンチマークし、TensorFlow を使用して Keras2 をベンチマークしました。まず、主流のセットを選択します

テスラのロボットは工場で働く、マスク氏:手の自由度は今年22に達(dá)する! テスラのロボットは工場で働く、マスク氏:手の自由度は今年22に達(dá)する! May 06, 2024 pm 04:13 PM

テスラのロボット「オプティマス」の最新映像が公開され、すでに工場內(nèi)で稼働可能となっている。通常の速度では、バッテリー(テスラの4680バッテリー)を次のように分類します:公式は、20倍の速度でどのように見えるかも公開しました - 小さな「ワークステーション」上で、ピッキング、ピッキング、ピッキング:今回は、それがリリースされたハイライトの1つビデオの內(nèi)容は、オプティマスが工場內(nèi)でこの作業(yè)を完全に自律的に行??い、プロセス全體を通じて人間の介入なしに完了するというものです。そして、オプティマスの観點から見ると、自動エラー修正に重點を置いて、曲がったバッテリーを拾い上げたり配置したりすることもできます。オプティマスのハンドについては、NVIDIA の科學(xué)者ジム ファン氏が高く評価しました。オプティマスのハンドは、世界の 5 本指ロボットの 1 つです。最も器用。その手は觸覚だけではありません

Spring Data JPA のアーキテクチャと動作原理は何ですか? Spring Data JPA のアーキテクチャと動作原理は何ですか? Apr 17, 2024 pm 02:48 PM

SpringDataJPA は JPA アーキテクチャに基づいており、マッピング、ORM、トランザクション管理を通じてデータベースと対話します。そのリポジトリは CRUD 操作を提供し、派生クエリによりデータベース アクセスが簡素化されます。さらに、遅延読み込みを使用して必要な場合にのみデータを取得するため、パフォーマンスが向上します。

超強い!深層學(xué)習(xí)アルゴリズムのトップ 10! 超強い!深層學(xué)習(xí)アルゴリズムのトップ 10! Mar 15, 2024 pm 03:46 PM

2006 年にディープ ラーニングの概念が提案されてから、ほぼ 20 年が経過しました。ディープ ラーニングは、人工知能分野における革命として、多くの影響力のあるアルゴリズムを生み出してきました。では、ディープラーニングのトップ 10 アルゴリズムは何だと思いますか?私の考えでは、ディープ ラーニングのトップ アルゴリズムは次のとおりで、いずれもイノベーション、アプリケーションの価値、影響力の點で重要な位置を占めています。 1. ディープ ニューラル ネットワーク (DNN) の背景: ディープ ニューラル ネットワーク (DNN) は、多層パーセプトロンとも呼ばれ、最も一般的なディープ ラーニング アルゴリズムです。最初に発明されたときは、コンピューティング能力のボトルネックのため疑問視されていました。最近まで長年にわたる計算能力、データの爆発的な増加によって畫期的な進(jìn)歩がもたらされました。 DNN は、複數(shù)の隠れ層を含むニューラル ネットワーク モデルです。このモデルでは、各層が入力を次の層に渡し、

See all articles