国产av日韩一区二区三区精品,成人性爱视频在线观看,国产,欧美,日韩,一区,www.成色av久久成人,2222eeee成人天堂

Inhaltsverzeichnis
1. Vollst?ndig verbundenes Netzwerk (FCN)
2. Convolutional Neural Network (CNN) ist eine mehrschichtige neuronale Netzwerkarchitektur, die haupts?chlich für Bilder dient Bearbeitung von Antr?gen. Die CNN-Architektur geht ausdrücklich davon aus, dass die Eingabe eine r?umliche Dimension (und optional eine Tiefendimension) hat, beispielsweise ein Bild, was die Codierung bestimmter Eigenschaften in die Modellarchitektur erm?glicht. Yann LeCun schuf das erste CNN, eine Architektur, die ursprünglich zur Erkennung handgeschriebener Zeichen verwendet wurde.
Aufschlüsseln der technischen Details von Computer-Vision-Modellen mit CNN:
CNN (Convolutional Neural Network) ist eine Art neuronales Netzwerk, das h?ufig zur L?sung von Problemen im Zusammenhang mit r?umlichen Daten verwendet wird, normalerweise in Bereichen wie Bildern (2D CNN) und Audio (1D CNN). Das breite Anwendungsspektrum von CNN umfasst Gesichtserkennung, medizinische Analyse und Klassifizierung usw. Durch CNN k?nnen detailliertere Merkmale in Bild- oder Audiodaten erfasst werden, wodurch eine genauere Erkennung und Analyse erreicht wird. Darüber hinaus kann CNN auch auf andere Bereiche angewendet werden, beispielsweise auf die Verarbeitung natürlicher Sprache und Zeitreihendaten. Kurz gesagt: CNN kann uns helfen, verschiedene Arten von Daten besser zu verstehen und zu analysieren. 2.3 Vorteile von CNN gegenüber FCN
3. Recurrent Neural Network (RNN)
3.1 Architekturmerkmale von RNN
3.2 Typische Anwendungsf?lle von RNN
3.3 Komparative Vorteile von RNN und CNN
4. Long Short Memory Neural Network (LSTM)
Vor- und Nachteile von LSTM im Vergleich zu GRU und RNN
5. Gated Recurrent Unit (GRU)
GRU vergleicht die Vor- und Nachteile von LSTM und RNN
6.Transformer
6.1 Architekturmerkmale von Transformer
6.2.2 Sichtfeld
7. Inferenzverzerrung
8. Zusammenfassung
Heim Technologie-Peripherieger?te KI Vergleichende Analyse von Deep-Learning-Architekturen

Vergleichende Analyse von Deep-Learning-Architekturen

May 17, 2023 pm 04:34 PM
Architektur Daten Tiefes Lernen

Das Konzept des Deep Learning stammt aus der Erforschung künstlicher neuronaler Netze. Ein mehrschichtiges Perzeptron, das mehrere verborgene Schichten enth?lt, ist eine Deep-Learning-Struktur. Deep Learning kombiniert Funktionen auf niedriger Ebene, um abstraktere Darstellungen auf hoher Ebene zu bilden, um Kategorien oder Merkmale von Daten darzustellen. Es ist in der Lage, verteilte Merkmalsdarstellungen von Daten zu erkennen. Deep Learning ist eine Form des maschinellen Lernens, und maschinelles Lernen ist der einzige Weg, künstliche Intelligenz zu erreichen.

Was sind also die Unterschiede zwischen verschiedenen Deep-Learning-Systemarchitekturen?

1. Vollst?ndig verbundenes Netzwerk (FCN)

Ein vollst?ndig verbundenes Netzwerk (FCN) besteht aus einer Reihe vollst?ndig verbundener Schichten, wobei jedes Neuron in jeder Schicht mit jedem Neuron in einer anderen Schicht verbunden ist. Sein Hauptvorteil besteht darin, dass es ?strukturunabh?ngig“ ist, d. h. es sind keine besonderen Annahmen über die Eingabe erforderlich. Obwohl diese Strukturunabh?ngigkeit vollst?ndig verbundene Netzwerke sehr breit anwendbar macht, sind solche Netzwerke tendenziell schw?cher als spezialisierte Netzwerke, die speziell auf die Struktur des Problemraums abgestimmt sind.

Die folgende Abbildung zeigt ein mehrschichtiges, vollst?ndig verbundenes Netzwerk:

Vergleichende Analyse von Deep-Learning-Architekturen

2. Convolutional Neural Network (CNN) ist eine mehrschichtige neuronale Netzwerkarchitektur, die haupts?chlich für Bilder dient Bearbeitung von Antr?gen. Die CNN-Architektur geht ausdrücklich davon aus, dass die Eingabe eine r?umliche Dimension (und optional eine Tiefendimension) hat, beispielsweise ein Bild, was die Codierung bestimmter Eigenschaften in die Modellarchitektur erm?glicht. Yann LeCun schuf das erste CNN, eine Architektur, die ursprünglich zur Erkennung handgeschriebener Zeichen verwendet wurde.

2.1 Architekturmerkmale von CNN

Aufschlüsseln der technischen Details von Computer-Vision-Modellen mit CNN:

Eingabe des Modells: Die Eingabe des CNN-Modells ist normalerweise ein Bild oder Text. CNNs k?nnen auch für Text verwendet werden, werden jedoch normalerweise seltener verwendet.

Das Bild wird hier als Raster aus Pixeln dargestellt, bei dem es sich um ein Raster aus positiven ganzen Zahlen handelt, wobei jeder Zahl eine Farbe zugewiesen ist.

Ausgabe des Modells: Die Ausgabe des Modells h?ngt davon ab, was es vorherzusagen versucht. Die folgenden Beispiele stellen einige h?ufige Aufgaben dar:
  • Vergleichende Analyse von Deep-Learning-Architekturen

  • Ein einfaches Faltungs-Neuronales Netzwerk besteht aus einer Reihe von Schichten, jede Schicht wandelt ein aktiviertes Volumen über eine differenzierbare Funktion in eine andere Darstellung um. Die Architektur eines Faltungs-Neuronalen Netzwerks verwendet haupts?chlich drei Arten von Schichten: Faltungsschichten, Pooling-Schichten und vollst?ndig verbundene Schichten. Das Bild unten zeigt die verschiedenen Teile einer Faltungsschicht eines neuronalen Netzwerks:

Faltung: Ein Faltungsfilter scannt das Bild mithilfe von Additions- und Multiplikationsoperationen. CNN versucht, die Werte in den Faltungsfiltern zu lernen, um die gewünschte Ausgabe vorherzusagen.
  • Nichtlinearit?t: Dies ist die auf den Faltungsfilter angewendete Gleichung, die es dem CNN erm?glicht, komplexe Beziehungen zwischen Eingabe- und Ausgabebildern zu lernen.
  • Pooling: Auch als ?Max-Pooling“ bekannt, w?hlt es nur die gr??te Zahl aus einer Reihe von Zahlen aus. Dies tr?gt dazu bei, die Gr??e des Ausdrucks zu reduzieren und die Anzahl der Berechnungen zu reduzieren, die das CNN durchführen muss, wodurch die Effizienz verbessert wird.
  • Die Kombination dieser drei Operationen bildet ein vollst?ndig Faltungsnetzwerk.

2.2 Anwendungsf?lle von CNN

CNN (Convolutional Neural Network) ist eine Art neuronales Netzwerk, das h?ufig zur L?sung von Problemen im Zusammenhang mit r?umlichen Daten verwendet wird, normalerweise in Bereichen wie Bildern (2D CNN) und Audio (1D CNN). Das breite Anwendungsspektrum von CNN umfasst Gesichtserkennung, medizinische Analyse und Klassifizierung usw. Durch CNN k?nnen detailliertere Merkmale in Bild- oder Audiodaten erfasst werden, wodurch eine genauere Erkennung und Analyse erreicht wird. Darüber hinaus kann CNN auch auf andere Bereiche angewendet werden, beispielsweise auf die Verarbeitung natürlicher Sprache und Zeitreihendaten. Kurz gesagt: CNN kann uns helfen, verschiedene Arten von Daten besser zu verstehen und zu analysieren. 2.3 Vorteile von CNN gegenüber FCN

Für ein vollst?ndig verbundenes neuronales Netzwerk gibt es eine Eingabe mit der Form (Hin×Win×Cin) und eine Ausgabe mit der Form (Hout×Wout×Cout). Dies bedeutet, dass jede Pixelfarbe des Ausgabemerkmals mit jeder Pixelfarbe des Eingabemerkmals verbunden ist. Für jedes Pixel der Eingabe- und Ausgabebilder gibt es einen unabh?ngigen lernbaren Parameter. Daher betr?gt die Anzahl der Parameter (Hin×Hout×Win×Wout×Cin×Cout).

In der Faltungsschicht ist die Eingabe ein Bild der Form (Hin, Win, Cin), und die Gewichte berücksichtigen die Nachbarschaftsgr??e des gegebenen Pixels als K×K. Die Ausgabe ist die gewichtete Summe eines bestimmten Pixels und seiner Nachbarn. Für jedes Paar (Cin, Cout) von Eingangs- und Ausgangskan?len gibt es einen separaten Kernel, aber die Gewichte des Kernels sind ortsunabh?ngige Tensoren der Form (K, K, Cin, Cout). Tats?chlich kann diese Ebene Bilder jeder Aufl?sung akzeptieren, w?hrend vollst?ndig verbundene Ebenen nur feste Aufl?sungen verwenden k?nnen. Schlie?lich sind die Schichtparameter (K, K, Cin, Cout). Für den Fall, dass die Kernelgr??e K viel kleiner als die Eingabeaufl?sung ist, wird die Anzahl der Variablen erheblich reduziert.

Seitdem AlexNet den ImageNet-Wettbewerb gewonnen hat, beweist die Tatsache, dass jedes siegreiche neuronale Netzwerk eine CNN-Komponente verwendet hat, dass CNN für Bilddaten effektiver ist. Es ist sehr wahrscheinlich, dass Sie keinen aussagekr?ftigen Vergleich finden, da es nicht m?glich ist, nur FC-Ebenen zur Verarbeitung von Bilddaten zu verwenden, w?hrend CNN diese Daten verarbeiten kann. Warum?

Die Anzahl der Gewichte mit 1000 Neuronen in der FC-Schicht betr?gt etwa 150 Millionen für ein Bild. Dies ist lediglich die Anzahl der Gewichte für eine Ebene. Moderne CNN-Architekturen verfügen über 50–100 Schichten mit insgesamt Hunderttausenden Parametern (z. B. hat ResNet50 23 Millionen Parameter, Inception V3 hat 21 Millionen Parameter).

Aus mathematischer Sicht vergleicht man die Anzahl der Gewichtungen zwischen CNN und FCN (mit 100 versteckten Einheiten), wenn das Eingabebild 500×500×3 ist:

  • Wx der FC-Schicht = 100×(500×500 × 3)=100×750000=75M
  • CNN-Schicht =
<code>((shape of width of the filter * shape of height of the filter * number of filters in the previous layer+1)*number of filters)( +1 是為了偏置) = (Fw×Fh×D+1)×F=(5×5×3+1)?2=152</code>

übersetzungsinvarianz

Invarianz bedeutet, dass ein Objekt auch dann noch korrekt erkannt werden kann, wenn sich seine Position ?ndert. Dies ist normalerweise eine positive Eigenschaft, da dadurch die Identit?t (oder Kategorie) des Objekts erhalten bleibt. ?übersetzung“ hat hier eine spezifische Bedeutung in der Geometrie. Das Bild unten zeigt dasselbe Objekt an verschiedenen Orten. Aufgrund der übersetzungsinvarianz kann CNN korrekt identifizieren, dass es sich bei beiden um Katzen handelt.

3. Recurrent Neural Network (RNN)

RNN ist eine der grundlegenden Netzwerkarchitekturen, auf denen andere Deep-Learning-Architekturen aufbauen. Ein wesentlicher Unterschied besteht darin, dass RNNs im Gegensatz zu normalen Feedforward-Netzwerken über Verbindungen verfügen k?nnen, die eine Rückkopplung zu ihrer vorherigen oder derselben Schicht erm?glichen. RNN verfügt gewisserma?en über ein ?Ged?chtnis“ früherer Berechnungen und nutzt diese Informationen für die aktuelle Verarbeitung.

Vergleichende Analyse von Deep-Learning-Architekturen

3.1 Architekturmerkmale von RNN

Der Begriff ?Wiederkehrend“ wird verwendet, wenn das Netzwerk auf jeder Sequenzinstanz dieselbe Aufgabe ausführt, sodass die Ausgabe von vorherigen Berechnungen und Ergebnissen abh?ngt.

RNN eignet sich natürlich für viele NLP-Aufgaben, wie zum Beispiel die Sprachmodellierung. Sie sind in der Lage, den Bedeutungsunterschied zwischen ?Hund“ und ?Hot Dog“ zu erfassen, sodass RNNs speziell für die Modellierung dieser Art von Kontextabh?ngigkeit in Sprachen und ?hnlichen Sequenzmodellierungsaufgaben geeignet sind, was den Einsatz von RNNs in diesen Bereichen sinnvoller macht als Der Hauptgrund für CNN. Ein weiterer Vorteil von RNN besteht darin, dass die Modellgr??e nicht mit der Eingabegr??e zunimmt, sodass Eingaben beliebiger L?nge verarbeitet werden k?nnen.

Darüber hinaus verfügt RNN im Gegensatz zu CNN über flexible Rechenschritte, bietet bessere Modellierungsm?glichkeiten und schafft die M?glichkeit, unbegrenzten Kontext zu erfassen, da es historische Informationen berücksichtigt und seine Gewichtungen im Laufe der Zeit geteilt werden. Allerdings leiden rekurrente neuronale Netze unter dem Problem des verschwindenden Gradienten. Der Gradient wird sehr klein, wodurch die Aktualisierungsgewichte der Backpropagation sehr klein werden. Aufgrund der für jedes Etikett erforderlichen sequentiellen Verarbeitung und des Vorhandenseins verschwindender/explodierender Gradienten ist das RNN-Training langsam und manchmal schwierig zu konvergieren.

Das Bild unten von der Stanford University ist ein Beispiel für RNN-Architektur.

Vergleichende Analyse von Deep-Learning-Architekturen

Zu beachten ist auch, dass CNN und RNN unterschiedliche Architekturen haben. CNN ist ein Feed-Forward-Neuronales Netzwerk, das Filter und Pooling-Schichten verwendet, w?hrend RNN die Ergebnisse durch Autoregression zurück in das Netzwerk einspeist.

3.2 Typische Anwendungsf?lle von RNN

RNN ist ein neuronales Netzwerk, das speziell für die Analyse von Zeitreihendaten entwickelt wurde. Dabei beziehen sich Zeitreihendaten auf Daten, die in zeitlicher Reihenfolge angeordnet sind, z. B. Text oder Video. RNN hat breite Anwendungsm?glichkeiten in der Textübersetzung, der Verarbeitung natürlicher Sprache, der Stimmungsanalyse und der Sprachanalyse. Beispielsweise k?nnen damit Audioaufnahmen analysiert werden, um die Rede des Sprechers zu identifizieren und in Text umzuwandeln. Darüber hinaus k?nnen RNNs auch zur Textgenerierung verwendet werden, beispielsweise zum Erstellen von Texten für E-Mails oder Social-Media-Beitr?ge.

3.3 Komparative Vorteile von RNN und CNN

In CNN sind die Eingabe- und Ausgabegr??en festgelegt. Dies bedeutet, dass CNN ein Bild mit fester Gr??e nimmt und es zusammen mit der Zuverl?ssigkeit seiner Vorhersage auf der entsprechenden Ebene ausgibt. Bei RNN k?nnen die Eingabe- und Ausgabegr??en jedoch variieren. Diese Funktion ist nützlich für Anwendungen, die eine Ein- und Ausgabe variabler Gr??e erfordern, z. B. die Generierung von Text.

Sowohl Gated Recurrent Units (GRU) als auch Long Short-Term Memory Units (LSTM) bieten L?sungen für das Problem des verschwindenden Gradienten, das bei Recurrent Neural Networks (RNN) auftritt.

4. Long Short Memory Neural Network (LSTM)

Long Short Memory Neural Network (LSTM) ist eine spezielle Art von RNN. Es erleichtert RNNs die Speicherung von Informationen über viele Zeitstempel hinweg, indem es langfristige Abh?ngigkeiten lernt. Die folgende Abbildung ist eine visuelle Darstellung der LSTM-Architektur.

Vergleichende Analyse von Deep-Learning-Architekturen

Vergleichende Analyse von Deep-Learning-Architekturen

LSTM ist überall und in vielen Anwendungen oder Produkten, wie zum Beispiel Smartphones, zu finden. Seine St?rke liegt darin, dass es sich von der typischen neuronenbasierten Architektur entfernt und stattdessen das Konzept von Speichereinheiten übernimmt. Diese Speichereinheit beh?lt ihren Wert entsprechend der Funktion ihrer Eingabe und kann ihren Wert für kurze oder lange Zeit halten. Dadurch kann sich das Ger?t wichtige Dinge merken, nicht nur den zuletzt berechneten Wert.

Die LSTM-Speicherzelle enth?lt drei Tore, die den Zu- oder Abfluss von Informationen innerhalb ihrer Zelle steuern.

  • Input Gate: Steuert, wann Informationen in den Speicher flie?en k?nnen.

Vergleichende Analyse von Deep-Learning-Architekturen

Forgetting Gate: Verantwortlich für die Verfolgung, welche Informationen ?vergessen“ werden k?nnen, um Platz für die Verarbeitungseinheit zu schaffen, um sich neue Daten zu merken.

Vergleichende Analyse von Deep-Learning-Architekturen

Output Gate: Bestimmt, wann die in der Verarbeitungseinheit gespeicherten Informationen als Ausgabe der Zelle verwendet werden k?nnen.

Vergleichende Analyse von Deep-Learning-Architekturen

Vor- und Nachteile von LSTM im Vergleich zu GRU und RNN

Im Vergleich zu GRU und insbesondere RNN kann LSTM l?ngerfristige Abh?ngigkeiten lernen. Da es drei Tore gibt (zwei in GRU und null in RNN), verfügt LSTM im Vergleich zu RNN und GRU über mehr Parameter. Diese zus?tzlichen Parameter erm?glichen es dem LSTM-Modell, komplexe Sequenzdaten wie natürliche Sprache oder Zeitreihendaten besser zu verarbeiten. Darüber hinaus k?nnen LSTMs auch Eingabesequenzen variabler L?nge verarbeiten, da ihre Gate-Struktur es ihnen erm?glicht, unn?tige Eingaben zu ignorieren. Daher schneidet LSTM in vielen Anwendungen gut ab, darunter Spracherkennung, maschinelle übersetzung und B?rsenprognosen.

5. Gated Recurrent Unit (GRU)

GRU verfügt über zwei Tore: Update-Gate und Reset-Gate (im Wesentlichen zwei Vektoren), um zu entscheiden, welche Informationen an den Ausgang übergeben werden sollen.

Vergleichende Analyse von Deep-Learning-Architekturen

  • Gate zurücksetzen: Hilft dem Modell bei der Entscheidung, wie viele vergangene Informationen es vergessen kann.
  • Update-Gate: Hilft dem Modell zu bestimmen, wie viele vergangene Informationen (vorherige Zeitschritte) an die Zukunft weitergegeben werden müssen.

GRU vergleicht die Vor- und Nachteile von LSTM und RNN

?hnlich wie RNN ist GRU auch ein wiederkehrendes neuronales Netzwerk, das Informationen effektiv über einen langen Zeitraum speichern und l?ngere Abh?ngigkeiten erfassen kann als RNN. GRU ist jedoch einfacher und schneller zu trainieren als LSTM.

Obwohl GRU in der Implementierung komplexer ist als RNN, da es nur zwei Gating-Mechanismen enth?lt, verfügt es über eine geringere Anzahl von Parametern und kann im Allgemeinen keine Abh?ngigkeiten mit gr??erer Reichweite wie LSTM erfassen. Daher ben?tigt GRU in einigen F?llen m?glicherweise mehr Trainingsdaten, um das gleiche Leistungsniveau wie LSTM zu erreichen.

Da GRU au?erdem relativ einfach ist und der Rechenaufwand niedrig ist, kann es sinnvoller sein, GRU in Umgebungen mit begrenzten Ressourcen wie mobilen Ger?ten oder eingebetteten Systemen zu verwenden. Wenn andererseits die Genauigkeit des Modells für die Anwendung von entscheidender Bedeutung ist, ist LSTM m?glicherweise die bessere Wahl.

6.Transformer

Der Artikel über Transformers ?Attention is All You Need“ ist fast der Artikel Nummer eins aller Zeiten auf Arxiv. Transformer ist ein gro?es Encoder-Decoder-Modell, das mithilfe komplexer Aufmerksamkeitsmechanismen ganze Sequenzen verarbeiten kann.

Vergleichende Analyse von Deep-Learning-Architekturen

Typischerweise wird in Anwendungen zur Verarbeitung natürlicher Sprache jedes Eingabewort zun?chst mithilfe eines Einbettungsalgorithmus in einen Vektor umgewandelt. Die Einbettung erfolgt nur im Encoder der untersten Ebene. Die Abstraktion, die allen Encodern gemeinsam ist, besteht darin, dass sie eine Liste von Vektoren der Gr??e 512 erhalten, bei denen es sich um die Worteinbettungen handelt, bei anderen Encodern jedoch direkt unter der Encoderausgabe.

Aufmerksamkeit bietet eine L?sung für das Engpassproblem. Bei dieser Art von Modellen stellen Kontextvektoren einen Flaschenhals dar, der es dem Modell erschwert, mit langen S?tzen umzugehen. Aufmerksamkeit erm?glicht es dem Modell, sich bei Bedarf auf relevante Teile der Eingabesequenz zu konzentrieren und die Darstellung jedes Wortes als Abfrage zu behandeln, um auf Informationen aus einer Reihe von Werten zuzugreifen und diese zu kombinieren.

6.1 Architekturmerkmale von Transformer

Im Allgemeinen ist der Encoder in der Transformer-Architektur in der Lage, alle verborgenen Zust?nde an den Decoder zu übergeben. Allerdings nutzt der Decoder die Aufmerksamkeit, um einen zus?tzlichen Schritt auszuführen, bevor er die Ausgabe generiert. Der Decoder multipliziert jeden verborgenen Zustand mit seinem Softmax-Score, wodurch verborgene Zust?nde mit h?herer Bewertung verst?rkt und andere verborgene Zust?nde überflutet werden. Dadurch kann sich das Modell auf die Teile der Eingabe konzentrieren, die für die Ausgabe relevant sind.

Selbstaufmerksamkeit befindet sich im Encoder. Der erste Schritt besteht darin, aus jedem Encoder-Eingabevektor (Einbettung jedes Wortes) drei Vektoren zu erstellen: Schlüssel-, Abfrage- und Wertvektoren. Diese Vektoren werden durch Multiplikation der Einbettungen w?hrend des Trainings erstellt 3 Matrizen wurden dabei trainiert. Die K-, V- und Q-Dimensionen betragen 64, w?hrend die Einbettungs- und Encoder-Eingabe-/Ausgabevektoren eine Dimension von 512 haben. Das Bild unten stammt aus Jay Alammars Illustrated Transformer, der wahrscheinlich besten visuellen Interpretation im Internet.

Vergleichende Analyse von Deep-Learning-Architekturen

Die Gr??e dieser Liste ist ein einstellbarer Hyperparameter und entspricht im Wesentlichen der L?nge des l?ngsten Satzes im Trainingsdatensatz.

  • Achtung:

Vergleichende Analyse von Deep-Learning-Architekturen

Was sind Abfrage-, Schlüssel- und Wertvektoren? Es handelt sich um abstrakte Konzepte, die beim Berechnen und Nachdenken über Aufmerksamkeit hilfreich sind. Die Berechnung der Queraufmerksamkeit im Decoder ist mit Ausnahme der Eingabe dieselbe wie die der Selbstaufmerksamkeit. Die gegenseitige Aufmerksamkeit kombiniert asymmetrisch zwei unabh?ngige Einbettungssequenzen derselben Dimension, w?hrend die Eingabe der Selbstaufmerksamkeit eine einzelne Einbettungssequenz ist.

Um Transformer zu diskutieren, ist es auch notwendig, zwei vorab trainierte Modelle zu diskutieren, n?mlich BERT und GPT, da sie zum Erfolg von Transformer geführt haben.

Der vorab trainierte Decoder von GPT verfügt über 12 Schichten, darunter 768-dimensionale verborgene Zust?nde, eine 3072-dimensionale Feed-Forward-verborgene Schicht und ist mit 40.000 zusammengeführten Bytepaaren codiert. Es wird haupts?chlich beim Denken in natürlicher Sprache verwendet, um Satzpaare als Folgerung, Widerspruch oder Neutralit?t zu kennzeichnen.

BERT ist ein vorab trainierter Encoder, der maskierte Sprachmodellierung verwendet, um einen Teil der W?rter in der Eingabe durch spezielle [MASK]-Tokens zu ersetzen, und dann versucht, diese W?rter vorherzusagen. Daher muss der Verlust nur für die vorhergesagten maskierten W?rter berechnet werden. Beide BERT-Modellgr??en verfügen über eine gro?e Anzahl von Encoderschichten (im Papier Transformer-Bl?cke genannt) – 12 in der Basisversion und 24 in der gro?en Version. Diese verfügen au?erdem über gr??ere Feedforward-Netzwerke (768 bzw. 1024 versteckte Einheiten) und mehr Aufmerksamkeitsk?pfe (12 bzw. 16) als die Standardkonfiguration in der Transformer-Referenzimplementierung im ersten Artikel (6 Encoderschichten, 512 versteckte Einheiten und 8 Aufmerksamkeitsk?pfe). ). BERT-Modelle lassen sich leicht optimieren und k?nnen normalerweise auf einer einzelnen GPU durchgeführt werden. BERT kann für die übersetzung in NLP verwendet werden, insbesondere für die übersetzung ressourcenarmer Sprachen.

Ein Leistungsnachteil von Transformern besteht darin, dass ihre Rechenzeit in der Selbstaufmerksamkeit quadratisch ist, w?hrend RNNs nur linear wachsen. 6.2 Transformer-Anwendungsf?lle . Dies nennt man ?Selbstaufmerksamkeit“. Dies bedeutet, dass der Transformer den Inhalt des gesamten Datensatzes sehen kann, sobald er mit dem Training beginnt.

Vor dem Aufkommen von Transformer blieb der Fortschritt der KI-Sprachaufgaben weit hinter der Entwicklung anderer Bereiche zurück. Tats?chlich war die Verarbeitung natürlicher Sprache in der Deep-Learning-Revolution der letzten etwa zehn Jahre ein Nachzügler, und NLP blieb in gewissem Ma?e hinter Computer Vision zurück. Mit dem Aufkommen von Transformers hat der NLP-Bereich jedoch einen enormen Aufschwung erfahren und eine Reihe von Modellen wurde auf den Markt gebracht, die bei verschiedenen NLP-Aufgaben gute Ergebnisse erzielen.

Um den Unterschied zwischen traditionellen Sprachmodellen (basierend auf rekursiven Architekturen wie RNN, LSTM oder GRU) und Transformers zu verstehen, k?nnen wir ein Beispiel nennen: ?Die Eule hat ein Eichh?rnchen entdeckt aber er hat nur das Ende seines Schwanzes erreicht.“ Der Aufbau des zweiten Satzes ist verwirrend: Was bedeutet dieses ?es“? Traditionelle Sprachmodelle, die sich nur auf die W?rter rund um ?es“ konzentrieren, h?tten Schwierigkeiten, aber ein Transformer, der jedes Wort mit jedem anderen Wort verbindet, kann erkennen, dass eine Eule ein Eichh?rnchen gefangen hat und dass das Eichh?rnchen einen Teil seines Schwanzes verloren hat.

6.2.2 Sichtfeld

Bei CNN beginnen wir im lokalen Bereich und erlangen nach und nach die globale Perspektive. CNN erkennt Bilder Pixel für Pixel, indem es Merkmale von lokal nach global aufbaut, um Merkmale wie Ecken oder Linien zu identifizieren. Allerdings werden im Transformer durch Selbstaufmerksamkeit bereits auf der ersten Ebene der Informationsverarbeitung (genau wie bei der Sprache) Verbindungen zwischen entfernten Bildorten hergestellt. Wenn der CNN-Ansatz einer Skalierung ausgehend von einem einzelnen Pixel gleicht, dann wird der Transformator nach und nach das gesamte unscharfe Bild in den Fokus bringen.

Vergleichende Analyse von Deep-Learning-Architekturen

CNN generiert lokale Feature-Darstellungen, indem es wiederholt Filter auf lokale Patches der Eingabedaten anwendet, deren empf?ngliches Sichtfeld schrittweise vergr??ert und eine globale Feature-Darstellung aufbaut. Aufgrund der Faltung kann die Fotos-App Birnen von Wolken unterscheiden. Vor der Transformer-Architektur galt CNN als unverzichtbar für Vision-Aufgaben.

Die Architektur des Vision Transformer-Modells ist fast identisch mit dem ersten Transformer aus dem Jahr 2017, mit nur einigen geringfügigen ?nderungen, die es ihm erm?glichen, Bilder statt W?rter zu analysieren. Da Sprache tendenziell diskret ist, muss das Eingabebild diskretisiert werden, damit der Transformator visuelle Eingaben verarbeiten kann. Die genaue Nachahmung des Sprachansatzes und die Durchführung der Selbstaufmerksamkeit für jedes Pixel würde in Bezug auf die Rechenzeit unerschwinglich teuer werden. Daher unterteilt ViT gr??ere Bilder in quadratische Zellen oder Patches (?hnlich wie Token im NLP). Die Gr??e ist beliebig, da das Token je nach Aufl?sung des Originalbilds gr??er oder kleiner sein kann (Standard ist 16 x 16 Pixel). Aber durch die Verarbeitung von Pixeln in Gruppen und die Anwendung der Selbstaufmerksamkeit auf jedes Pixel kann ViT schnell riesige Trainingsdatens?tze verarbeiten und immer genauere Klassifizierungen ausgeben.

6.2.3 Multimodale Aufgaben der menschlichen Intelligenz. Mit anderen Worten: Es bestand Bedarf an einer einzigen Mehrzweckarchitektur, die einen nahtlosen übergang zwischen Sinnen wie Lesen/Sehen, Sprechen und Zuh?ren erm?glicht.

Für multimodale Aufgaben müssen mehrere Datentypen gleichzeitig verarbeitet werden, z. B. Originalbilder, Videos und Sprachen, und Transformer bietet das Potenzial einer allgemeinen Architektur.

Vergleichende Analyse von Deep-Learning-ArchitekturenAufgrund des diskreten Ansatzes früherer Architekturen, bei denen jeder Datentyp sein eigenes spezifisches Modell hatte, war dies eine schwierige Aufgabe. Transformer bieten jedoch eine einfache M?glichkeit, mehrere Eingabequellen zu kombinieren. Multimodale Netzwerke k?nnten beispielsweise Systeme antreiben, die die Lippenbewegungen von Menschen lesen und auf ihre Stimmen h?ren, indem sie gleichzeitig reichhaltige Darstellungen von Sprach- und Bildinformationen nutzen. Durch die gegenseitige Aufmerksamkeit ist Transformer in der Lage, Abfrage-, Schlüssel- und Wertevektoren aus verschiedenen Quellen abzuleiten, was es zu einem leistungsstarken Werkzeug für multimodales Lernen macht.

Deshalb ist Transformer ein gro?er Schritt in Richtung der ?Fusion“ neuronaler Netzwerkarchitekturen, die dazu beitragen kann, eine universelle Verarbeitung mehrerer modaler Daten zu erreichen.

6.3 Vor- und Nachteile von Transformer gegenüber RNN/GRU/LSTM

Im Vergleich zu RNN/GRU/LSTM kann Transformer l?ngere Abh?ngigkeiten lernen als RNN und seine Varianten (wie GRU und LSTM).

Der gr??te Vorteil liegt jedoch darin, dass Transformer sich für die Parallelisierung eignen. Im Gegensatz zu einem RNN, das bei jedem Zeitschritt ein Wort verarbeitet, besteht eine Schlüsseleigenschaft des Transformers darin, dass das Wort an jeder Position über seinen eigenen Pfad durch den Encoder flie?t. In der Selbstaufmerksamkeitsschicht gibt es Abh?ngigkeiten zwischen diesen Pfaden, da die Selbstaufmerksamkeitsschicht die Bedeutung anderer W?rter in jeder Eingabesequenz für dieses Wort berechnet. Sobald jedoch die Selbstaufmerksamkeitsausgabe generiert ist, weist die Feedforward-Schicht diese Abh?ngigkeiten nicht mehr auf, sodass einzelne Pfade beim Durchlaufen der Feedforward-Schicht parallel ausgeführt werden k?nnen. Dies ist eine besonders nützliche Funktion im Fall des Transformer-Encoders, der jedes Eingabewort nach einer Selbstaufmerksamkeitsschicht parallel mit anderen W?rtern verarbeitet. Diese Funktion ist jedoch für den Decoder nicht sehr wichtig, da er jeweils nur ein Wort generiert und keine parallelen Wortpfade verwendet.

Die Laufzeit der Transformer-Architektur skaliert quadratisch mit der L?nge der Eingabesequenz, was bedeutet, dass die Verarbeitung langsam sein kann, wenn lange Dokumente oder Zeichen als Eingabe verarbeitet werden. Mit anderen Worten, w?hrend der Selbstaufmerksamkeitsbildung müssen alle Interaktionspaare berechnet werden, was bedeutet, dass die Berechnung quadratisch mit der Sequenzl?nge w?chst, also O(T^2d), wobei T die Sequenzl?nge und D ist die Dimension. Entspricht beispielsweise einem einfachen Satz d=1000, T≤30?T^2≤900?T^2d≈900K. Und für die zirkulierenden Nerven w?chst es nur linear.

W?re es nicht sch?n, wenn der Transformer nicht paarweise Interaktionen zwischen jedem Wortpaar im Satz berechnen müsste? Es gibt Studien, die zeigen, dass recht hohe Leistungsniveaus erreicht werden k?nnen, ohne die Interaktionen zwischen allen Wortpaaren zu berechnen (z. B. durch Approximation der paarweisen Aufmerksamkeit).

Im Vergleich zu CNN sind die Datenanforderungen von Transformer extrem hoch. CNNs sind immer noch stichprobeneffizient, was sie zu einer hervorragenden Wahl für Aufgaben mit geringem Ressourcenaufwand macht. Dies gilt insbesondere für Bild-/Videogenerierungsaufgaben, die selbst für CNN-Architekturen gro?e Datenmengen erfordern (was die extrem hohen Datenanforderungen der Transformer-Architektur mit sich bringt). Beispielsweise wird die kürzlich von Radford et al. vorgeschlagene CLIP-Architektur mit CNN-basierten ResNets als visuellem Rückgrat trainiert (anstelle der ViT-?hnlichen Transformer-Architektur). W?hrend Transformatoren Genauigkeitsgewinne bieten, sobald ihre Datenanforderungen erfüllt sind, bieten CNNs eine M?glichkeit, eine gute Genauigkeitsleistung bei Aufgaben bereitzustellen, bei denen die Menge der verfügbaren Daten nicht ungew?hnlich hoch ist. Daher haben beide Architekturen ihren Nutzen.

Da die Laufzeit der Transformer-Architektur einen quadratischen Zusammenhang mit der L?nge der Eingabesequenz hat. Das hei?t, die Berechnung der Aufmerksamkeit für alle Wortpaare erfordert, dass die Anzahl der Kanten im Diagramm quadratisch mit der Anzahl der Knoten w?chst, d. h. in einem Satz mit n W?rtern muss der Transformer n^2 Wortpaare berechnen. Dies bedeutet, dass die Anzahl der Parameter riesig ist (d. h. die Speichernutzung hoch ist), was zu einer hohen Rechenkomplexit?t führt. Hohe Rechenanforderungen wirken sich insbesondere bei mobilen Ger?ten negativ auf die Leistung und die Akkulaufzeit aus. Um eine bessere Leistung (z. B. Genauigkeit) zu erzielen, ben?tigt Transformer insgesamt eine h?here Rechenleistung, mehr Daten, mehr Strom-/Akkulaufzeit und einen gr??eren Speicherbedarf.

7. Inferenzverzerrung

Jeder in der Praxis verwendete Algorithmus für maschinelles Lernen, vom n?chsten Nachbarn bis zur Gradientenverst?rkung, weist seine eigene induktive Verzerrung hinsichtlich der Kategorien auf, die leichter zu erlernen sind. Fast alle Lernalgorithmen haben die Tendenz zu lernen, dass Elemente, die ?hnlich sind (?nahe“ beieinander in einem bestimmten Merkmalsraum), mit gr??erer Wahrscheinlichkeit zur gleichen Klasse geh?ren. Lineare Modelle wie die logistische Regression gehen au?erdem davon aus, dass Kategorien durch lineare Grenzen getrennt werden k?nnen, was eine ?harte“ Tendenz darstellt, da das Modell nichts anderes lernen kann. Selbst bei der regulierten Regression, die beim maschinellen Lernen fast immer verwendet wird, besteht eine Tendenz zum Lernen von Grenzen mit einer kleinen Anzahl von Merkmalen und geringen Merkmalsgewichten. Dies ist eine ?weiche“ Tendenz, da das Modell viele Klassen lernen kann Grenzen mit Features mit hohem Gewicht, aber das ist schwieriger/erfordert mehr Daten.

Sogar Deep-Learning-Modelle haben Inferenzverzerrungen. Beispielsweise ist das neuronale LSTM-Netzwerk sehr effektiv für Aufgaben zur Verarbeitung natürlicher Sprache, da es Kontextinformationen zu langen Sequenzen bevorzugt.

Vergleichende Analyse von Deep-Learning-Architekturen

Das Verst?ndnis von Dom?nenkenntnissen und Problemschwierigkeiten kann uns bei der Auswahl geeigneter Algorithmusanwendungen helfen. Zum Beispiel das Problem, relevante Begriffe aus klinischen Aufzeichnungen zu extrahieren, um festzustellen, ob bei einem Patienten Krebs diagnostiziert wurde. In diesem Fall funktioniert die logistische Regression gut, da es viele unabh?ngig informative Begriffe gibt. Bei anderen Problemen, etwa dem Extrahieren der Ergebnisse eines Gentests aus einem komplexen PDF-Bericht, kann die Verwendung von LSTM den langfristigen Kontext jedes Wortes besser verarbeiten, was zu einer besseren Leistung führt. Sobald ein Basisalgorithmus ausgew?hlt wurde, kann uns das Verst?ndnis seiner Vorurteile auch beim Feature Engineering helfen, dem Prozess der Auswahl von Informationen, die in einen Lernalgorithmus eingespeist werden sollen.

Jede Modellstruktur weist eine inh?rente Inferenzverzerrung auf, die dabei hilft, Muster in Daten zu verstehen und dadurch Lernen zu erm?glichen. Beispielsweise weist CNN eine gemeinsame Nutzung r?umlicher Parameter und übersetzung/r?umliche Invarianz auf, w?hrend RNN eine gemeinsame Nutzung zeitlicher Parameter aufweist.

8. Zusammenfassung

Der alte Programmierer hat versucht, Transformer, CNN, RNN/GRU/LSTM in der Deep-Learning-Architektur zu vergleichen und zu analysieren, und hat verstanden, dass Transformer l?ngere Abh?ngigkeiten lernen kann Beziehungen, erfordert jedoch h?here Datenanforderungen und Rechenleistung; Transformer eignet sich für multimodale Aufgaben und kann nahtlos zwischen Sinnen wie Lesen/Sehen, Sprechen und Zuh?ren wechseln Daten, um Lernen zu erm?glichen.

【Referenz】

  • CNN vs. vollst?ndig verbundenes Netzwerk für Bilderkennung?, https://stats.stackexchange.com/questions/341863/cnn- vs -vollst?ndig verbundenes Netzwerk zur Bilderkennung
  • https://web.stanford.edu/class/archive/cs/cs224n/cs224n.1184/lectures/lecture12.pdf#?? ?? #
  • Einführung in LSTM-Einheiten in RNN, https://www.pluralsight.com/guides/introduction-to-lstm-units-in-rnn
  • Lernen übertragbarer visueller Modelle aus natürlicher Sprache Supervision, https://arxiv.org/abs/2103.00020
  • Linformer: Selbstaufmerksamkeit mit linearer Komplexit?t, https://arxiv.org/abs/2006.04768
  • Umdenken Achtung bei Darstellern, https://arxiv.org/abs/2009.14794
  • Big Bird: Transformers for Longer Sequences, https://arxiv.org/abs/2007.14062
  • #???? # Synthesizer: Neudenken der Selbstaufmerksamkeit in Transformer-Modellen, https://arxiv.org/abs/2005.00743
  • Do Vision Transformers See Like Convolutional Neural Networks?, https://arxiv.org/abs/ 2108.08810
  • Illustrierter Transformator, https://jalammar.github.io/illustrated-transformer/

Das obige ist der detaillierte Inhalt vonVergleichende Analyse von Deep-Learning-Architekturen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erkl?rung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Hei?e KI -Werkzeuge

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Clothoff.io

Clothoff.io

KI-Kleiderentferner

Video Face Swap

Video Face Swap

Tauschen Sie Gesichter in jedem Video mühelos mit unserem v?llig kostenlosen KI-Gesichtstausch-Tool aus!

Hei?e Werkzeuge

Notepad++7.3.1

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Hei?e Themen

PHP-Tutorial
1502
276
Verwenden Sie ddrescue, um Daten unter Linux wiederherzustellen Verwenden Sie ddrescue, um Daten unter Linux wiederherzustellen Mar 20, 2024 pm 01:37 PM

DDREASE ist ein Tool zum Wiederherstellen von Daten von Datei- oder Blockger?ten wie Festplatten, SSDs, RAM-Disks, CDs, DVDs und USB-Speicherger?ten. Es kopiert Daten von einem Blockger?t auf ein anderes, wobei besch?digte Bl?cke zurückbleiben und nur gute Bl?cke verschoben werden. ddreasue ist ein leistungsstarkes Wiederherstellungstool, das vollst?ndig automatisiert ist, da es w?hrend der Wiederherstellungsvorg?nge keine Unterbrechungen erfordert. Darüber hinaus kann es dank der ddasue-Map-Datei jederzeit gestoppt und fortgesetzt werden. Weitere wichtige Funktionen von DDREASE sind: Es überschreibt die wiederhergestellten Daten nicht, füllt aber die Lücken im Falle einer iterativen Wiederherstellung. Es kann jedoch gekürzt werden, wenn das Tool explizit dazu aufgefordert wird. Stellen Sie Daten aus mehreren Dateien oder Bl?cken in einer einzigen wieder her

Open Source! Jenseits von ZoeDepth! DepthFM: Schnelle und genaue monokulare Tiefensch?tzung! Open Source! Jenseits von ZoeDepth! DepthFM: Schnelle und genaue monokulare Tiefensch?tzung! Apr 03, 2024 pm 12:04 PM

0.Was bewirkt dieser Artikel? Wir schlagen DepthFM vor: ein vielseitiges und schnelles generatives monokulares Tiefensch?tzungsmodell auf dem neuesten Stand der Technik. Zus?tzlich zu herk?mmlichen Tiefensch?tzungsaufgaben demonstriert DepthFM auch hochmoderne F?higkeiten bei nachgelagerten Aufgaben wie dem Tiefen-Inpainting. DepthFM ist effizient und kann Tiefenkarten innerhalb weniger Inferenzschritte synthetisieren. Lassen Sie uns diese Arbeit gemeinsam lesen ~ 1. Titel der Papierinformationen: DepthFM: FastMonocularDepthEstimationwithFlowMatching Autor: MingGui, JohannesS.Fischer, UlrichPrestel, PingchuanMa, Dmytr

Jenseits von ORB-SLAM3! SL-SLAM: Szenen mit wenig Licht, starkem Jitter und schwacher Textur werden verarbeitet Jenseits von ORB-SLAM3! SL-SLAM: Szenen mit wenig Licht, starkem Jitter und schwacher Textur werden verarbeitet May 30, 2024 am 09:35 AM

Heute diskutieren wir darüber, wie Deep-Learning-Technologie die Leistung von visionbasiertem SLAM (Simultaneous Localization and Mapping) in komplexen Umgebungen verbessern kann. Durch die Kombination von Methoden zur Tiefenmerkmalsextraktion und Tiefenanpassung stellen wir hier ein vielseitiges hybrides visuelles SLAM-System vor, das die Anpassung in anspruchsvollen Szenarien wie schlechten Lichtverh?ltnissen, dynamischer Beleuchtung, schwach strukturierten Bereichen und starkem Jitter verbessern soll. Unser System unterstützt mehrere Modi, einschlie?lich erweiterter Monokular-, Stereo-, Monokular-Tr?gheits- und Stereo-Tr?gheitskonfigurationen. Darüber hinaus wird analysiert, wie visuelles SLAM mit Deep-Learning-Methoden kombiniert werden kann, um andere Forschungen zu inspirieren. Durch umfangreiche Experimente mit ?ffentlichen Datens?tzen und selbst abgetasteten Daten demonstrieren wir die überlegenheit von SL-SLAM in Bezug auf Positionierungsgenauigkeit und Tracking-Robustheit.

Langsame Internetgeschwindigkeiten für Mobilfunkdaten auf dem iPhone: Korrekturen Langsame Internetgeschwindigkeiten für Mobilfunkdaten auf dem iPhone: Korrekturen May 03, 2024 pm 09:01 PM

Stehen Sie vor einer Verz?gerung oder einer langsamen mobilen Datenverbindung auf dem iPhone? Normalerweise h?ngt die St?rke des Mobilfunk-Internets auf Ihrem Telefon von mehreren Faktoren ab, wie z. B. der Region, dem Mobilfunknetztyp, dem Roaming-Typ usw. Es gibt einige Dinge, die Sie tun k?nnen, um eine schnellere und zuverl?ssigere Mobilfunk-Internetverbindung zu erhalten. Fix 1 – Neustart des iPhone erzwingen Manchmal werden durch einen erzwungenen Neustart Ihres Ger?ts viele Dinge zurückgesetzt, einschlie?lich der Mobilfunkverbindung. Schritt 1 – Drücken Sie einfach einmal die Lauter-Taste und lassen Sie sie los. Drücken Sie anschlie?end die Leiser-Taste und lassen Sie sie wieder los. Schritt 2 – Der n?chste Teil des Prozesses besteht darin, die Taste auf der rechten Seite gedrückt zu halten. Lassen Sie das iPhone den Neustart abschlie?en. Aktivieren Sie Mobilfunkdaten und überprüfen Sie die Netzwerkgeschwindigkeit. überprüfen Sie es erneut. Fix 2 – Datenmodus ?ndern 5G bietet zwar bessere Netzwerkgeschwindigkeiten, funktioniert jedoch besser, wenn das Signal schw?cher ist

Google ist begeistert: JAX-Leistung übertrifft Pytorch und TensorFlow! Es k?nnte die schnellste Wahl für das GPU-Inferenztraining werden Google ist begeistert: JAX-Leistung übertrifft Pytorch und TensorFlow! Es k?nnte die schnellste Wahl für das GPU-Inferenztraining werden Apr 01, 2024 pm 07:46 PM

Die von Google gef?rderte Leistung von JAX hat in jüngsten Benchmark-Tests die von Pytorch und TensorFlow übertroffen und belegt bei 7 Indikatoren den ersten Platz. Und der Test wurde nicht auf der TPU mit der besten JAX-Leistung durchgeführt. Obwohl unter Entwicklern Pytorch immer noch beliebter ist als Tensorflow. Aber in Zukunft werden m?glicherweise mehr gro?e Modelle auf Basis der JAX-Plattform trainiert und ausgeführt. Modelle Kürzlich hat das Keras-Team drei Backends (TensorFlow, JAX, PyTorch) mit der nativen PyTorch-Implementierung und Keras2 mit TensorFlow verglichen. Zun?chst w?hlen sie eine Reihe von Mainstream-Inhalten aus

Tesla-Roboter arbeiten in Fabriken, Musk: Der Freiheitsgrad der H?nde wird dieses Jahr 22 erreichen! Tesla-Roboter arbeiten in Fabriken, Musk: Der Freiheitsgrad der H?nde wird dieses Jahr 22 erreichen! May 06, 2024 pm 04:13 PM

Das neueste Video von Teslas Roboter Optimus ist ver?ffentlicht und er kann bereits in der Fabrik arbeiten. Bei normaler Geschwindigkeit sortiert es Batterien (Teslas 4680-Batterien) so: Der Beamte hat auch ver?ffentlicht, wie es bei 20-facher Geschwindigkeit aussieht – auf einer kleinen ?Workstation“, pflücken und pflücken und pflücken: Dieses Mal wird es freigegeben. Eines der Highlights Der Vorteil des Videos besteht darin, dass Optimus diese Arbeit in der Fabrik v?llig autonom und ohne menschliches Eingreifen w?hrend des gesamten Prozesses erledigt. Und aus Sicht von Optimus kann es auch die krumme Batterie aufnehmen und platzieren, wobei der Schwerpunkt auf der automatischen Fehlerkorrektur liegt: In Bezug auf die Hand von Optimus gab der NVIDIA-Wissenschaftler Jim Fan eine hohe Bewertung ab: Die Hand von Optimus ist der fünffingrige Roboter der Welt am geschicktesten. Seine H?nde sind nicht nur taktil

Was ist die Architektur und das Arbeitsprinzip von Spring Data JPA? Was ist die Architektur und das Arbeitsprinzip von Spring Data JPA? Apr 17, 2024 pm 02:48 PM

SpringDataJPA basiert auf der JPA-Architektur und interagiert mit der Datenbank über Mapping, ORM und Transaktionsmanagement. Sein Repository bietet CRUD-Operationen und abgeleitete Abfragen vereinfachen den Datenbankzugriff. Darüber hinaus nutzt es Lazy Loading, um Daten nur bei Bedarf abzurufen und so die Leistung zu verbessern.

Super stark! Top 10 Deep-Learning-Algorithmen! Super stark! Top 10 Deep-Learning-Algorithmen! Mar 15, 2024 pm 03:46 PM

Fast 20 Jahre sind vergangen, seit das Konzept des Deep Learning im Jahr 2006 vorgeschlagen wurde. Deep Learning hat als Revolution auf dem Gebiet der künstlichen Intelligenz viele einflussreiche Algorithmen hervorgebracht. Was sind Ihrer Meinung nach die zehn besten Algorithmen für Deep Learning? Im Folgenden sind meiner Meinung nach die besten Algorithmen für Deep Learning aufgeführt. Sie alle nehmen hinsichtlich Innovation, Anwendungswert und Einfluss eine wichtige Position ein. 1. Hintergrund des Deep Neural Network (DNN): Deep Neural Network (DNN), auch Multi-Layer-Perceptron genannt, ist der am weitesten verbreitete Deep-Learning-Algorithmus. Als er erstmals erfunden wurde, wurde er aufgrund des Engpasses bei der Rechenleistung in Frage gestellt Jahre, Rechenleistung, Der Durchbruch kam mit der Datenexplosion. DNN ist ein neuronales Netzwerkmodell, das mehrere verborgene Schichten enth?lt. In diesem Modell übergibt jede Schicht Eingaben an die n?chste Schicht und

See all articles