


Die umfassendste übersicht über multimodale Gro?modelle finden Sie hier! 7 Microsoft-Forscher arbeiteten intensiv zusammen, 5 Hauptthemen, 119 Seiten Dokument
Sep 25, 2023 pm 04:49 PMDer umfassendste Testbericht zu multimodalen Gro?modellenist da!
Geschrieben von7 chinesischen Forschern von Microsoft, 119 Seiten——
derzeit perfektioniert und immer noch an der Spitzezwei Arten multimodaler Forschungsrichtungen für gro?e Modelle. Beginnend mit dem Zu Beginn werden fünf spezifische Forschungsthemen umfassend zusammengefasst:
- Visuelles Verst?ndnis
- Visuelle Generierung
- Unified Vision Model
- LLM-gestütztes multimodales gro?es Modell
- Multimodaler Agent
Multimodale Grundmodelle haben sich von spezialisierten zuPs. Aus diesem Grund hat der Autor am Anfang des Artikels direkt ein Bild vonuniversellen entwickelt.
Doraemon gezeichnet.
Wer ist geeignet, diese Rezension(Bericht) zu lesen?
Mit den Originalworten von Microsoft: Solange Sie daran interessiert sind, das Grundwissen und die neuesten Fortschritte multimodaler Grundmodelle zu erlernen, egal ob Sie ein professioneller Forscher oder ein Student sind, ist dieser Inhalt sehr gut für Sie geeignetLassen Sie uns einen Blick darauf werfen ~Ein Artikel, um den aktuellen Status multimodaler Gro?modelle herauszufindenDie ersten beiden dieser fünf spezifischen Themen sind derzeit ausgereifte Bereiche, w?hrend die letzten drei hochmoderne Bereiche sind1 . Visuelles Verst?ndnisIn diesem Teil geht es darum, wie man ein leistungsstarkes Bildverst?ndnis-Grundgerüst vorab trainiert. Wie in der Abbildung unten gezeigt, k?nnen wir die Methoden entsprechend den verschiedenen überwachungssignalen, die zum Trainieren des Modells verwendet werden, in drei Kategorien einteilen:
Label-überwachung, Sprachüberwachung
(dargestellt durch CLIP) und Nur-Bild-Selbstüberwachung .
(Schwerpunkt auf der Bilderzeugung) .
Konkret geht es von vier Aspekten aus: r?umlich kontrollierbare Generierung, textbasierte Nachbearbeitung, bessere Befolgung von Textaufforderungen und Anpassung des Generierungskonzepts(Konzeptanpassung).
Zum Beispiel variieren die Kosten für verschiedene Arten von Beschriftungsanmerkungen stark und die Erfassungskosten sind viel h?her als die für Textdaten, was dazu führt, dass die Gr??e visueller Daten normalerweise viel kleiner ist als die von Textkorpora.
Trotz der vielen Herausforderungen weist der Autor jedoch darauf hin:
Der CV-Bereich ist zunehmend an der Entwicklung allgemeiner und einheitlicher Visionssysteme interessiert, und es haben sich drei Arten von Trends herauskristallisiert:
Erstens aus geschlossenen Mengen( geschlossene Menge) in offene Menge(offene Menge), wodurch Text und Bild besser zusammenpassen k?nnen.
Der wichtigste Grund für die Verlagerung von spezifischen Aufgaben zu allgemeinen F?higkeiten besteht darin, dass die Kosten für die Entwicklung eines neuen Modells für jede neue Aufgabe zu hoch sind.
Der dritte Grund ist, dass LLM von statischen Modellen zu aufforderungsf?higen Modellen wechseln kann und verschiedene Sprachen übernehmen kann ??und kontextbezogene Eingabeaufforderungen als Eingabe und erzeugen die vom Benutzer gewünschte Ausgabe ohne Feinabstimmung. Das allgemeine Visionsmodell, das wir erstellen m?chten, sollte über die gleichen kontextbezogenen Lernf?higkeiten verfügen.
4. Von LLM unterstützte multimodale gro?e Modelle
In diesem Abschnitt werden multimodale gro?e Modelle ausführlich besprochen.
Zun?chst werden wir den Hintergrund und repr?sentative Beispiele eingehend untersuchen, den multimodalen Forschungsfortschritt von OpenAI diskutieren und bestehende Forschungslücken in diesem Bereich identifizieren.
Als n?chstes untersucht der Autor im Detail die Bedeutung der Feinabstimmung des Unterrichts in gro?en Sprachmodellen.
Anschlie?end diskutiert der Autor die Feinabstimmung von Anweisungen in multimodalen gro?en Modellen, einschlie?lich Prinzipien, Bedeutung und Anwendungen.
Abschlie?end werden wir für ein tieferes Verst?ndnis auch einige fortgeschrittene Themen im Bereich multimodaler Modelle behandeln, darunter:
Mehr Modalit?ten über Vision und Sprache hinaus, multimodales Kontextlernen, Parameter-effizientes Training sowie Benchmark und andere Inhalt.
5. Multimodaler Agent
Der sogenannte Multimodal-Agent ist eine Methode, die verschiedene multimodale Experten mit LLM verbindet, um komplexe multimodale Verst?ndnisprobleme zu l?sen.
In diesem Teil führt Sie der Autor haupts?chlich zu einer überprüfung der Transformation dieses Modells und fasst die grundlegenden Unterschiede zwischen dieser Methode und der traditionellen Methode zusammen.
Am Beispiel von MM-REACT stellen wir detailliert vor, wie diese Methode funktioniert.
Darüber hinaus fassen wir einen umfassenden Ansatz zum Aufbau multimodaler Agenten sowie die daraus entstehenden F?higkeiten zum multimodalen Verst?ndnis zusammen. Wir besprechen auch, wie man diese F?higkeit einfach erweitern kann, einschlie?lich des neuesten und besten LLM und m?glicherweise Millionen von Tools
Natürlich werden am Ende auch einige hochrangige Themen besprochen, darunter die Verbesserung/Bewertung von Multimodalit?tsagenten, verschiedene daraus erstellte Anwendungen usw.
Vorstellung des Autors
Dieser Bericht enth?lt 7 Autoren
Initiator und Gesamtverantwortlicher ist Chunyuan Li.
Er ist leitender Forscher bei Microsoft Redmond und hat einen Doktortitel von der Duke University. Seine jüngsten Forschungsinteressen sind umfangreiche Vorschulungen in Lebenslauf und NLP.
Er war verantwortlich für die Er?ffnungseinleitung und Schlusszusammenfassung sowie für das Verfassen des Kapitels ?Multimodale gro?e Modelle trainiert mit LLM“. Neu geschriebener Inhalt: Er war für das Schreiben des Anfangs und Endes des Artikels sowie des Kapitels ?Mit LLM trainierte multimodale gro?e Modelle“ verantwortlich
ist jetzt Apple AI/ML beigetreten und für gro? angelegte Vision- und multimodale Grundlagenmodellforschung verantwortlich. Zuvor war er leitender Forscher für Microsoft Azure AI. Er schloss sein Studium an der Peking University mit einem Ph.D. ab.
Zhengyuan YangEr ist leitender Forscher bei Microsoft. Er schloss sein Studium an der University of Rochester ab und erhielt den ACM SIGMM Outstanding Doctoral Award und andere Auszeichnungen. Er studierte als Student an der University of Science and Technology of China
- Jianwei Yang
Principal Researcher der Deep Learning Group bei Microsoft Research Redmond. Doktortitel am Georgia Institute of Technology.
- Linjie Li
- Forscherin in der Microsoft Cloud & AI Computer Vision Group, Abschluss mit einem Master-Abschluss von der Purdue University.
Sie waren jeweils für das Schreiben der restlichen vier Themenkapitel verantwortlich.
- Bewertungsadresse: https://arxiv.org/abs/2309.10020
Das obige ist der detaillierte Inhalt vonDie umfassendste übersicht über multimodale Gro?modelle finden Sie hier! 7 Microsoft-Forscher arbeiteten intensiv zusammen, 5 Hauptthemen, 119 Seiten Dokument. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Hei?e KI -Werkzeuge

Undress AI Tool
Ausziehbilder kostenlos

Undresser.AI Undress
KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover
Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Clothoff.io
KI-Kleiderentferner

Video Face Swap
Tauschen Sie Gesichter in jedem Video mühelos mit unserem v?llig kostenlosen KI-Gesichtstausch-Tool aus!

Hei?er Artikel

Hei?e Werkzeuge

Notepad++7.3.1
Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version
Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1
Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6
Visuelle Webentwicklungstools

SublimeText3 Mac-Version
Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

DDREASE ist ein Tool zum Wiederherstellen von Daten von Datei- oder Blockger?ten wie Festplatten, SSDs, RAM-Disks, CDs, DVDs und USB-Speicherger?ten. Es kopiert Daten von einem Blockger?t auf ein anderes, wobei besch?digte Bl?cke zurückbleiben und nur gute Bl?cke verschoben werden. ddreasue ist ein leistungsstarkes Wiederherstellungstool, das vollst?ndig automatisiert ist, da es w?hrend der Wiederherstellungsvorg?nge keine Unterbrechungen erfordert. Darüber hinaus kann es dank der ddasue-Map-Datei jederzeit gestoppt und fortgesetzt werden. Weitere wichtige Funktionen von DDREASE sind: Es überschreibt die wiederhergestellten Daten nicht, füllt aber die Lücken im Falle einer iterativen Wiederherstellung. Es kann jedoch gekürzt werden, wenn das Tool explizit dazu aufgefordert wird. Stellen Sie Daten aus mehreren Dateien oder Bl?cken in einer einzigen wieder her

0.Was bewirkt dieser Artikel? Wir schlagen DepthFM vor: ein vielseitiges und schnelles generatives monokulares Tiefensch?tzungsmodell auf dem neuesten Stand der Technik. Zus?tzlich zu herk?mmlichen Tiefensch?tzungsaufgaben demonstriert DepthFM auch hochmoderne F?higkeiten bei nachgelagerten Aufgaben wie dem Tiefen-Inpainting. DepthFM ist effizient und kann Tiefenkarten innerhalb weniger Inferenzschritte synthetisieren. Lassen Sie uns diese Arbeit gemeinsam lesen ~ 1. Titel der Papierinformationen: DepthFM: FastMonocularDepthEstimationwithFlowMatching Autor: MingGui, JohannesS.Fischer, UlrichPrestel, PingchuanMa, Dmytr

Wenn Sie wissen müssen, wie Sie die Filterung mit mehreren Kriterien in Excel verwenden, führt Sie das folgende Tutorial durch die Schritte, um sicherzustellen, dass Sie Ihre Daten effektiv filtern und sortieren k?nnen. Die Filterfunktion von Excel ist sehr leistungsstark und kann Ihnen dabei helfen, aus gro?en Datenmengen die ben?tigten Informationen zu extrahieren. Diese Funktion kann Daten entsprechend den von Ihnen festgelegten Bedingungen filtern und nur die Teile anzeigen, die die Bedingungen erfüllen, wodurch die Datenverwaltung effizienter wird. Mithilfe der Filterfunktion k?nnen Sie Zieldaten schnell finden und so Zeit beim Suchen und Organisieren von Daten sparen. Diese Funktion kann nicht nur auf einfache Datenlisten angewendet werden, sondern auch nach mehreren Bedingungen gefiltert werden, um Ihnen dabei zu helfen, die ben?tigten Informationen genauer zu finden. Insgesamt ist die Filterfunktion von Excel sehr praktisch

Stehen Sie vor einer Verz?gerung oder einer langsamen mobilen Datenverbindung auf dem iPhone? Normalerweise h?ngt die St?rke des Mobilfunk-Internets auf Ihrem Telefon von mehreren Faktoren ab, wie z. B. der Region, dem Mobilfunknetztyp, dem Roaming-Typ usw. Es gibt einige Dinge, die Sie tun k?nnen, um eine schnellere und zuverl?ssigere Mobilfunk-Internetverbindung zu erhalten. Fix 1 – Neustart des iPhone erzwingen Manchmal werden durch einen erzwungenen Neustart Ihres Ger?ts viele Dinge zurückgesetzt, einschlie?lich der Mobilfunkverbindung. Schritt 1 – Drücken Sie einfach einmal die Lauter-Taste und lassen Sie sie los. Drücken Sie anschlie?end die Leiser-Taste und lassen Sie sie wieder los. Schritt 2 – Der n?chste Teil des Prozesses besteht darin, die Taste auf der rechten Seite gedrückt zu halten. Lassen Sie das iPhone den Neustart abschlie?en. Aktivieren Sie Mobilfunkdaten und überprüfen Sie die Netzwerkgeschwindigkeit. überprüfen Sie es erneut. Fix 2 – Datenmodus ?ndern 5G bietet zwar bessere Netzwerkgeschwindigkeiten, funktioniert jedoch besser, wenn das Signal schw?cher ist

Die von Google gef?rderte Leistung von JAX hat in jüngsten Benchmark-Tests die von Pytorch und TensorFlow übertroffen und belegt bei 7 Indikatoren den ersten Platz. Und der Test wurde nicht auf der TPU mit der besten JAX-Leistung durchgeführt. Obwohl unter Entwicklern Pytorch immer noch beliebter ist als Tensorflow. Aber in Zukunft werden m?glicherweise mehr gro?e Modelle auf Basis der JAX-Plattform trainiert und ausgeführt. Modelle Kürzlich hat das Keras-Team drei Backends (TensorFlow, JAX, PyTorch) mit der nativen PyTorch-Implementierung und Keras2 mit TensorFlow verglichen. Zun?chst w?hlen sie eine Reihe von Mainstream-Inhalten aus

Das neueste Video von Teslas Roboter Optimus ist ver?ffentlicht und er kann bereits in der Fabrik arbeiten. Bei normaler Geschwindigkeit sortiert es Batterien (Teslas 4680-Batterien) so: Der Beamte hat auch ver?ffentlicht, wie es bei 20-facher Geschwindigkeit aussieht – auf einer kleinen ?Workstation“, pflücken und pflücken und pflücken: Dieses Mal wird es freigegeben. Eines der Highlights Der Vorteil des Videos besteht darin, dass Optimus diese Arbeit in der Fabrik v?llig autonom und ohne menschliches Eingreifen w?hrend des gesamten Prozesses erledigt. Und aus Sicht von Optimus kann es auch die krumme Batterie aufnehmen und platzieren, wobei der Schwerpunkt auf der automatischen Fehlerkorrektur liegt: In Bezug auf die Hand von Optimus gab der NVIDIA-Wissenschaftler Jim Fan eine hohe Bewertung ab: Die Hand von Optimus ist der fünffingrige Roboter der Welt am geschicktesten. Seine H?nde sind nicht nur taktil

Kürzlich wurde die Milit?rwelt von der Nachricht überw?ltigt: US-Milit?rkampfflugzeuge k?nnen jetzt mithilfe von KI vollautomatische Luftk?mpfe absolvieren. Ja, erst kürzlich wurde der KI-Kampfjet des US-Milit?rs zum ersten Mal der ?ffentlichkeit zug?nglich gemacht und sein Geheimnis gelüftet. Der vollst?ndige Name dieses J?gers lautet ?Variable Stability Simulator Test Aircraft“ (VISTA). Er wurde vom Minister der US-Luftwaffe pers?nlich geflogen, um einen Eins-gegen-eins-Luftkampf zu simulieren. Am 2. Mai startete US-Luftwaffenminister Frank Kendall mit einer X-62AVISTA auf der Edwards Air Force Base. Beachten Sie, dass w?hrend des einstündigen Fluges alle Flugaktionen autonom von der KI durchgeführt wurden! Kendall sagte: ?In den letzten Jahrzehnten haben wir über das unbegrenzte Potenzial des autonomen Luft-Luft-Kampfes nachgedacht, aber es schien immer unerreichbar.“ Nun jedoch,

Ich weine zu Tode. Die Daten im Internet reichen überhaupt nicht aus. Das Trainingsmodell sieht aus wie ?Die Tribute von Panem“, und KI-Forscher auf der ganzen Welt machen sich Gedanken darüber, wie sie diese datenhungrigen Esser ern?hren sollen. Dieses Problem tritt insbesondere bei multimodalen Aufgaben auf. Zu einer Zeit, als sie ratlos waren, nutzte ein Start-up-Team der Abteilung der Renmin-Universit?t von China sein eigenes neues Modell, um als erstes in China einen ?modellgenerierten Datenfeed selbst“ in die Realit?t umzusetzen. Darüber hinaus handelt es sich um einen zweigleisigen Ansatz auf der Verst?ndnisseite und der Generierungsseite. Beide Seiten k?nnen hochwertige, multimodale neue Daten generieren und Datenrückmeldungen an das Modell selbst liefern. Was ist ein Modell? Awaker 1.0, ein gro?es multimodales Modell, das gerade im Zhongguancun-Forum erschienen ist. Wer ist das Team? Sophon-Motor. Gegründet von Gao Yizhao, einem Doktoranden an der Hillhouse School of Artificial Intelligence der Renmin University.
