国产av日韩一区二区三区精品,成人性爱视频在线观看,国产,欧美,日韩,一区,www.成色av久久成人,2222eeee成人天堂

Heim Technologie-Peripherieger?te KI Nvidia spielt mit Beschneidung und Destillation: Halbierung der Llama 3.1 8B-Parameter, um bei gleicher Gr??e eine bessere Leistung zu erzielen

Nvidia spielt mit Beschneidung und Destillation: Halbierung der Llama 3.1 8B-Parameter, um bei gleicher Gr??e eine bessere Leistung zu erzielen

Aug 16, 2024 pm 04:42 PM
Nvidia Projekt

Der Aufstieg kleiner Modelle.

Letzten Monat ver?ffentlichte Meta die Modellreihe Llama 3.1, zu der Metas bislang gr??tes Modell, der 405B, sowie zwei kleinere Modelle geh?ren. Die Parameterbetr?ge betragen 70 Milliarden bzw. 8 Milliarden.

Llama 3.1 gilt als der Beginn einer neuen ?ra von Open Source. Obwohl die Modelle der neuen Generation leistungsstark sind, erfordern sie bei der Bereitstellung immer noch gro?e Mengen an Rechenressourcen.

Daher hat sich in der Branche ein weiterer Trend herausgebildet, der darin besteht, kleine Sprachmodelle (SLM) zu entwickeln, die bei vielen Sprachaufgaben eine ausreichende Leistung erbringen und zudem sehr kostengünstig bereitzustellen sind.

Kürzlich zeigen Untersuchungen von NVIDIA, dass durch strukturierte Gewichtsbereinigung in Kombination mit Wissensdestillation nach und nach kleinere Sprachmodelle aus einem zun?chst gr??eren Modell gewonnen werden k?nnen. #???? ##### ???? ## ???? ## ???? ## ???? ## ????#, Meta-Chef-KI-Wissenschaftler Jann LECun lobte die Studie ebenfalls.

英偉達玩轉(zhuǎn)剪枝、蒸餾:把Llama 3.1 8B參數(shù)減半,性能同尺寸更強
Nach der Beschneidung und Destillation verfeinerte das NVIDIA-Forschungsteam Llama 3.1 8B zu Llama-3.1-Minitron 4B und machte es Open Source. Dies ist Nvidias erste Ver?ffentlichung in der Open-Source-Reihe Llama 3.1.

Llama-3.1-Minitron 4B übertrifft modernste Open-Source-Modelle ?hnlicher Gr??e, darunter Minitron 4B, Phi-2 2.7B, Gemma2 2.6B und Qwen2-1.5B.

Das entsprechende Papier dieser Forschung wurde bereits letzten Monat ver?ffentlicht.

英偉達玩轉(zhuǎn)剪枝、蒸餾:把Llama 3.1 8B參數(shù)減半,性能同尺寸更強

Papierlink: https://www.arxiv.org/pdf/2407.14679

#?? ?? ??#
Durch das Beschneiden wird das Modell kleiner und schlanker, was durch das Entfernen von Schichten (Tiefenbeschneiden) oder das Entfernen von Neuronen und Aufmerksamkeitsk?pfen und das Einbetten von Kan?len (Breitenbeschneiden) erreicht werden kann. Mit dem Beschneiden geht in der Regel ein gewisses Ma? an Umschulung einher, um die Genauigkeit wiederherzustellen. 英偉達玩轉(zhuǎn)剪枝、蒸餾:把Llama 3.1 8B參數(shù)減半,性能同尺寸更強
Modelldestillation ist eine Technik zur Wissensübertragung von einem gro?en komplexen Modell (oft als Lehrermodell bezeichnet) auf ein kleineres, einfacheres Schülermodell. Das Ziel besteht darin, ein effizienteres Modell zu erstellen, das einen Gro?teil der Vorhersagekraft des ursprünglichen gr??eren Modells beibeh?lt, gleichzeitig schneller l?uft und weniger Ressourcen verbraucht.
  • Es gibt zwei Hauptdestillationsmethoden: SDG-Feinabstimmung und klassische Wissensdestillation. Diese beiden Destillationsmethoden erg?nzen sich. Dieser Artikel konzentriert sich auf klassische Methoden zur Wissensdestillation.

    NVIDIA verwendet eine Methode, die Bereinigung und klassische Wissensdestillation kombiniert, um gro?e Modelle zu erstellen. Die folgende Abbildung zeigt den Bereinigungs- und Destillationsprozess eines einzelnen Modells (oben) und die Kette der Modellbereinigung und -destillation (unten). ). Der spezifische Prozess ist wie folgt:
  • 1 NVIDIA beginnt mit dem 15B-Modell, bewertet die Bedeutung jeder Komponente (Schicht, Neuron, Kopf und Einbettungskanal) und sortiert und bereinigt dann das zu erstellende Modell Zielgr??e erreicht: 8B-Modell.

    2. Anschlie?end wurde eine leichte Umschulung mithilfe der Modelldestillation durchgeführt, wobei das ursprüngliche Modell der Lehrer und das beschnittene Modell der Schüler war.
3. Nehmen Sie nach dem Training das kleine Modell (8B) als Ausgangspunkt, beschneiden Sie es und destillieren Sie es in ein kleineres 4B-Modell.

?????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????? ?.

Es ist zu beachten, dass Sie vor dem Beschneiden des Modells verstehen müssen, welcher Teil des Modells wichtig ist. NVIDIA schl?gt eine aktivierungsbasierte Strategie zur reinen Wichtigkeitsbewertung vor, die gleichzeitig Informationen in allen relevanten Dimensionen (Tiefe, Neuron, Kopf und Einbettungskan?le) berechnet und dabei einen kleinen Kalibrierungsdatensatz von 1024 Proben verwendet und nur eine Vorw?rtsausbreitung erforderlich ist. Dieser Ansatz ist einfacher und kostengünstiger als Strategien, die auf Gradienteninformationen basieren und eine Backpropagation erfordern.

W?hrend des Beschneidens k?nnen Sie iterativ zwischen Beschneiden und Wichtigkeitssch?tzung für eine bestimmte Achse oder Achsenkombination wechseln. Empirische Studien zeigen, dass die Verwendung einer einzelnen Wichtigkeitssch?tzung ausreichend ist und dass iterative Sch?tzungen keinen zus?tzlichen Nutzen bringen.

Umschulung mittels klassischer Wissensdestillation

Abbildung 2 unten zeigt den Destillationsprozess, bei dem das N-Schicht-Schülermodell (das beschnittene Modell) aus dem M-Schicht-Lehrermodell (dem ursprünglichen unbeschnittenen Modell) destilliert wird. Das Schülermodell wird durch Minimierung einer Kombination aus Einbettungsausgangsverlusten, Logit-Verlusten und Transformer-Encoder-spezifischen Verlusten erlernt, die den Schülerbl?cken S und den Lehrerbl?cken T zugeordnet sind. Abbildung 2: Verlust des Destillationstrainings.

英偉達玩轉(zhuǎn)剪枝、蒸餾:把Llama 3.1 8B參數(shù)減半,性能同尺寸更強

Best Practices für Pruning und DestillationBasierend auf umfangreicher Ablationsforschung zu Pruning und Wissensdestillation in kompakten Sprachmodellen fasst NVIDIA seine Lernergebnisse in den folgenden strukturierten Best Practices für die Komprimierung zusammen.

Eine besteht darin, die Gr??e anzupassen.

Um eine Reihe von LLMs zu trainieren, trainieren Sie zuerst das gr??te und beschneiden und destillieren Sie es dann iterativ, um kleinere LLMs zu erhalten.

Wenn Sie zum Trainieren des gr??ten Modells eine mehrstufige Trainingsstrategie verwenden, ist es am besten, das in der letzten Trainingsphase erhaltene Modell zu beschneiden und neu zu trainieren.
  • Beschneiden Sie das verfügbare Quellmodell, das der Zielgr??e am n?chsten kommt.
  • Das zweite ist das Beschneiden.
  • Priorisieren Sie die Breitenbeschneidung vor der Tiefenbeschneidung, was bei Modellen unter der Parametergr??e 15B gut funktioniert.

Verwenden Sie die einmalige Wichtigkeitssch?tzung, da die iterative Wichtigkeitssch?tzung keinen Nutzen bringt.
  • Die dritte ist die Umschulung.
  • Umschulung nur mit Destillationsverlust anstelle des regul?ren Trainings.

Verwenden Sie Logit, Zwischenzustand und eingebettete Destillation, wenn die Tiefe deutlich reduziert ist.
  • Verwenden Sie die reine Logit-Destillation, wenn die Tiefe nicht wesentlich abnimmt.
  • Llama-3.1-Minitron: Best Practices in die Tat umsetzen
  • Meta hat kürzlich die leistungsstarke Llama 3.1-Familie von Open-Source-Modellen auf den Markt gebracht, die in vielen Benchmarks mit Closed-Source-Modellen mithalten k?nnen. Die Parameter von Llama 3.1 reichen von gewaltigen 405B bis 70B und 8B.
Mit der Erfahrung der Nemotron-Destillation machte sich NVIDIA daran, das Llama 3.1 8B-Modell in ein kleineres und effizienteres 4B-Modell zu destillieren und ergriff dabei die folgenden Ma?nahmen:

Lehrer-Feinabstimmung

Nur tiefe Beschneidung
  • Width -PRUNING
  • Accuracy Benchmark
  • performance Benchmark
  • Teacher Feinabstimmung
  • Um die Verteilungsverzerrung des ursprünglichen Datensatzes zu korrigieren, auf dem das Modelltraining basiert, nvidia zuerst führte eine vollst?ndige Reihe von Tests an ihrem Datensatz durch (94B-Token) und verfeinerte das ungekürzte 8B-Modell. Experimente zeigen, dass das Lehrermodell bei der Destillierung eine suboptimale Anleitung für den Datensatz liefert, wenn die Verteilungsverzerrung nicht korrigiert wird.

Nur Tiefenbeschneidung

Um von 8B auf 4B zu reduzieren, hat NVIDIA 16 Ebenen (50 %) beschnitten. Sie bewerten zun?chst die Bedeutung jeder Schicht oder Gruppe aufeinanderfolgender Unterschichten, indem sie sie aus dem Modell entfernen, und beobachten einen Anstieg des LM-Verlusts oder eine Abnahme der Genauigkeit bei nachgelagerten Aufgaben.

Abbildung 5 unten zeigt die LM-Verlustwerte im Validierungssatz nach dem Entfernen von 1, 2, 8 oder 16 Schichten. Das rote Diagramm für Schicht 16 zeigt beispielsweise den LM-Verlust an, der auftritt, wenn die ersten 16 Schichten entfernt werden. Schicht 17 zeigt an, dass ein LM-Verlust auch auftritt, wenn die erste Schicht beibehalten wird und die Schichten 2 bis 17 gel?scht werden. Nvidia stellt fest: Die Start- und Endschicht sind die wichtigsten.

???????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????? Abbildung 5: Die Bedeutung des reinen Tiefenschnitts der Mittelschicht.

英偉達玩轉(zhuǎn)剪枝、蒸餾:把Llama 3.1 8B參數(shù)減半,性能同尺寸更強

NVIDIA stellt jedoch fest, dass dieser LM-Verlust nicht unbedingt direkt mit der Downstream-Leistung zusammenh?ngt.

Abbildung 6 unten zeigt die Winogrande-Genauigkeit jedes beschnittenen Modells. Sie zeigt, dass es am besten ist, die 16. bis 31. Schicht zu l?schen, wobei die 31. Schicht die vorletzte Schicht ist. Die 5-Schuss-Genauigkeit des beschnittenen Modells ist deutlich h?her. mit zuf?lliger Genauigkeit (0,5). Nvidia nutzte diese Erkenntnis und entfernte die Schichten 16 bis 31. Abbildung 6: Genauigkeit der Winogrande-Aufgabe, wenn 16 Schichten entfernt werden.

Nur Breitenbeschneidung

NVIDIA beschneidet die Einbettung (versteckt) und die MLP-Zwischenabmessungen entlang der Breitenachse, um Llama 3.1 8B zu komprimieren. Insbesondere verwenden sie die zuvor beschriebene aktivierungsbasierte Strategie, um Wichtigkeitswerte für jeden Aufmerksamkeitskopf, jeden Einbettungskanal und jede versteckte MLP-Dimension zu berechnen.
英偉達玩轉(zhuǎn)剪枝、蒸餾:把Llama 3.1 8B參數(shù)減半,性能同尺寸更強Nach der Wichtigkeitssch?tzung entschied sich NVIDIA

, die MLP-Mitteldimension von 14336 auf 9216 zu beschneiden.

Versteckte Gr??e von 4096 auf 3072 reduzieren.

Achten Sie erneut auf die Anzahl der K?pfe und Schichten.

Es ist erw?hnenswert, dass nach dem Einzelprobenschnitt der LM-Verlust beim Breitenschnitt h?her ist als beim Tiefenschnitt. Nach einer kurzen Umschulungsphase kehrte sich der Trend jedoch um.

Genauigkeitsbenchmark

NVIDIA hat das Modell anhand der folgenden Parameter destilliert:

  • Spitzenlernrate = 1e-4

  • Minimale Lernrate = 1e-5

  • 40 Schritte linear

  • Cosine Decay Plan

  • Globale Chargengr??e = 1152

Tabelle 1 unten zeigt die Llama-3.1-Minitron 4B-Modellvarianten (Breitenbeschneidung und Tiefenbeschneidung), die dem ursprünglichen Llama 3.1 8B-Modell ?hneln, andere Leistungsvergleiche von gro?en und kleinen Modellen anhand von Benchmarks über mehrere Dom?nen hinweg. Insgesamt best?tigte NVIDIA erneut die Wirksamkeit einer umfassenden Pruning-Strategie im Vergleich zu einem tiefen Pruning, das Best Practices folgt.

英偉達玩轉(zhuǎn)剪枝、蒸餾:把Llama 3.1 8B參數(shù)減半,性能同尺寸更強

???????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????? Tabelle 1: Genauigkeitsvergleich des Minitron 4B-Basismodells im Vergleich zu Basismodellen ?hnlicher Gr??e.

Um zu überprüfen, ob das destillierte Modell zu einem leistungsstarken Befehlsmodell werden kann, hat NVIDIA NeMo-Aligner zur Feinabstimmung des Llama-3.1-Minitron 4B-Modells verwendet.

Sie verwendeten Nemotron-4 340B-Trainingsdaten und werteten sie auf IFEval, MT-Bench, ChatRAG-Bench und dem Berkeley Function Calling Leaderboard (BFCL) aus, um Anweisungen zu befolgen, Rollenspiele, RAG und Funktionsaufruff?higkeiten zu testen. Schlie?lich wurde best?tigt, dass das Modell Llama-3.1-Minitron 4B ein zuverl?ssiges Unterrichtsmodell sein kann, das andere Basis-SLMs übertrifft.

英偉達玩轉(zhuǎn)剪枝、蒸餾:把Llama 3.1 8B參數(shù)減半,性能同尺寸更強

????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????? Tabelle 2: Accurac Y-Vergleich des ausgerichteten Minitron 4B-Basismodells mit ausgerichteten Modellen ?hnlicher Gr??e.

Leistungsbenchmarks

NVIDIA optimierte die Modelle Llama 3.1 8B und Llama-3.1-Minitron 4B mit NVIDIA TensorRT-LLM, einem Open-Source-Toolkit zur Optimierung der LLM-Inferenz.

Die n?chsten beiden Abbildungen zeigen die Durchsatzanforderungen pro Sekunde verschiedener Modelle bei FP8- und FP16-Pr?zision unter verschiedenen Anwendungsf?llen, ausgedrückt als Kombination aus Eingabesequenzl?nge und Ausgabesequenzl?nge (ISL/OSL) der Stapelgr??e von 32 für 8B Modell und Die Stapelgr??e des 4B-Modells ist eine Kombination aus Eingabesequenzl?nge und Ausgabesequenzl?nge (ISL/OSL) von 64, da die kleineren Gewichte eine gr??ere Stapelgr??e auf einer NVIDIA H100 80-GB-GPU erm?glichen.

Die Llama-3.1-Minitron-4B-Depth-Base-Variante ist die schnellste mit einem durchschnittlichen Durchsatz, der etwa 2,7-mal so hoch ist wie der von Llama 3.1 8B, w?hrend die Llama-3.1-Minitron-4B-Width-Base-Variante einen durchschnittlichen Durchsatz aufweist Der Durchsatz ist etwa 1,8-mal so hoch wie der von Llama 3.1 8B. Der Einsatz im FP8 verbessert au?erdem die Leistung aller drei Modelle um etwa das 1,3-fache im Vergleich zu BF16.

英偉達玩轉(zhuǎn)剪枝、蒸餾:把Llama 3.1 8B參數(shù)減半,性能同尺寸更強
英偉達玩轉(zhuǎn)剪枝、蒸餾:把Llama 3.1 8B參數(shù)減半,性能同尺寸更強

????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????? ?80?GB GPU.

Fazit

Beschneidung und klassische Wissensverfeinerung sind eine sehr kostengünstige Methode, um schrittweise LLMs kleinerer Gr??e zu erhalten und in allen Bereichen eine h?here Genauigkeit zu erzielen als das Training von Grund auf. Dies ist ein effizienterer und dateneffizienterer Ansatz als die Feinabstimmung synthetischer Daten oder das Vortraining von Grund auf.

Llama-3.1-Minitron 4B ist NVIDIAs erster Versuch, die hochmoderne Open-Source-Llama-3.1-Serie zu nutzen. Informationen zur Verwendung der SDG-Feinabstimmung von Llama-3.1 mit NVIDIA NeMo finden Sie im Abschnitt /sdg-law-title-generation auf GitHub.

Weitere Informationen finden Sie in den folgenden Ressourcen:

  • https://arxiv.org/abs/2407.14679

  • https://github.com/NVlabs/Minitron

  • https:// Huggingface.co/nvidia/Llama-3.1-Minitron-4B-Width-Base

  • https://huggingface.co/nvidia/Llama-3.1-Minitron-4B-Depth-Base

Referenzlinks:

https://developer.nvidia.com/blog/how-to-prune-and-distill-llama-3-1-8b-to-an-nvidia-llama-3-1-minitron-4b -Modell/

Das obige ist der detaillierte Inhalt vonNvidia spielt mit Beschneidung und Destillation: Halbierung der Llama 3.1 8B-Parameter, um bei gleicher Gr??e eine bessere Leistung zu erzielen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erkl?rung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Hei?e KI -Werkzeuge

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Clothoff.io

Clothoff.io

KI-Kleiderentferner

Video Face Swap

Video Face Swap

Tauschen Sie Gesichter in jedem Video mühelos mit unserem v?llig kostenlosen KI-Gesichtstausch-Tool aus!

Hei?e Werkzeuge

Notepad++7.3.1

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Hei?e Themen

PHP-Tutorial
1502
276
arXiv-Artikel k?nnen als ?Barrage' gepostet werden, die Diskussionsplattform von Stanford alphaXiv ist online, LeCun gef?llt es arXiv-Artikel k?nnen als ?Barrage' gepostet werden, die Diskussionsplattform von Stanford alphaXiv ist online, LeCun gef?llt es Aug 01, 2024 pm 05:18 PM

Prost! Wie ist es, wenn es bei einer Papierdiskussion auf Worte ankommt? Kürzlich haben Studenten der Stanford University alphaXiv erstellt, ein offenes Diskussionsforum für arXiv-Artikel, das es erm?glicht, Fragen und Kommentare direkt zu jedem arXiv-Artikel zu posten. Website-Link: https://alphaxiv.org/ Tats?chlich ist es nicht erforderlich, diese Website speziell zu besuchen. ?ndern Sie einfach arXiv in einer beliebigen URL in alphaXiv, um den entsprechenden Artikel direkt im alphaXiv-Forum zu ?ffnen: Sie k?nnen die Abs?tze darin genau lokalisieren das Papier, Satz: Im Diskussionsbereich auf der rechten Seite k?nnen Benutzer Fragen stellen, um dem Autor Fragen zu den Ideen und Details des Papiers zu stellen. Sie k?nnen beispielsweise auch den Inhalt des Papiers kommentieren, wie zum Beispiel: ?Gegeben an.“

Das NVIDIA-Dialogmodell ChatQA wurde auf Version 2.0 weiterentwickelt, wobei die angegebene Kontextl?nge 128 KB betr?gt Das NVIDIA-Dialogmodell ChatQA wurde auf Version 2.0 weiterentwickelt, wobei die angegebene Kontextl?nge 128 KB betr?gt Jul 26, 2024 am 08:40 AM

Die offene LLM-Community ist eine ?ra, in der hundert Blumen blühen und konkurrieren. Sie k?nnen Llama-3-70B-Instruct, QWen2-72B-Instruct, Nemotron-4-340B-Instruct, Mixtral-8x22BInstruct-v0.1 und viele andere sehen hervorragende Darsteller. Allerdings weisen offene Modelle im Vergleich zu den propriet?ren Gro?modellen GPT-4-Turbo in vielen Bereichen noch erhebliche Lücken auf. Zus?tzlich zu allgemeinen Modellen wurden einige offene Modelle entwickelt, die sich auf Schlüsselbereiche spezialisieren, wie etwa DeepSeek-Coder-V2 für Programmierung und Mathematik und InternVL für visuelle Sprachaufgaben.

Der Autor von ControlNet hat einen weiteren Hit! Der gesamte Prozess der Generierung eines Gem?ldes aus einem Bild, der in zwei Tagen 1,4.000 Sterne verdient Der Autor von ControlNet hat einen weiteren Hit! Der gesamte Prozess der Generierung eines Gem?ldes aus einem Bild, der in zwei Tagen 1,4.000 Sterne verdient Jul 17, 2024 am 01:56 AM

Es ist ebenfalls ein Tusheng-Video, aber PaintsUndo ist einen anderen Weg gegangen. ControlNet-Autor LvminZhang begann wieder zu leben! Dieses Mal ziele ich auf den Bereich der Malerei. Das neue Projekt PaintsUndo hat nicht lange nach seinem Start 1,4.000 Sterne erhalten (die immer noch wahnsinnig steigen). Projektadresse: https://github.com/lllyasviel/Paints-UNDO Bei diesem Projekt gibt der Benutzer ein statisches Bild ein, und PaintsUndo kann Ihnen dabei helfen, automatisch ein Video des gesamten Malprozesses zu erstellen, vom Linienentwurf bis zum fertigen Produkt . W?hrend des Zeichenvorgangs sind die Linien?nderungen erstaunlich. Das Endergebnis des Videos ist dem Originalbild sehr ?hnlich: Schauen wir uns eine vollst?ndige Zeichnung an.

Ein bedeutender Durchbruch in der Riemann-Hypothese! Tao Zhexuan empfiehlt dringend neue Arbeiten vom MIT und Oxford, und der 37-j?hrige Fields-Medaillengewinner nahm daran teil Ein bedeutender Durchbruch in der Riemann-Hypothese! Tao Zhexuan empfiehlt dringend neue Arbeiten vom MIT und Oxford, und der 37-j?hrige Fields-Medaillengewinner nahm daran teil Aug 05, 2024 pm 03:32 PM

Kürzlich gelang der Riemann-Hypothese, die als eines der sieben gro?en Probleme des Jahrtausends bekannt ist, ein neuer Durchbruch. Die Riemann-Hypothese ist ein sehr wichtiges ungel?stes Problem in der Mathematik, das sich auf die genauen Eigenschaften der Verteilung von Primzahlen bezieht (Primzahlen sind Zahlen, die nur durch 1 und sich selbst teilbar sind, und sie spielen eine grundlegende Rolle in der Zahlentheorie). In der heutigen mathematischen Literatur gibt es mehr als tausend mathematische Thesen, die auf der Aufstellung der Riemann-Hypothese (oder ihrer verallgemeinerten Form) basieren. Mit anderen Worten: Sobald die Riemann-Hypothese und ihre verallgemeinerte Form bewiesen sind, werden diese mehr als tausend S?tze als Theoreme etabliert, die einen tiefgreifenden Einfluss auf das Gebiet der Mathematik haben werden, und wenn sich die Riemann-Hypothese als falsch erweist, dann unter anderem Auch diese S?tze werden teilweise ihre Gültigkeit verlieren. Neuer Durchbruch kommt von MIT-Mathematikprofessor Larry Guth und der Universit?t Oxford

Posthume Arbeit des OpenAI Super Alignment Teams: Zwei gro?e Modelle spielen ein Spiel und die Ausgabe wird verst?ndlicher Posthume Arbeit des OpenAI Super Alignment Teams: Zwei gro?e Modelle spielen ein Spiel und die Ausgabe wird verst?ndlicher Jul 19, 2024 am 01:29 AM

Wenn die Antwort des KI-Modells überhaupt unverst?ndlich ist, würden Sie es wagen, sie zu verwenden? Da maschinelle Lernsysteme in immer wichtigeren Bereichen eingesetzt werden, wird es immer wichtiger zu zeigen, warum wir ihren Ergebnissen vertrauen k?nnen und wann wir ihnen nicht vertrauen sollten. Eine M?glichkeit, Vertrauen in die Ausgabe eines komplexen Systems zu gewinnen, besteht darin, vom System zu verlangen, dass es eine Interpretation seiner Ausgabe erstellt, die für einen Menschen oder ein anderes vertrauenswürdiges System lesbar ist, d. h. so vollst?ndig verst?ndlich, dass m?gliche Fehler erkannt werden k?nnen gefunden. Um beispielsweise Vertrauen in das Justizsystem aufzubauen, verlangen wir von den Gerichten, dass sie klare und lesbare schriftliche Stellungnahmen abgeben, die ihre Entscheidungen erl?utern und stützen. Für gro?e Sprachmodelle k?nnen wir auch einen ?hnlichen Ansatz verfolgen. Stellen Sie bei diesem Ansatz jedoch sicher, dass das Sprachmodell generiert wird

LLM eignet sich wirklich nicht für die Vorhersage von Zeitreihen. Es nutzt nicht einmal seine Argumentationsf?higkeit. LLM eignet sich wirklich nicht für die Vorhersage von Zeitreihen. Es nutzt nicht einmal seine Argumentationsf?higkeit. Jul 15, 2024 pm 03:59 PM

K?nnen Sprachmodelle wirklich zur Zeitreihenvorhersage verwendet werden? Gem?? Betteridges Gesetz der Schlagzeilen (jede Schlagzeile, die mit einem Fragezeichen endet, kann mit ?Nein“ beantwortet werden) sollte die Antwort ?Nein“ lauten. Die Tatsache scheint wahr zu sein: Ein so leistungsstarkes LLM kann mit Zeitreihendaten nicht gut umgehen. Zeitreihen, also Zeitreihen, beziehen sich, wie der Name schon sagt, auf eine Reihe von Datenpunktsequenzen, die in der Reihenfolge ihres Auftretens angeordnet sind. Die Zeitreihenanalyse ist in vielen Bereichen von entscheidender Bedeutung, einschlie?lich der Vorhersage der Ausbreitung von Krankheiten, Einzelhandelsanalysen, Gesundheitswesen und Finanzen. Im Bereich der Zeitreihenanalyse haben viele Forscher in letzter Zeit untersucht, wie man mithilfe gro?er Sprachmodelle (LLM) Anomalien in Zeitreihen klassifizieren, vorhersagen und erkennen kann. Diese Arbeiten gehen davon aus, dass Sprachmodelle, die gut mit sequentiellen Abh?ngigkeiten in Texten umgehen k?nnen, auch auf Zeitreihen verallgemeinert werden k?nnen.

Die agentenlose L?sung von UIUC steht ganz oben auf der Liste der Open-Source-KI-Softwareentwickler und l?st problemlos echte Programmierprobleme im SWE-Bench Die agentenlose L?sung von UIUC steht ganz oben auf der Liste der Open-Source-KI-Softwareentwickler und l?st problemlos echte Programmierprobleme im SWE-Bench Jul 17, 2024 pm 10:02 PM

Die AIxiv-Kolumne ist eine Kolumne, in der diese Website akademische und technische Inhalte ver?ffentlicht. In den letzten Jahren sind in der AIxiv-Kolumne dieser Website mehr als 2.000 Berichte eingegangen, die Spitzenlabore gro?er Universit?ten und Unternehmen auf der ganzen Welt abdecken und so den akademischen Austausch und die Verbreitung wirksam f?rdern. Wenn Sie hervorragende Arbeiten haben, die Sie teilen m?chten, k?nnen Sie gerne einen Beitrag leisten oder uns für die Berichterstattung kontaktieren. Einreichungs-E-Mail: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com Die Autoren dieses Artikels stammen alle aus dem Team von Lehrer Zhang Lingming an der University of Illinois in Urbana-Champaign, darunter: Steven Code Repair; Doktorand im vierten Jahr, Forscher

Das erste Mamba-basierte MLLM ist da! Modellgewichte, Trainingscode usw. waren alle Open Source Das erste Mamba-basierte MLLM ist da! Modellgewichte, Trainingscode usw. waren alle Open Source Jul 17, 2024 am 02:46 AM

Die AIxiv-Kolumne ist eine Kolumne, in der diese Website akademische und technische Inhalte ver?ffentlicht. In den letzten Jahren sind in der AIxiv-Kolumne dieser Website mehr als 2.000 Berichte eingegangen, die Spitzenlabore gro?er Universit?ten und Unternehmen auf der ganzen Welt abdecken und so den akademischen Austausch und die Verbreitung wirksam f?rdern. Wenn Sie hervorragende Arbeiten haben, die Sie teilen m?chten, k?nnen Sie gerne einen Beitrag leisten oder uns für die Berichterstattung kontaktieren. E-Mail-Adresse: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com. Einleitung In den letzten Jahren hat die Anwendung multimodaler gro?er Sprachmodelle (MLLM) in verschiedenen Bereichen bemerkenswerte Erfolge erzielt. Als Grundmodell für viele nachgelagerte Aufgaben besteht aktuelles MLLM jedoch aus dem bekannten Transformer-Netzwerk, das

See all articles