Die Dritte Generation Des OpenAI-Algorithmus Hat Anhand Mehrerer Beispiele Gelernt, Wie Man Textaufgaben Durchführt

Video: Die Dritte Generation Des OpenAI-Algorithmus Hat Anhand Mehrerer Beispiele Gelernt, Wie Man Textaufgaben Durchführt

Video: Die Dritte Generation Des OpenAI-Algorithmus Hat Anhand Mehrerer Beispiele Gelernt, Wie Man Textaufgaben Durchführt
Video: Textaufgaben, Gleichung, Beispiel, Mathevokabeln erkannt-Gefahr gebannt | Mathe by Daniel Jung 2023, März
Die Dritte Generation Des OpenAI-Algorithmus Hat Anhand Mehrerer Beispiele Gelernt, Wie Man Textaufgaben Durchführt
Die Dritte Generation Des OpenAI-Algorithmus Hat Anhand Mehrerer Beispiele Gelernt, Wie Man Textaufgaben Durchführt
Anonim
Image
Image

Ein Beispiel für ein Gedicht im Stil der Werke des amerikanischen Dichters Wallace Stevens, generiert von GPT-3. Als Beispiele für Gedichte wurden dem Algorithmus „The City“von Konstantinos Kawafi (übersetzt ins Englische) und „Some Trees“von John Ashbury genannt.

Forscher von OpenAI stellten GPT-3 vor, einen Algorithmus, der anhand weniger Beispiele verschiedene Schreibaufgaben ausführen kann. Die neue Version verwendet dieselbe Architektur wie der vorherige GPT-2-Algorithmus, aber die Entwickler erhöhten die Anzahl der im Modell verwendeten Parameter auf 175 Milliarden, indem sie das Modell auf 570 Gigabyte Text trainierten. Dadurch kann GPT-3 Fragen zum gelesenen Text beantworten, Gedichte schreiben, Anagramme lösen, einfache Rechenbeispiele lösen und sogar übersetzen – und dafür braucht es nur wenige (10 bis 100) Beispiele, wie genau das geht. Eine detaillierte Beschreibung der Funktionsweise des Algorithmus haben die Forscher auf arXiv.org veröffentlicht.

Eine wichtige Einschränkung moderner NLP-Algorithmen (Natural Language Processing) ist die Kontextabhängigkeit: Viele Algorithmen können nur Aufgaben ausführen, für die sie trainiert wurden. Wenn Sie beispielsweise einen Algorithmus benötigen, der Gedichte schreibt, muss er an einem großen Korpus von Gedichten trainiert werden - vorzugsweise in dem Stil, in dem die endgültige sein soll. Wenn das Training erfolgreich ist, kann der Algorithmus etwas Ähnliches wie einen Vers produzieren, aber keine Frage mehr beantworten oder eine Wortliste für ein Kreuzworträtsel erstellen.

Wie viele Daten benötigt werden, um den NLP-Algorithmus für eine bestimmte Aufgabe zu trainieren, hängt direkt davon ab, wie der Algorithmus vortrainiert ist: Wenn das System alle Anforderungen der Grammatik der Sprache gut kennt und in der Lage ist, zunächst sinnvolle Phrasen zu generieren, dann braucht man speziell für das Training einer bestimmten Aufgabe nicht so viele Daten. Die Aufgabe läuft daher darauf hinaus, den vortrainierten NLP-Algorithmus universell zu machen – damit er tatsächlich alles mit der minimalen Datenmenge für das Training erledigen kann.

Um dieses Problem zu lösen, hat ein Forscherteam von OpenAI unter der Leitung von Tom Brown GPT-3 eingeführt. Dieser NLP-Algorithmus basiert auf einer im vergangenen Februar vorgestellten Vorgängerversion: GPT-2, eines der am häufigsten verwendeten und fortschrittlichsten NLP-Modelle, wird auf 40 Gigabyte Text trainiert und seine Metaaufgabe besteht darin, das nächste Wort im Text vorherzusagen. GPT-2 basiert wie sein Vorgänger GPT auf der Transformer-Architektur.

Um den Algorithmus zu trainieren, sammelten die Forscher einen Datensatz mit 570 Gigabyte Text, der Daten aus dem Common Crawl-Projekt, die gesamte Wikipedia, zwei Datensätze mit Büchern und die zweite Version des WebText-Datensatzes mit Texten von Webseiten (die erste Version von WebText wurde verwendet, um GPT-2) zu trainieren … Die Forscher trainierten acht verschiedene GPT-3-Modelle: Sie unterschieden sich in der Anzahl der Parameter, die das Modell während des Trainings einstellte (die Anzahl der Parameter wiederum hing von der Anzahl der Schichten ab – bei gleicher Architektur). Im einfachsten Modell wurden 125 Millionen Parameter verwendet und im endgültigen GPT-3 175 Milliarden.

Die Aufgabe, die GPT-3 erfüllen musste, bestand darin, eine Frage zu beantworten oder eine Aufgabe abzuschließen. Das könnte zum Beispiel sein, „ein Gedicht schreiben“, „ein Anagramm zerlegen“oder „den Text lesen und eine Frage beantworten“. Dem vortrainierten GPT-3 für die Aufgabe (insgesamt waren es 42 Aufgaben) wurde zusätzlich zur Aufgabenformulierung entweder ein Beispiel oder mehrere Beispiele gegeben (klassisch von 10 bis 100 - so viel wie das Modell benötigt, obwohl in einigen Aufgaben reichte das Modell für fünf Beispiele) …

Trotz der Tatsache, dass die Genauigkeit jeder Methode zum Trainieren des Modells mit der Anzahl der im Modell definierten Parameter zunahm, erwies sich das Training an mehreren Beispielen als am effektivsten: Für alle 42 Aufgaben betrug die Genauigkeit bei 175 Milliarden Parametern fast 60 Prozent. Beim Training mit 64 Beispielen aus dem TriviaQA-Datensatz, der erstellt wurde, um Modellen zu trainieren, den Text zu verstehen und Fragen zum gelesenen Material zu beantworten, erwies sich der GPT-3 mit 175 Milliarden Parametern als genau 71, 2 Prozent der Zeit - dies ist etwas genauer als das SOTA-Modell, das ausschließlich darauf trainiert wurde, Fragen zu TriviaQA zu beantworten.

Anhand mehrerer Beispiele kann der vortrainierte GPT-3 Texte zu einem vorgegebenen Thema schreiben, Gedichte in einem bestimmten Stil erfinden, Anagramme lösen, einfache Rechenbeispiele lösen und Fragen zum gelesenen Text beantworten. Zudem lässt sich das Modell in mehrere Sprachen übersetzen: Bei der Datenerhebung haben Wissenschaftler die Sprache der Texte nicht eingeschränkt, so sind sieben Prozent des gesamten Datensatzes fremdsprachige Texte, die das Modell auch für die Übersetzung auf Basis mehrerer. verwendet Beispiele.

Wie im Fall von GPT-2 äußerten die Forscher im Preprint ihre Bedenken, dass das von ihnen entwickelte Modell auf schädliche Weise verwendet werden könnte – sie haben es daher noch nicht bereitgestellt. Auf der Entwicklerseite auf GitHub finden Sie einen Teil des Datensatzes und Beispiele für Aufgaben, die in der Arbeit verwendet wurden.

In den letzten Jahren ist OpenAI nicht nur bei NLP-Algorithmen gelungen: Im vergangenen Jahr präsentierten die Entwickler des Unternehmens Algorithmen, die mit neuer Musik aufwarten und den Zauberwürfel lösen können.

Beliebt nach Thema