Grok-1. 5 Vision-Vorschau: Neue Version der KI analysiert Bilder, Tabellenkalkulationen und Dokumente. Mit dem neuen Update kann die KI von Elon Musk nun eine Vielzahl visueller Informationen verarbeiten, darunter Dokumente, Diagramme, Grafiken, Screenshots und Fotos

Grok-1.5 Vision Preview: Neue Version von AI analysiert Bilder, Tabellenkalkulationen und Dokumente

Alexandre Marques-Avatar
Mit dem neuen Update kann die KI von Elon Musk nun eine Vielzahl visueller Informationen verarbeiten, darunter Dokumente, Diagramme, Grafiken, Screenshots und Fotos

Geschaffen, um mit dem zu konkurrieren ChatGPT durch X. KI, Elon Musks Unternehmen, das Grok ist ein Chatbot, der sich seit jeher durch seinen sarkastischen und politisch inkorrekten Sinn für Humor auszeichnet. Verfügbar für Abonnenten des Premium+-Plans von X (ehemals Twitter), das Grok Es wird außerdem in Echtzeit auf der Grundlage von Daten der Plattform aktualisiert und bietet Kontext zu Trendthemen und beliebten Beiträgen sowie zusätzliche Funktionen wie Bildgenerierung, Navigation über Bing und erweiterte Datenanalyse.

Nun, X. KI, Elon Musks Unternehmen für künstliche Intelligenz, gab das bekannt Grok-1.5 Vision-Vorschau, eine neue Version der KI von Elon Musk Dadurch werden die Möglichkeiten zur Analyse von Bildern, Tabellenkalkulationen und Dokumenten erweitert nicht nur die Textverarbeitung, sondern auch die Interpretation und Extraktion von Informationen aus Bildern.

Versionsneuigkeiten

Durch die Kombination seiner Textverarbeitungsfunktionen mit der Fähigkeit, eine Vielzahl visueller Informationen wie Dokumente, Diagramme, Grafiken, Screenshots und Fotos zu analysieren, ist das Grok-1.5V verspricht zu beeindrucken. Diese neue Version wird bald für frühe Tester und bestehende Benutzer verfügbar sein Grok, jedoch in früheren Tests, die Grok-1.5V Es hat sich bereits in mehreren Bereichen als äußerst konkurrenzfähig gegenüber multimodalen Modellen erwiesen.

Am beeindruckendsten sind jedoch die Fähigkeiten des Grok-1.5V beim Verständnis der physischen Welt, einschließlich der Interpretation von Bildern aus Screenshots und Fotos. Diese Fähigkeit eröffnet neue Möglichkeiten im Hinblick auf die Interaktion zwischen Mensch und Maschine sowie Anwendungen in Bereichen wie Computer Vision und virtueller Assistenz.

A X. KI demonstrierte die beeindruckenden Fähigkeiten der neuen Version von Grok in der Interpretation von Bildern, was sich in seiner Fähigkeit zeigt, Code aus einem bestimmten Diagramm zu schreiben. Wie wir unten sehen, beschreibt das Diagramm ein Ratespiel, das auf einem logischen Flussdiagramm und Benutzerinteraktionen basiert. Auf die Frage, ob er das Diagramm in Code übersetzen könne Pythonoder Grok-1.5V reagierte genau und stellte einen Code bereit, der die Logik des im Flussdiagramm beschriebenen Spiels darstellt.

Grok-1. 5 Vision-Vorschau
Foto: Screenshot / Showmetech.

Im folgenden Beispiel wird die Grok-1.5V demonstrierte seine Fähigkeit, Kalorien aus den in einem Bild bereitgestellten Nährwertinformationen zu berechnen. Das Bild zeigte eine Nahaufnahme des Nährwertetiketts auf einer Lebensmittelverpackung, auf dem verschiedene Nährwertangaben aufgeführt waren, etwa die Portionsgröße und die Anzahl der Kalorien pro Portion. Auf die Frage, wie viele Kalorien in 5 Scheiben des Produkts stecken würden, antworteten die Grok antwortete zutreffend und erklärte, dass, wenn eine Portion aus 3 Scheiben besteht und 60 Kalorien enthält, 5 Scheiben ungefähr 100 Kalorien wären.

Grok-1. 5 Vision-Vorschau
Foto: Screenshot / Showmetech.

Was eine weitere Demonstration betrifft (Foto unten), die Grok nutzte seine Fähigkeit, aus einer Zeichnung eines Kindes eine Gute-Nacht-Geschichte zu erstellen. Die Zeichnung zeigte einen Jungen neben einem Boot. Auf die Frage, ob er anhand der Zeichnung eine Geschichte erzählen könne, antwortete der Grok antwortete mit einer fesselnden Erzählung über einen tapferen Jungen namens Timmy. Diese Fähigkeit von Grok-1.5V Die Umwandlung einer einfachen Zeichnung in eine fesselnde Geschichte zeigt seine Fähigkeit, Erzählungen zu interpretieren und zu schaffen.

Grok-1. 5 Vision-Vorschau
Foto: Screenshot / Showmetech.

Die Fähigkeit, Erzählungen zu interpretieren und zu erstellen, wird im folgenden Beispiel wiederholt Grok Erklärt ein Meme, das die Unterschiede zwischen Startups und großen Unternehmen persifliert. Auf dem Bild sind zwei Tafeln zu sehen: Auf der linken Seite mit dem Titel „Startups“ gräbt eine Gruppe von Bauarbeitern aktiv ein Loch; Auf der rechten Seite mit dem Titel „Big Business“ sieht eine Gruppe von Menschen einem einzelnen Mann beim Graben zu. Die Erklärung von Grok unterstreicht den Kontrast zwischen der intensiven Zusammenarbeit und Effizienz von Startups im Vergleich zur möglichen Bürokratie und mangelnden Agilität großer Unternehmen.

Grok-1. 5 Vision-Vorschau
Foto: Screenshot / Showmetech.


Im folgenden Bild ist die Grok-1.5V war in der Lage, die Tabelle mithilfe ihrer Fähigkeiten zur Verarbeitung natürlicher Sprache und der Interpretation visueller Informationen in das CSV-Format zu konvertieren. Bei der Analyse der Tabelle mit den olympischen Medaillengewinnern Marokkos bei den Paralympischen Sommerspielen 2016 ergab die Grok identifizierte die relevanten Spalten wie „Medaille“, „Name“, „Sport“, „Ereignis“ und „Datum“. Anschließend organisierte er diese Informationen gemäß dem CSV-Formatstandard in durch Kommas getrennte Zeilen. Diese Fähigkeit von Grok demonstriert Ihre Fähigkeit, Daten präzise zu extrahieren und neu zu organisieren, was für die Konvertierung tabellarischer Informationen in einfacher zu bearbeitende Formate nützlich ist.

Grok-1. 5 Vision-Vorschau
Foto: Screenshot / Showmetech.

A X. KI plant bereits in den kommenden Monaten deutliche Verbesserungen seiner multimodalen Fähigkeiten. Durch die Konzentration auf verschiedene Modalitäten wie Bilder, Audio und Video besteht das Ziel darin, den Weg zu einer nützlichen künstlichen allgemeinen Intelligenz (AGI) weiter voranzutreiben, die in der Lage ist, das Universum auf immer ausgefeiltere Weise zu verstehen und mit ihm zu interagieren.

Die reale Welt verstehen

O Grok-1.5V bereitet sich außerdem darauf vor, ein „räumliches Verständnis der realen Welt“ zu erlangen, das eine bessere Interpretation der physischen Welt ermöglicht, die in den von seinen Benutzern hochgeladenen Bildern dargestellt wird. Diese Verbesserung ist entscheidend für die Entwicklung nützlicherer KI-Assistenten für die reale Welt. Um dieses Ziel zu erreichen, wird ein neuer Benchmark eingeführt, der RealWorldQA, speziell entwickelt, um die räumlichen Verständnisfähigkeiten multimodaler Modelle wie z Grok-1.5V.

Während viele der Beispiele im Benchmark für den Menschen einfach erscheinen mögen, stellen sie eine erhebliche Herausforderung für aktuelle KI-Modelle dar und verdeutlichen die Notwendigkeit von Fortschritten in diesem Bereich, um die Fähigkeit von KIs, die physische Welt umfassender zu verstehen und mit ihr zu interagieren, zu verbessern . Wirksam.

Grok-1. 5 Vision-Vorschau
In Tests erwies sich Grok-1.5 Vision Preview als effizient bei der Interpretation solcher Fotos. Foto: Grok / X.AI.

Im Bild oben konnte beispielsweise künstliche Intelligenz die Frage „Welcher Gegenstand ist größer: der Pizzaschneider oder die Schere?“ analysieren und beantworten. Diese Fähigkeit, Größen zu vergleichen, erfordert ein räumliches Verständnis der physischen Welt. Die KI war in der Lage, die Objekte im Bild zu identifizieren und ihre relativen Formen und Größen zu erkennen. Aufgrund ihrer Analyse stellte die KI fest, dass der Pizzaschneider größer als die Schere ist. Diese Fähigkeit zeigt, wie KI trainiert werden kann, um physische Objekte in Bildern zu verstehen und Fragen zu beantworten, was für ihre Entwicklung als nützlicher Assistent in der realen Welt von entscheidender Bedeutung ist.

Grok-1. 5 Vision-Vorschau
Grok-1.5 Vision Preview bietet Antworten auf Bildgebungsfragen. Foto: Grok / X.AI.

In diesem anderen Beispiel (Bild oben) ist die Grok-1.5V bestimmte die Himmelsrichtung, in die der Dinosaurier blickt. Das Bild liefert keine klaren visuellen Hinweise, wie etwa einen Kompass oder Orientierungspunkte in der Umgebung des Dinosauriers, aber die Grok hat die Frage richtig beantwortet und darauf hingewiesen, dass der Dinosaurier nach Osten blickt.

Vergleich mit anderen KIs

Grok-1. 5 Vision-Vorschau
Grok-1.5V hat im Vergleich zu anderen KIs eine gleichwertige oder bessere Leistung gezeigt. Foto: Screenshot / Showmetech.

O Grok-1.5 Vision-Vorschau zeigte im Vergleich zu anderen künstlichen Intelligenzen eine außergewöhnliche Leistung in einem neuen Benchmark namens RealWorldQA, das das räumliche Verständnis der realen Welt bewertet. Dieser Benchmark wurde in einer Zero-Shot-Konfiguration durchgeführt, ohne dass eine bestimmte Gedankenkette erforderlich war.

Bei der Analyse verschiedener Datensätze wird die Grok-1.5V übertraf seine Mitbewerber in mehreren Schlüsselbereichen. Im Benchmark Multidisziplinär (MMMU), die eine Vielzahl von Disziplinen umfasst, die Grok-1.5V erreichte einen Wert von 53.6 % und übertraf damit leicht andere KIs wie z GPT-4V o Claude 3 Sonett.

Nein Mathvista, das sich auf mathematische Fragen konzentriert, die Grok-1.5V erreichte einen Wert von 52.8 % und übertraf damit erneut die Konkurrenz. In AI2D, das das Verständnis von Diagrammen bewertet, die Grok-1.5V erreichte eine beeindruckende Punktzahl von 88.3 % und übertraf damit andere KIs deutlich GPT-4V und Gemini Pro 1.5.

Em DocVQA, was das Verstehen von Dokumenten beinhaltet, Grok-1.5V schnitt mit einer Punktzahl von 85.6 % ab und fiel damit zurück GPT-4V, Claude 3 Sonett e Claude 3 Opus. Im RealWorldQA-Benchmark, der das Verständnis der realen Welt bewertet, wird die Grok-1.5V erreichte einen Wert von 68.7 % und stellte damit erneut seine Überlegenheit gegenüber den anderen bewerteten KIs unter Beweis.

Diese Ergebnisse unterstreichen die Fähigkeit von Grok-1.5 Vision-Vorschau Das Verständnis einer Vielzahl komplexer und kontextrelevanter Aufgaben macht es zu einer vielversprechenden Wahl für eine Vielzahl realer KI-Anwendungen. Es ist jedoch wichtig, dies hervorzuheben Grok-1.5V Obwohl sie im Vergleich zu anderen künstlichen Intelligenzen im RealWorldQA-Benchmark eine beeindruckende Leistung zeigten, sind die Ergebnisse dieser Benchmarks nicht unbedingt 100 % zuverlässig.

Sie geben Aufschluss über die relative Leistung verschiedener KIs in verschiedenen Datensätzen und Szenarien, sollten jedoch nicht als endgültiges Maß für die Gesamtfähigkeit einer KI angesehen werden. Die genaue Interpretation der Ergebnisse hängt von einer Reihe von Faktoren ab, darunter der Art der Datensätze, der Auswertungsmethodik und der Komplexität der anstehenden Aufgaben.

Schau das Video

Siehe auch:

Fontes: Grok, Interessantes Engineering e Mashable

Rezensiert von Glaukon Vital in 15 / 4 / 24.


Erfahren Sie mehr über Showmetech

Melden Sie sich an, um unsere neuesten Nachrichten per E-Mail zu erhalten.

Hinterlasse einen Kommentar

Ihre E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind markiert mit *

Related posts