OmniParser für reine visuelle GUI-Agenten

Yadong Lu¹, Jianwei Yang¹, Yelong Shen², Ahmed Awadallah¹,

¹Microsoft Research, ²Microsoft Gen AI,

Code arXiv Blogbeitrag HF Demo

Abstrakt

Der jüngste Erfolg großer Vision-Language-Modelle zeigt großes Potenzial für die Steuerung von Agentensystemen, die auf Benutzeroberflächen agieren. Wir argumentieren jedoch, dass die Leistung multimodaler Modelle wie GPT-4V als allgemeiner Agent auf verschiedenen Betriebssystemen und über verschiedene Anwendungen hinweg stark unterschätzt wird, da es an einer robusten Bildschirm-Parsing-Technik mangelt, die Folgendes leisten kann: 1. zuverlässiges Identifizieren interaktiver Symbole innerhalb der Benutzeroberfläche und 2. Verstehen der Semantik verschiedener Elemente in einem Screenshot und genaues Zuordnen der beabsichtigten Aktion zum entsprechenden Bereich auf dem Bildschirm. Um diese Lücken zu schließen, stellen wir OMNIPARSER vor, eine umfassende Methode zum Parsen von Benutzeroberflächen-Screenshots in strukturierte Elemente, die die Fähigkeit von GPT-4V verbessert, Aktionen zu generieren, die genau auf die entsprechenden Bereiche der Benutzeroberfläche abgebildet werden können. Wir kuratierten zunächst einen Datensatz zur Erkennung interaktiver Symbole mit beliebten Webseiten und einen Datensatz zur Beschreibung von Symbolen. Diese Datensätze wurden verwendet, um spezialisierte Modelle zu trainieren: ein Erkennungsmodell zum Parsen interaktiver Bereiche auf dem Bildschirm und ein Caption-Modell zur Extraktion der funktionalen Semantik der erkannten Elemente. OMNIPARSER verbessert die Leistung von GPT-4V im ScreenSpot-Benchmark erheblich. Und auf den Mind2Web- und AITW-Benchmarks übertrifft OMNIPARSER mit nur Screenshot-Eingabe die GPT-4V-Baselines, die zusätzliche Informationen außerhalb des Screenshots benötigen.

Beispiele für geparste Screenshot-Bilder und lokale Semantik durch OmniParser. Die Eingaben für OmniParse sind Benutzeraufgabe und UI-Screenshot, aus denen es Folgendes erzeugt: 1. ein geparstes Screenshot-Bild mit überlagerten Bounding Boxes und numerischen IDs und 2. lokale Semantik, die sowohl extrahierten Text als auch Symbolbeschreibungen enthält.

Kuratiertes Dataset zur Erkennung interaktiver Bereiche und zur Beschreibung der Symbolfunktionalität

Wir kuratieren einen Datensatz zur Erkennung interaktiver Symbole mit 67.000 eindeutigen Screenshot-Bildern, die jeweils mit Bounding Boxes von interaktiven Symbolen gekennzeichnet sind, die aus dem DOM-Baum abgeleitet wurden. Wir wählten zunächst 100.000 gleichmäßige Stichproben beliebter öffentlich verfügbarer URLs aus dem clueweb-Datensatz und sammelten Bounding Boxes von interaktiven Bereichen der Webseite aus dem DOM-Baum jeder URL. Wir sammelten auch 7.000 Symbol-Beschreibung-Paare für das Fine-Tuning des Caption-Modells.

Species Classification results on iWildCam2020-WILDS (OOD) dataset

Beispiele aus dem Datensatz zur Erkennung interaktiver Bereiche. Die Bounding Boxes basieren auf dem interaktiven Bereich, der aus dem DOM-Baum der Webseite extrahiert wurde.

Ergebnisse

Wir evaluieren unser Modell auf den Benchmarks SeeClick, Mind2Web und AITW. Wir zeigen, dass unser Modell die GPT-4V-Baseline auf allen Benchmarks übertrifft. Wir zeigen auch, dass unser Modell mit reiner Screenshot-Eingabe die GPT-4V-Baselines übertrifft, die zusätzliche Informationen außerhalb des Screenshots benötigen.

OmniParser für reine visuelle GUI-Agenten

Abstrakt

Kuratiertes Dataset zur Erkennung interaktiver Bereiche und zur Beschreibung der Symbolfunktionalität

Ergebnisse

Bereit als Plugin für andere Vision-Language-Modelle

Demo von Mind2Web-Aufgaben

Zitat