OmniParser für reine visuelle GUI-Agenten

1Microsoft Research, 2Microsoft Gen AI,

Abstrakt

Der jüngste Erfolg großer Vision-Language-Modelle zeigt großes Potenzial für die Steuerung von Agentensystemen, die auf Benutzeroberflächen agieren. Wir argumentieren jedoch, dass die Leistung multimodaler Modelle wie GPT-4V als allgemeiner Agent auf verschiedenen Betriebssystemen und über verschiedene Anwendungen hinweg stark unterschätzt wird, da es an einer robusten Bildschirm-Parsing-Technik mangelt, die Folgendes leisten kann: 1. zuverlässiges Identifizieren interaktiver Symbole innerhalb der Benutzeroberfläche und 2. Verstehen der Semantik verschiedener Elemente in einem Screenshot und genaues Zuordnen der beabsichtigten Aktion zum entsprechenden Bereich auf dem Bildschirm. Um diese Lücken zu schließen, stellen wir OMNIPARSER vor, eine umfassende Methode zum Parsen von Benutzeroberflächen-Screenshots in strukturierte Elemente, die die Fähigkeit von GPT-4V verbessert, Aktionen zu generieren, die genau auf die entsprechenden Bereiche der Benutzeroberfläche abgebildet werden können. Wir kuratierten zunächst einen Datensatz zur Erkennung interaktiver Symbole mit beliebten Webseiten und einen Datensatz zur Beschreibung von Symbolen. Diese Datensätze wurden verwendet, um spezialisierte Modelle zu trainieren: ein Erkennungsmodell zum Parsen interaktiver Bereiche auf dem Bildschirm und ein Caption-Modell zur Extraktion der funktionalen Semantik der erkannten Elemente. OMNIPARSER verbessert die Leistung von GPT-4V im ScreenSpot-Benchmark erheblich. Und auf den Mind2Web- und AITW-Benchmarks übertrifft OMNIPARSER mit nur Screenshot-Eingabe die GPT-4V-Baselines, die zusätzliche Informationen außerhalb des Screenshots benötigen.

Result mobile Result mobile Result mobile

Beispiele für geparste Screenshot-Bilder und lokale Semantik durch OmniParser. Die Eingaben für OmniParse sind Benutzeraufgabe und UI-Screenshot, aus denen es Folgendes erzeugt: 1. ein geparstes Screenshot-Bild mit überlagerten Bounding Boxes und numerischen IDs und 2. lokale Semantik, die sowohl extrahierten Text als auch Symbolbeschreibungen enthält.

Kuratiertes Dataset zur Erkennung interaktiver Bereiche und zur Beschreibung der Symbolfunktionalität


Wir kuratieren einen Datensatz zur Erkennung interaktiver Symbole mit 67.000 eindeutigen Screenshot-Bildern, die jeweils mit Bounding Boxes von interaktiven Symbolen gekennzeichnet sind, die aus dem DOM-Baum abgeleitet wurden. Wir wählten zunächst 100.000 gleichmäßige Stichproben beliebter öffentlich verfügbarer URLs aus dem clueweb-Datensatz und sammelten Bounding Boxes von interaktiven Bereichen der Webseite aus dem DOM-Baum jeder URL. Wir sammelten auch 7.000 Symbol-Beschreibung-Paare für das Fine-Tuning des Caption-Modells.
Species Classification results on iWildCam2020-WILDS (OOD) dataset

Beispiele aus dem Datensatz zur Erkennung interaktiver Bereiche. Die Bounding Boxes basieren auf dem interaktiven Bereich, der aus dem DOM-Baum der Webseite extrahiert wurde.

Ergebnisse


Wir evaluieren unser Modell auf den Benchmarks SeeClick, Mind2Web und AITW. Wir zeigen, dass unser Modell die GPT-4V-Baseline auf allen Benchmarks übertrifft. Wir zeigen auch, dass unser Modell mit reiner Screenshot-Eingabe die GPT-4V-Baselines übertrifft, die zusätzliche Informationen außerhalb des Screenshots benötigen.
seeclick mind2web aitw

Bereit als Plugin für andere Vision-Language-Modelle


Um weiter zu demonstrieren, dass OmniParser eine Plugin-Option für Standard-Vision-Language-Modelle ist, zeigen wir die Leistung von OmniParser in Kombination mit den kürzlich angekündigten Vision-Language-Modellen: Phi-3.5-V und Llama-3.2-V. Wie in der Tabelle zu sehen ist, verbessert unser feinabgestimmtes Modell zur Erkennung interaktiver Bereiche (ID) die Aufgabenleistung im Vergleich zum Grounding DINO-Modell (w.o. ID) mit lokaler Semantik über alle Unterkategorien für GPT-4V, Phi-3.5-V und Llama-3.2-V erheblich. Darüber hinaus hilft die lokale Semantik der Symbolfunktionalität erheblich bei der Leistung für jedes Vision-Language-Modell. In der Tabelle steht LS für lokale Semantik der Symbolfunktionalität, ID steht für das von uns feinabgestimmte Modell zur Erkennung interaktiver Bereiche. Die Einstellung w.o. ID bedeutet, dass wir das ID-Modell durch das ursprüngliche Grounding DINO-Modell ersetzen, das nicht auf unseren Daten feinabgestimmt wurde, aber mit lokaler Semantik. Die Einstellung w.o. ID und w.o LS bedeutet, dass wir das Grounding DINO-Modell verwenden und außerdem die Symbolbeschreibung in der Textaufforderung nicht verwenden.
seeclick

Demo von Mind2Web-Aufgaben


Zitat

@misc{lu2024omniparserpurevisionbased,
                title={OmniParser for Pure Vision Based GUI Agent}, 
                author={Yadong Lu and Jianwei Yang and Yelong Shen and Ahmed Awadallah},
                year={2024},
                eprint={2408.00203},
                archivePrefix={arXiv},
                primaryClass={cs.CV},
                url={https://arxiv.org/abs/2408.00203}, 
          }