Der jüngste Erfolg großer Vision-Language-Modelle zeigt großes Potenzial für die Steuerung von Agentensystemen, die auf Benutzeroberflächen agieren. Wir argumentieren jedoch, dass die Leistung multimodaler Modelle wie GPT-4V als allgemeiner Agent auf verschiedenen Betriebssystemen und über verschiedene Anwendungen hinweg stark unterschätzt wird, da es an einer robusten Bildschirm-Parsing-Technik mangelt, die Folgendes leisten kann: 1. zuverlässiges Identifizieren interaktiver Symbole innerhalb der Benutzeroberfläche und 2. Verstehen der Semantik verschiedener Elemente in einem Screenshot und genaues Zuordnen der beabsichtigten Aktion zum entsprechenden Bereich auf dem Bildschirm. Um diese Lücken zu schließen, stellen wir OMNIPARSER vor, eine umfassende Methode zum Parsen von Benutzeroberflächen-Screenshots in strukturierte Elemente, die die Fähigkeit von GPT-4V verbessert, Aktionen zu generieren, die genau auf die entsprechenden Bereiche der Benutzeroberfläche abgebildet werden können. Wir kuratierten zunächst einen Datensatz zur Erkennung interaktiver Symbole mit beliebten Webseiten und einen Datensatz zur Beschreibung von Symbolen. Diese Datensätze wurden verwendet, um spezialisierte Modelle zu trainieren: ein Erkennungsmodell zum Parsen interaktiver Bereiche auf dem Bildschirm und ein Caption-Modell zur Extraktion der funktionalen Semantik der erkannten Elemente. OMNIPARSER verbessert die Leistung von GPT-4V im ScreenSpot-Benchmark erheblich. Und auf den Mind2Web- und AITW-Benchmarks übertrifft OMNIPARSER mit nur Screenshot-Eingabe die GPT-4V-Baselines, die zusätzliche Informationen außerhalb des Screenshots benötigen.
Beispiele aus dem Datensatz zur Erkennung interaktiver Bereiche. Die Bounding Boxes basieren auf dem interaktiven Bereich, der aus dem DOM-Baum der Webseite extrahiert wurde.
@misc{lu2024omniparserpurevisionbased,
title={OmniParser for Pure Vision Based GUI Agent},
author={Yadong Lu and Jianwei Yang and Yelong Shen and Ahmed Awadallah},
year={2024},
eprint={2408.00203},
archivePrefix={arXiv},
primaryClass={cs.CV},
url={https://arxiv.org/abs/2408.00203},
}