Benchmark-Übersicht

UFO² wird rigoros auf zwei öffentlich zugänglichen Live-Task-Suiten getestet

Benchmark Umfang
Windows Agent Arena (WAA) 154 reale Windows-Aufgaben in 15 Anwendungen (Office, Edge, Datei-Explorer, VS Code, …)
OSWorld (Windows) 49 Anwendungsübergreifende Aufgaben, die Office 365, Browser und System-Utilities kombinieren

Die Integration dieser Benchmarks in UFO² befindet sich in separaten Repositories. Bitte folgen Sie den oben genannten Dokumenten für weitere Details.

Hinweis

Wir haben die Verifikationsskripte einiger Fälle überarbeitet, um die Korrektheit der Ergebnisse sicherzustellen.