Benchmark-Übersicht
UFO² wird rigoros auf zwei öffentlich zugänglichen Live-Task-Suiten getestet
| Benchmark | Umfang |
|---|---|
| Windows Agent Arena (WAA) | 154 reale Windows-Aufgaben in 15 Anwendungen (Office, Edge, Datei-Explorer, VS Code, …) |
| OSWorld (Windows) | 49 Anwendungsübergreifende Aufgaben, die Office 365, Browser und System-Utilities kombinieren |
Die Integration dieser Benchmarks in UFO² befindet sich in separaten Repositories. Bitte folgen Sie den oben genannten Dokumenten für weitere Details.
Hinweis
Wir haben die Verifikationsskripte einiger Fälle überarbeitet, um die Korrektheit der Ergebnisse sicherzustellen.