OpenAI CUA (Operator)

Der Operator ist ein spezialisiertes agentenbasierendes Modell, das für Computer-Using Agents (CUA) entwickelt wurde. Wir unterstützen jetzt den Aufruf über die Azure OpenAI API (AOAI). Die folgenden Abschnitte bieten eine umfassende Anleitung zur Einrichtung und Verwendung der AOAI-API mit UFO. Beachten Sie, dass AOAI derzeit nur die Response API unterstützt, um das Modell aufzurufen.

Schritt 1

Um die Azure OpenAI API nutzen zu können, müssen Sie ein Konto auf der Azure OpenAI Webseite erstellen. Nach der Erstellung eines Kontos können Sie die AOAI API bereitstellen und auf den API-Schlüssel zugreifen.

Schritt 2

Nachdem Sie den API-Schlüssel erhalten haben, können Sie den OPERATOR in der Datei config.yaml konfigurieren (benennen Sie die Datei config_template.yaml in config.yaml um), um die Azure OpenAI API zu verwenden. Das Folgende ist ein Beispiel für die Konfiguration der Azure OpenAI API

OPERATOR: {
  SCALER: [1024, 768], # The scaler for the visual input in a list format, [width, height]
  API_TYPE: "azure_ad" , # The API type, "openai" for the OpenAI API, "aoai" for the AOAI API, 'azure_ad' for the ad authority of the AOAI API.  
  API_MODEL: "computer-use-preview-20250311",  #"gpt-4o-mini-20240718", #"gpt-4o-20240513",  # The only OpenAI model by now that accepts visual input
  API_VERSION: "2025-03-01-preview", # "2024-02-15-preview" by default
  API_BASE: "<YOUR_ENDPOINT>", # The the OpenAI API endpoint, "https://api.openai.com/v1/chat/completions" for the OpenAI API. As for the AAD, it should be your endpoints.
}

Wenn Sie AAD für die Authentifizierung verwenden möchten, sollten Sie zusätzlich die folgende Konfiguration festlegen

    AAD_TENANT_ID: "YOUR_TENANT_ID", # Set the value to your tenant id for the llm model
    AAD_API_SCOPE: "YOUR_SCOPE", # Set the value to your scope for the llm model
    AAD_API_SCOPE_BASE: "YOUR_SCOPE_BASE" # Set the value to your scope base for the llm model, whose format is API://YOUR_SCOPE_BASE, and the only need is the YOUR_SCOPE_BASE

Schritt 3

Derzeit unterstützt UFO den Operator nur als einzelnen Agenten oder als separaten AppAgent, der vom HostAgent aufgerufen werden kann. Weitere Informationen zur Ausführung des Operators innerhalb von UFO finden Sie in der Dokumentation.

Hinweis

Der Operator ist ein rein visuelles Modell und verwendet einen anderen Workflow als die anderen Modelle. Derzeit wird die Wiederverwendung des AppAgent-Workflows nicht unterstützt. Informationen zur Ausführung des Operators innerhalb von UFO finden Sie in der Dokumentation.