autogen_ext.agents.video_surfer.tools#

extract_audio(video_path: str, audio_output_path: str) str[Quelle]#

Extrahiert Audio aus einer Videodatei und speichert es als MP3-Datei.

Parameter:
  • video_path – Pfad zur Videodatei.

  • audio_output_path – Pfad zum Speichern der extrahierten Audiospur.

Gibt zurück:

Bestätigungsnachricht mit dem Pfad zur gespeicherten Audiospur.

transcribe_audio_with_timestamps(audio_path: str) str[Quelle]#

Transkribiert die Audiodatei mit Zeitstempeln unter Verwendung des Whisper-Modells.

Parameter:

audio_path – Pfad zur Audiodatei.

Gibt zurück:

Transkription mit Zeitstempeln.

get_video_length(video_path: str) str[Quelle]#

Gibt die Länge des Videos in Sekunden zurück.

Parameter:

video_path – Pfad zur Videodatei.

Gibt zurück:

Dauer des Videos in Sekunden.

save_screenshot(video_path: str, timestamp: float, output_path: str) None[Quelle]#

Erfasst einen Screenshot zum angegebenen Zeitstempel und speichert ihn unter dem Ausgabepfad.

Parameter:
  • video_path – Pfad zur Videodatei.

  • timestamp – Zeitstempel in Sekunden.

  • output_path – Pfad zum Speichern des Screenshots. Das Dateiformat wird durch die Erweiterung im Pfad bestimmt.

async transcribe_video_screenshot(video_path: str, timestamp: float, model_client: ChatCompletionClient) str[Quelle]#

Transkribiert den Inhalt eines Video-Screenshots, der zum angegebenen Zeitstempel aufgenommen wurde, unter Verwendung der OpenAI-API.

Parameter:
  • video_path – Pfad zur Videodatei.

  • timestamp – Zeitstempel in Sekunden.

  • model_client – ChatCompletionClient-Instanz.

Gibt zurück:

Beschreibung des Screenshot-Inhalts.

get_screenshot_at(video_path: str, timestamps: List[float]) List[Tuple[float, ndarray[Any, Any]]][Quelle]#

Erfasst Screenshots zu den angegebenen Zeitstempeln und gibt sie als Python-Objekte zurück.

Parameter:
  • video_path – Pfad zur Videodatei.

  • timestamps – Liste von Zeitstempeln in Sekunden.

Gibt zurück:

Liste von Tupeln, die Zeitstempel und den entsprechenden Frame (Bild) enthalten. Jeder Frame ist ein NumPy-Array (Höhe x Breite x Kanäle).