Generierung von Testdaten in der Cloud basierend auf Dokumenten#

Diese Anleitung hilft Ihnen zu lernen, wie Sie Testdaten auf Azure AI generieren, damit Sie den erstellten Flow integrieren und eine große Menge an Daten verarbeiten können.

Voraussetzungen#

  1. Gehen Sie die Anleitung zur lokalen Generierung von Testdaten durch und bereiten Sie Ihren Flow zur Generierung von Testdaten vor.

  2. Gehen Sie in den Ordner example_gen_test_data und führen Sie den Befehl pip install -r requirements_cloud.txt aus, um die lokale Umgebung vorzubereiten.

  3. Bereiten Sie die Cloud-Umgebung vor.

    • Navigieren Sie zur Datei conda.yml.

    • Für bestimmte Dokumentdateitypen müssen Sie möglicherweise zusätzliche Pakete installieren

      • .docx - pip install docx2txt

      • .pdf - pip install pypdf

      • .ipynb - pip install nbconvert

      !Hinweis: Wir verwenden SimpleDirectoryReader von Llama Index, um Dokumente zu laden. Die aktuellsten Informationen zu erforderlichen Paketen finden Sie hier.

  4. Bereiten Sie Azure AI-Ressourcen in der Cloud vor.

  5. Erstellen Sie eine AzureOpenAI- oder OpenAI-Verbindung in der Cloud

  6. Bereiten Sie die Einstellungen für die Generierung von Testdaten vor.

    • Navigieren Sie in den Ordner example_gen_test_data.

    • Bereiten Sie config.yml vor, indem Sie config.yml.example kopieren.

    • Füllen Sie die Konfigurationen in der config.yml aus, indem Sie den Inline-Kommentaren folgen.

Testdaten in der Cloud generieren#

Für die Verarbeitung größerer Testdatenmengen können Sie die PRS-Komponente nutzen, um den Flow in der Cloud auszuführen.

  • Navigieren Sie in den Ordner example_gen_test_data.

  • Führen Sie nach der Konfiguration den folgenden Befehl aus, um den Testdatensatz zu generieren

    python -m generate-test-data.run --cloud
    
  • Die generierten Testdaten werden ein Datenasset sein, das in der Ausgabe des letzten Knotens gefunden werden kann. Sie können dieses Datenasset für zukünftige Verwendungen registrieren.