Generierung von Testdaten in der Cloud basierend auf Dokumenten#
Diese Anleitung hilft Ihnen zu lernen, wie Sie Testdaten auf Azure AI generieren, damit Sie den erstellten Flow integrieren und eine große Menge an Daten verarbeiten können.
Voraussetzungen#
Gehen Sie die Anleitung zur lokalen Generierung von Testdaten durch und bereiten Sie Ihren Flow zur Generierung von Testdaten vor.
Gehen Sie in den Ordner example_gen_test_data und führen Sie den Befehl
pip install -r requirements_cloud.txtaus, um die lokale Umgebung vorzubereiten.Bereiten Sie die Cloud-Umgebung vor.
Navigieren Sie zur Datei conda.yml.
Für bestimmte Dokumentdateitypen müssen Sie möglicherweise zusätzliche Pakete installieren
.docx -
pip install docx2txt.pdf -
pip install pypdf.ipynb -
pip install nbconvert
!Hinweis: Wir verwenden
SimpleDirectoryReadervon Llama Index, um Dokumente zu laden. Die aktuellsten Informationen zu erforderlichen Paketen finden Sie hier.
Bereiten Sie Azure AI-Ressourcen in der Cloud vor.
Ein Azure AI ML-Workspace - Erstellen Sie Ressourcen für den Einstieg in Azure AI.
Ein Compute-Ziel - Erfahren Sie mehr über Compute-Cluster.
Erstellen Sie eine AzureOpenAI- oder OpenAI-Verbindung in der Cloud
Bereiten Sie die Einstellungen für die Generierung von Testdaten vor.
Navigieren Sie in den Ordner example_gen_test_data.
Bereiten Sie
config.ymlvor, indem Sieconfig.yml.examplekopieren.Füllen Sie die Konfigurationen in der
config.ymlaus, indem Sie den Inline-Kommentaren folgen.
Testdaten in der Cloud generieren#
Für die Verarbeitung größerer Testdatenmengen können Sie die PRS-Komponente nutzen, um den Flow in der Cloud auszuführen.
Navigieren Sie in den Ordner example_gen_test_data.
Führen Sie nach der Konfiguration den folgenden Befehl aus, um den Testdatensatz zu generieren
python -m generate-test-data.run --cloud
Die generierten Testdaten werden ein Datenasset sein, das in der Ausgabe des letzten Knotens gefunden werden kann. Sie können dieses Datenasset für zukünftige Verwendungen registrieren.