Zum Inhalt springen

GraphRAG-Indizierung 🤖

Das GraphRAG-Indizierungspaket ist eine Suite für Datenpipelines und -transformationen, die darauf ausgelegt ist, mithilfe von LLMs aussagekräftige, strukturierte Daten aus unstrukturiertem Text zu extrahieren.

Indizierungspipelines sind konfigurierbar. Sie bestehen aus Workflows, Standard- und benutzerdefinierten Schritten, Prompt-Vorlagen und Ein-/Ausgabeadaptern. Unsere Standardpipeline ist darauf ausgelegt,

  • Entitäten, Beziehungen und Behauptungen aus Rohdaten zu extrahieren
  • Community-Erkennung in Entitäten durchzuführen
  • Community-Zusammenfassungen und Berichte auf mehreren Granularitätsebenen zu generieren
  • Entitäten in einen Graph-Vektorraum einzubetten
  • Text-Chunks in einen Text-Vektorraum einzubetten

Die Ausgaben der Pipeline werden standardmäßig als Parquet-Tabellen gespeichert, und Embeddings werden in Ihren konfigurierten Vektor-Store geschrieben.

Erste Schritte

Anforderungen

Einzelheiten zur Einrichtung einer Entwicklungsumgebung finden Sie im Abschnitt Voraussetzungen unter Erste Schritte.

Zur Konfiguration von GraphRAG siehe die Dokumentation zur Konfiguration. Sobald Sie eine Konfigurationsdatei haben, können Sie die Pipeline über die CLI oder die Python-API ausführen.

Verwendung

CLI

uv run poe index --root <data_root> # default config mode

Python API

Die empfohlene Methode zum direkten Aufruf aus Python-Code finden Sie in der Indizierungs-API im Python-Datei.

Weiterführende Lektüre