GraphRAG-Indizierung 🤖

Das GraphRAG-Indizierungspaket ist eine Suite für Datenpipelines und -transformationen, die darauf ausgelegt ist, mithilfe von LLMs aussagekräftige, strukturierte Daten aus unstrukturiertem Text zu extrahieren.

Indizierungspipelines sind konfigurierbar. Sie bestehen aus Workflows, Standard- und benutzerdefinierten Schritten, Prompt-Vorlagen und Ein-/Ausgabeadaptern. Unsere Standardpipeline ist darauf ausgelegt,

Entitäten, Beziehungen und Behauptungen aus Rohdaten zu extrahieren
Community-Erkennung in Entitäten durchzuführen
Community-Zusammenfassungen und Berichte auf mehreren Granularitätsebenen zu generieren
Entitäten in einen Graph-Vektorraum einzubetten
Text-Chunks in einen Text-Vektorraum einzubetten

Die Ausgaben der Pipeline werden standardmäßig als Parquet-Tabellen gespeichert, und Embeddings werden in Ihren konfigurierten Vektor-Store geschrieben.

Erste Schritte

Anforderungen

Einzelheiten zur Einrichtung einer Entwicklungsumgebung finden Sie im Abschnitt Voraussetzungen unter Erste Schritte.

Zur Konfiguration von GraphRAG siehe die Dokumentation zur Konfiguration. Sobald Sie eine Konfigurationsdatei haben, können Sie die Pipeline über die CLI oder die Python-API ausführen.

Verwendung

CLI

uv run poe index --root <data_root> # default config mode

Python API

Die empfohlene Methode zum direkten Aufruf aus Python-Code finden Sie in der Indizierungs-API im Python-Datei.

Weiterführende Lektüre

Um mit der Entwicklung im *GraphRAG*-Projekt zu beginnen, siehe erste Schritte
Um die zugrunde liegenden Konzepte und das Ausführungsmodell der Indizierungsbibliothek zu verstehen, siehe die Architektur-Dokumentation
Um mehr über die Konfiguration der Indizierungs-Engine zu erfahren, siehe die Konfigurationsdokumentation