GraphRAG-Indizierung 🤖
Das GraphRAG-Indizierungspaket ist eine Suite für Datenpipelines und -transformationen, die darauf ausgelegt ist, mithilfe von LLMs aussagekräftige, strukturierte Daten aus unstrukturiertem Text zu extrahieren.
Indizierungspipelines sind konfigurierbar. Sie bestehen aus Workflows, Standard- und benutzerdefinierten Schritten, Prompt-Vorlagen und Ein-/Ausgabeadaptern. Unsere Standardpipeline ist darauf ausgelegt,
- Entitäten, Beziehungen und Behauptungen aus Rohdaten zu extrahieren
- Community-Erkennung in Entitäten durchzuführen
- Community-Zusammenfassungen und Berichte auf mehreren Granularitätsebenen zu generieren
- Entitäten in einen Graph-Vektorraum einzubetten
- Text-Chunks in einen Text-Vektorraum einzubetten
Die Ausgaben der Pipeline werden standardmäßig als Parquet-Tabellen gespeichert, und Embeddings werden in Ihren konfigurierten Vektor-Store geschrieben.
Erste Schritte
Anforderungen
Einzelheiten zur Einrichtung einer Entwicklungsumgebung finden Sie im Abschnitt Voraussetzungen unter Erste Schritte.
Zur Konfiguration von GraphRAG siehe die Dokumentation zur Konfiguration. Sobald Sie eine Konfigurationsdatei haben, können Sie die Pipeline über die CLI oder die Python-API ausführen.
Verwendung
CLI
Python API
Die empfohlene Methode zum direkten Aufruf aus Python-Code finden Sie in der Indizierungs-API im Python-Datei.
Weiterführende Lektüre
- Um mit der Entwicklung im *GraphRAG*-Projekt zu beginnen, siehe erste Schritte
- Um die zugrunde liegenden Konzepte und das Ausführungsmodell der Indizierungsbibliothek zu verstehen, siehe die Architektur-Dokumentation
- Um mehr über die Konfiguration der Indizierungs-Engine zu erfahren, siehe die Konfigurationsdokumentation