Zum Inhalt springen

Standardkonfiguration (Verwendung von Umgebungsvariablen)

Ab Version 1.3 unterstützt GraphRAG keine vollständige Palette von vordefinierten Umgebungsvariablen mehr. Stattdessen unterstützen wir Variablenersetzungen innerhalb der settings.yml-Datei, sodass Sie beliebige Umgebungsvariablen festlegen können.

Die einzige Standardumgebungsvariable, die wir erwarten und in der standardmäßigen settings.yml enthalten ist, ist GRAPHRAG_API_KEY. Wenn Sie bereits eine Reihe der früheren GRAPHRAG_* Umgebungsvariablen verwenden, können Sie diese mit Vorlagensyntax in settings.yml einfügen und sie werden übernommen.

Die unten aufgeführten Umgebungsvariablen werden als Hilfe für die Migration dokumentiert, aber sie werden NICHT gelesen, es sei denn, Sie verwenden die Vorlagensyntax in Ihrer settings.yml. Wir werden diese Seite auch NICHT aktualisieren, wenn sich das Hauptkonfigurationsobjekt ändert.


Text-Embeddings-Anpassung

Standardmäßig exportiert der GraphRAG-Indexer nur die für unsere Abfragemethoden erforderlichen Embeddings. Das Modell verfügt jedoch über definierte Embeddings für alle Reintextfelder, und diese können generiert werden, indem die Umgebungsvariable GRAPHRAG_EMBEDDING_TARGET auf all gesetzt wird.

Eingebettete Felder

  • text_unit.text
  • document.text
  • entity.title
  • entity.description
  • relationship.description
  • community.title
  • community.summary
  • community.full_content

Eingabedaten

Unsere Pipeline kann .csv- oder .txt-Daten aus einem Eingabeordner aufnehmen. Diese Dateien können in Unterordnern verschachtelt sein. Um zu konfigurieren, wie Eingabedaten behandelt werden, welche Felder zugeordnet werden und wie Zeitstempel geparst werden, suchen Sie nach Konfigurationswerten, die mit GRAPHRAG_INPUT_ beginnen. Im Allgemeinen bieten CSV-basierte Daten die höchste Anpassbarkeit. Jede CSV-Datei sollte mindestens ein text-Feld enthalten (das mit Umgebungsvariablen zugeordnet werden kann), aber es ist hilfreich, wenn sie auch title-, timestamp- und source-Felder enthält. Zusätzliche Felder können ebenfalls enthalten sein, die als zusätzliche Felder in der Document-Tabelle landen.

Grundeinstellungen für LLM

Dies sind die primären Einstellungen für die Konfiguration der LLM-Konnektivität.

Parameter Erforderlich? Beschreibung Typ Standardwert
GRAPHRAG_API_KEY Ja für OpenAI. Optional für AOAI Der API-Schlüssel. (Hinweis: OPENAI_API_KEY wird auch als Fallback verwendet). Wenn nicht definiert, wenn AOAI verwendet wird, wird die verwaltete Identität verwendet. str Keine
GRAPHRAG_API_BASE Für AOAI Die API-Basis-URL str Keine
GRAPHRAG_API_VERSION Für AOAI Die AOAI-API-Version. str Keine
GRAPHRAG_API_ORGANIZATION Die AOAI-Organisation. str Keine
GRAPHRAG_API_PROXY Der AOAI-Proxy. str Keine

Texterzeugungseinstellungen

Diese Einstellungen steuern das vom Pipeline verwendete Texterzeugungsmodell. Einstellungen mit einem Fallback verwenden die Grundeinstellungen für LLM, falls verfügbar.

Parameter Erforderlich? Beschreibung Typ Standardwert
GRAPHRAG_LLM_TYPE Für AOAI Der LLM-Betriebstyp. Entweder openai_chat oder azure_openai_chat str openai_chat
GRAPHRAG_LLM_DEPLOYMENT_NAME Für AOAI Der AOAI-Modell-Deployment-Name. str Keine
GRAPHRAG_LLM_API_KEY Ja (verwendet Fallback) Der API-Schlüssel. Wenn nicht definiert, wenn AOAI verwendet wird, wird die verwaltete Identität verwendet. str Keine
GRAPHRAG_LLM_API_BASE Für AOAI (verwendet Fallback) Die API-Basis-URL str Keine
GRAPHRAG_LLM_API_VERSION Für AOAI (verwendet Fallback) Die AOAI-API-Version. str Keine
GRAPHRAG_LLM_API_ORGANIZATION Für AOAI (verwendet Fallback) Die AOAI-Organisation. str Keine
GRAPHRAG_LLM_API_PROXY Der AOAI-Proxy. str Keine
GRAPHRAG_LLM_MODEL Das LLM-Modell. str gpt-4-turbo-preview
GRAPHRAG_LLM_MAX_TOKENS Die maximale Anzahl von Tokens. int 4000
GRAPHRAG_LLM_REQUEST_TIMEOUT Die maximale Anzahl von Sekunden, die auf eine Antwort vom Chat-Client gewartet werden soll. int 180
GRAPHRAG_LLM_MODEL_SUPPORTS_JSON Gibt an, ob das angegebene Modell den JSON-Ausgabemodus unterstützt. True zum Aktivieren. str Keine
GRAPHRAG_LLM_THREAD_COUNT Die Anzahl der Threads, die für die LLM-Parallelisierung verwendet werden sollen. int 50
GRAPHRAG_LLM_THREAD_STAGGER Die Zeit (in Sekunden), die zwischen dem Start jedes Threads gewartet werden soll. float 0.3
GRAPHRAG_LLM_CONCURRENT_REQUESTS Die Anzahl der gleichzeitigen Anfragen, die für den Embedding-Client zulässig sind. int 25
GRAPHRAG_LLM_TOKENS_PER_MINUTE Die Anzahl der Tokens pro Minute, die für den LLM-Client zulässig sind. 0 = Überspringen int 0
GRAPHRAG_LLM_REQUESTS_PER_MINUTE Die Anzahl der Anfragen pro Minute, die für den LLM-Client zulässig sind. 0 = Überspringen int 0
GRAPHRAG_LLM_MAX_RETRIES Die maximale Anzahl von Wiederholungsversuchen, wenn eine Anfrage fehlschlägt. int 10
GRAPHRAG_LLM_MAX_RETRY_WAIT Die maximale Anzahl von Sekunden, die zwischen den Wiederholungsversuchen gewartet werden soll. int 10
GRAPHRAG_LLM_SLEEP_ON_RATE_LIMIT_RECOMMENDATION Ob bei Ratenbegrenzungsempfehlungen eine Pause eingelegt werden soll. (Nur Azure) bool True
GRAPHRAG_LLM_TEMPERATURE Die Temperatur, die für die Generierung verwendet werden soll. float 0
GRAPHRAG_LLM_TOP_P Die Top-P-Wahrscheinlichkeit, die für das Sampling verwendet werden soll. float 1
GRAPHRAG_LLM_N Die Anzahl der zu generierenden Antworten. int 1

Text-Embedding-Einstellungen

Diese Einstellungen steuern das vom Pipeline verwendete Text-Embedding-Modell. Einstellungen mit einem Fallback verwenden die Grundeinstellungen für LLM, falls verfügbar.

Parameter Erforderlich? Beschreibung Typ Standard
GRAPHRAG_EMBEDDING_TYPE Für AOAI Der zu verwendende Embedding-Client. Entweder openai_embedding oder azure_openai_embedding str openai_embedding
GRAPHRAG_EMBEDDING_DEPLOYMENT_NAME Für AOAI Der AOAI-Deployment-Name. str Keine
GRAPHRAG_EMBEDDING_API_KEY Ja (verwendet Fallback) Der zu verwendende API-Schlüssel für den Embedding-Client. Wenn nicht definiert, wenn AOAI verwendet wird, wird die verwaltete Identität verwendet. str Keine
GRAPHRAG_EMBEDDING_API_BASE Für AOAI (verwendet Fallback) Die API-Basis-URL. str Keine
GRAPHRAG_EMBEDDING_API_VERSION Für AOAI (verwendet Fallback) Die zu verwendende AOAI-API-Version für den Embedding-Client. str Keine
GRAPHRAG_EMBEDDING_API_ORGANIZATION Für AOAI (verwendet Fallback) Die zu verwendende AOAI-Organisation für den Embedding-Client. str Keine
GRAPHRAG_EMBEDDING_API_PROXY Der zu verwendende AOAI-Proxy für den Embedding-Client. str Keine
GRAPHRAG_EMBEDDING_MODEL Das zu verwendende Modell für den Embedding-Client. str text-embedding-3-small
GRAPHRAG_EMBEDDING_BATCH_SIZE Die Anzahl der gleichzeitig zu embeddenden Texte. (Azure-Limit ist 16) int 16
GRAPHRAG_EMBEDDING_BATCH_MAX_TOKENS Die maximale Anzahl von Tokens pro Batch (Azure-Limit ist 8191) int 8191
GRAPHRAG_EMBEDDING_TARGET Die zu embeddenden Zielfelder. Entweder required oder all. str erforderlich
GRAPHRAG_EMBEDDING_THREAD_COUNT Die Anzahl der Threads, die für die Parallelisierung von Embeddings verwendet werden sollen. int
GRAPHRAG_EMBEDDING_THREAD_STAGGER Die Zeit (in Sekunden), die zwischen dem Start jedes Threads für Embeddings gewartet werden soll. float 50
GRAPHRAG_EMBEDDING_CONCURRENT_REQUESTS Die Anzahl der gleichzeitigen Anfragen, die für den Embedding-Client zulässig sind. int 25
GRAPHRAG_EMBEDDING_TOKENS_PER_MINUTE Die Anzahl der Tokens pro Minute, die für den Embedding-Client zulässig sind. 0 = Überspringen int 0
GRAPHRAG_EMBEDDING_REQUESTS_PER_MINUTE Die Anzahl der Anfragen pro Minute, die für den Embedding-Client zulässig sind. 0 = Überspringen int 0
GRAPHRAG_EMBEDDING_MAX_RETRIES Die maximale Anzahl von Wiederholungsversuchen, wenn eine Anfrage fehlschlägt. int 10
GRAPHRAG_EMBEDDING_MAX_RETRY_WAIT Die maximale Anzahl von Sekunden, die zwischen den Wiederholungsversuchen gewartet werden soll. int 10
GRAPHRAG_EMBEDDING_SLEEP_ON_RATE_LIMIT_RECOMMENDATION Ob bei Ratenbegrenzungsempfehlungen eine Pause eingelegt werden soll. (Nur Azure) bool True

Eingabeeinstellungen

Diese Einstellungen steuern die Dateneingabe, die von der Pipeline verwendet wird. Einstellungen mit einem Fallback verwenden die Grundeinstellungen für LLM, falls verfügbar.

Reintext-Eingabedaten (GRAPHRAG_INPUT_FILE_TYPE=text)

Parameter Beschreibung Typ Erforderlich oder Optional Standard
GRAPHRAG_INPUT_FILE_PATTERN Das Dateimuster-RegExp, das beim Lesen von Dateien aus dem Eingabeverzeichnis verwendet werden soll. str optional .*\.txt$

CSV-Eingabedaten (GRAPHRAG_INPUT_FILE_TYPE=csv)

Parameter Beschreibung Typ Erforderlich oder Optional Standard
GRAPHRAG_INPUT_TYPE Der Eingabespeichertyp, der beim Lesen von Dateien verwendet werden soll. (file oder blob) str optional file
GRAPHRAG_INPUT_FILE_PATTERN Das Dateimuster-RegExp, das beim Lesen von Dateien aus dem Eingabeverzeichnis verwendet werden soll. str optional .*\.txt$
GRAPHRAG_INPUT_TEXT_COLUMN Die Spalte 'text', die beim Lesen von CSV-Eingabedateien verwendet werden soll. str optional text
GRAPHRAG_INPUT_METADATA Eine durch Kommas getrennte Liste von CSV-Spalten, die als JSON in einer Metadatenspalte enthalten sein sollen. str optional Keine
GRAPHRAG_INPUT_TITLE_COLUMN Die Spalte 'title', die beim Lesen von CSV-Eingabedateien verwendet werden soll. str optional title
GRAPHRAG_INPUT_STORAGE_ACCOUNT_BLOB_URL Der Azure Storage-Blob-Endpunkt, der im blob-Modus und bei Verwendung der verwalteten Identität verwendet wird. Hat das Format https://<storage_account_name>.blob.core.windows.net str optional Keine
GRAPHRAG_INPUT_CONNECTION_STRING Die Verbindungszeichenfolge, die beim Lesen von CSV-Eingabedateien aus Azure Blob Storage verwendet werden soll. str optional Keine
GRAPHRAG_INPUT_CONTAINER_NAME Der Containername, der beim Lesen von CSV-Eingabedateien aus Azure Blob Storage verwendet werden soll. str optional Keine
GRAPHRAG_INPUT_BASE_DIR Das Basisverzeichnis, aus dem Eingabedateien gelesen werden sollen. str optional Keine

Datenmapping-Einstellungen

Parameter Beschreibung Typ Erforderlich oder Optional Standard
GRAPHRAG_INPUT_FILE_TYPE Der Typ der Eingabedaten, csv oder text str optional text
GRAPHRAG_INPUT_ENCODING Die Kodierung, die beim Lesen von CSV-/Text-Eingabedateien angewendet werden soll. str optional utf-8

Daten-Chunking

Parameter Beschreibung Typ Erforderlich oder Optional Standard
GRAPHRAG_CHUNK_SIZE Die Chunk-Größe in Tokens für Text-Chunk-Analysefenster. str optional 1200
GRAPHRAG_CHUNK_OVERLAP Die Chunk-Überlappung in Tokens für Text-Chunk-Analysefenster. str optional 100
GRAPHRAG_CHUNK_BY_COLUMNS Eine durch Kommas getrennte Liste von Dokumentenattributen, nach denen beim Ausführen des TextUnit-Chunkings gruppiert werden soll. str optional id
GRAPHRAG_CHUNK_ENCODING_MODEL Das für das Chunking zu verwendende Kodierungsmodell. str optional Das Kodierungsmodell auf oberster Ebene.

Prompt-Überschreibungen

Parameter Beschreibung Typ Erforderlich oder Optional Standard
GRAPHRAG_ENTITY_EXTRACTION_PROMPT_FILE Der Pfad (relativ zum Stammverzeichnis) einer Textdatei mit Vorlagen für die Entitätsextraktion. str optional Keine
GRAPHRAG_ENTITY_EXTRACTION_MAX_GLEANINGS Die maximale Anzahl von Wiederholungen (Gleanings), die beim Extrahieren von Entitäten in einer Schleife aufgerufen werden. int optional 1
GRAPHRAG_ENTITY_EXTRACTION_ENTITY_TYPES Eine durch Kommas getrennte Liste von zu extrahierenden Entitätstypen. str optional organization,person,event,geo
GRAPHRAG_ENTITY_EXTRACTION_ENCODING_MODEL Das für die Entitätsextraktion zu verwendende Kodierungsmodell. str optional Das Kodierungsmodell auf oberster Ebene.
GRAPHRAG_SUMMARIZE_DESCRIPTIONS_PROMPT_FILE Der Pfad (relativ zum Stammverzeichnis) einer Textdatei mit Vorlagen zur Zusammenfassung von Beschreibungen. str optional Keine
GRAPHRAG_SUMMARIZE_DESCRIPTIONS_MAX_LENGTH Die maximale Anzahl von Tokens, die pro Beschreibung zusammengefasst werden sollen. int optional 500
GRAPHRAG_CLAIM_EXTRACTION_ENABLED Ob die Anspruchsextraktion für diese Pipeline aktiviert ist. bool optional False
GRAPHRAG_CLAIM_EXTRACTION_DESCRIPTION Das Prompting-Argument claim_description, das verwendet werden soll. string optional "Alle Ansprüche oder Fakten, die für die Bedrohungsanalyse relevant sein könnten."
GRAPHRAG_CLAIM_EXTRACTION_PROMPT_FILE Der zu verwendende Anspruchsextraktions-Prompt. string optional Keine
GRAPHRAG_CLAIM_EXTRACTION_MAX_GLEANINGS Die maximale Anzahl von Wiederholungen (Gleanings), die beim Extrahieren von Ansprüchen in einer Schleife aufgerufen werden. int optional 1
GRAPHRAG_CLAIM_EXTRACTION_ENCODING_MODEL Das für die Anspruchsextraktion zu verwendende Kodierungsmodell. str optional Das Kodierungsmodell auf oberster Ebene
GRAPHRAG_COMMUNITY_REPORTS_PROMPT_FILE Der zu verwendende Prompt zur Extraktion von Community-Berichten. string optional Keine
GRAPHRAG_COMMUNITY_REPORTS_MAX_LENGTH Die maximale Anzahl von Tokens, die pro Community-Bericht generiert werden sollen. int optional 1500

Storage

Dieser Abschnitt steuert den von der Pipeline verwendeten Speicherungsmechanismus für den Export von Ausgabetabellen.

Parameter Beschreibung Typ Erforderlich oder Optional Standard
GRAPHRAG_STORAGE_TYPE Der zu verwendende Speichertyp. Optionen sind file, memory oder blob str optional file
GRAPHRAG_STORAGE_STORAGE_ACCOUNT_BLOB_URL Der Azure Storage-Blob-Endpunkt, der im blob-Modus und bei Verwendung der verwalteten Identität verwendet wird. Hat das Format https://<storage_account_name>.blob.core.windows.net str optional Keine
GRAPHRAG_STORAGE_CONNECTION_STRING Die Azure Storage-Verbindungszeichenfolge, die im blob-Modus verwendet werden soll. str optional Keine
GRAPHRAG_STORAGE_CONTAINER_NAME Der Azure Storage-Containername, der im blob-Modus verwendet werden soll. str optional Keine
GRAPHRAG_STORAGE_BASE_DIR Der Basispfad zu den Ausgaben der Daten. str optional Keine

Cache

Dieser Abschnitt steuert den Cache-Mechanismus, der von der Pipeline verwendet wird. Dieser dient zum Zwischenspeichern von LLM-Aufrufergebnissen.

Parameter Beschreibung Typ Erforderlich oder Optional Standard
GRAPHRAG_CACHE_TYPE Der zu verwendende Cache-Typ. Optionen sind file, memory, none oder blob str optional file
GRAPHRAG_CACHE_STORAGE_ACCOUNT_BLOB_URL Der Azure Storage-Blob-Endpunkt, der im blob-Modus und bei Verwendung der verwalteten Identität verwendet wird. Hat das Format https://<storage_account_name>.blob.core.windows.net str optional Keine
GRAPHRAG_CACHE_CONNECTION_STRING Die Azure Storage-Verbindungszeichenfolge, die im blob-Modus verwendet werden soll. str optional Keine
GRAPHRAG_CACHE_CONTAINER_NAME Der Azure Storage-Containername, der im blob-Modus verwendet werden soll. str optional Keine
GRAPHRAG_CACHE_BASE_DIR Der Basispfad zu den Cache-Dateien. str optional Keine

Berichterstattung

Dieser Abschnitt steuert den Berichtsmechanismus, der von der Pipeline für gängige Ereignisse und Fehlermeldungen verwendet wird. Standardmäßig werden Berichte in eine Datei im Ausgabeordner geschrieben. Sie können Berichte aber auch in einen Azure Blob Storage-Container schreiben lassen.

Parameter Beschreibung Typ Erforderlich oder Optional Standard
GRAPHRAG_REPORTING_TYPE Der zu verwendende Reportertyp. Optionen sind file oder blob str optional file
GRAPHRAG_REPORTING_STORAGE_ACCOUNT_BLOB_URL Der Azure Storage-Blob-Endpunkt, der im blob-Modus und bei Verwendung der verwalteten Identität verwendet wird. Hat das Format https://<storage_account_name>.blob.core.windows.net str optional Keine
GRAPHRAG_REPORTING_CONNECTION_STRING Die Azure Storage-Verbindungszeichenfolge, die im blob-Modus verwendet werden soll. str optional Keine
GRAPHRAG_REPORTING_CONTAINER_NAME Der Azure Storage-Containername, der im blob-Modus verwendet werden soll. str optional Keine
GRAPHRAG_REPORTING_BASE_DIR Der Basispfad zu den Berichterstellungsergebnissen. str optional Keine

Node2Vec-Parameter

Parameter Beschreibung Typ Erforderlich oder Optional Standard
GRAPHRAG_NODE2VEC_ENABLED Ob Node2Vec aktiviert werden soll bool optional False
GRAPHRAG_NODE2VEC_NUM_WALKS Die Anzahl der von Node2Vec durchzuführenden Walks int optional 10
GRAPHRAG_NODE2VEC_WALK_LENGTH Die Länge des Node2Vec-Walks int optional 40
GRAPHRAG_NODE2VEC_WINDOW_SIZE Die Fenstergröße von Node2Vec int optional 2
GRAPHRAG_NODE2VEC_ITERATIONS Die Anzahl der Iterationen, die Node2Vec ausgeführt werden soll int optional 3
GRAPHRAG_NODE2VEC_RANDOM_SEED Der für Node2Vec zu verwendende Zufallsseed int optional 597832

Daten-Snapshotting

Parameter Beschreibung Typ Erforderlich oder Optional Standard
GRAPHRAG_SNAPSHOT_EMBEDDINGS Ob Embedding-Snapshots aktiviert werden sollen. bool optional False
GRAPHRAG_SNAPSHOT_GRAPHML Ob GraphML-Snapshots aktiviert werden sollen. bool optional False
GRAPHRAG_SNAPSHOT_RAW_ENTITIES Ob Roh-Entitäts-Snapshots aktiviert werden sollen. bool optional False
GRAPHRAG_SNAPSHOT_TOP_LEVEL_NODES Ob Top-Level-Knoten-Snapshots aktiviert werden sollen. bool optional False
GRAPHRAG_SNAPSHOT_TRANSIENT Ob temporäre Tabellen-Snapshots aktiviert werden sollen. bool optional False

Diverse Einstellungen

Parameter Beschreibung Typ Erforderlich oder Optional Standard
GRAPHRAG_ASYNC_MODE Welcher asynchrone Modus verwendet werden soll. Entweder asyncio oder threaded. str optional asyncio
GRAPHRAG_ENCODING_MODEL Das Text-Kodierungsmodell, das in tiktoken verwendet wird, um Text zu kodieren. str optional cl100k_base
GRAPHRAG_MAX_CLUSTER_SIZE Die maximale Anzahl von Entitäten, die in einen einzelnen Leiden-Cluster aufgenommen werden sollen. int optional 10
GRAPHRAG_UMAP_ENABLED Ob UMAP-Layouts aktiviert werden sollen bool optional False