Ausgaben

Die Standard-Pipeline erzeugt eine Reihe von Ausgabetabellen, die dem konzeptionellen Wissensmodell entsprechen. Diese Seite beschreibt die detaillierten Schemata der Ausgabetabellen. Standardmäßig schreiben wir diese Tabellen als Parquet-Dateien auf die Festplatte.

Gemeinsame Felder

Alle Tabellen haben zwei Identifikationsfelder

name	type	description
id	str	Generierte UUID, die die globale Einzigartigkeit gewährleistet
human_readable_id	int	Dies ist eine inkrementell erstellte Kurz-ID pro Ausführung. Wir verwenden diese Kurz-ID beispielsweise mit generierten Zusammenfassungen, die Zitate drucken, damit sie leicht visuell referenziert werden können.

communities

Dies ist eine Liste der endgültigen Gemeinschaften, die von Leiden generiert wurden. Gemeinschaften sind streng hierarchisch und unterteilen sich in Kinder, während die Cluster-Affinität verringert wird.

name	type	description
community	int	Von Leiden generierte Cluster-ID für die Gemeinschaft. Beachten Sie, dass diese mit der Tiefe inkrementieren, sodass sie über alle Ebenen der Gemeinschaftshierarchie eindeutig sind. Für diese Tabelle ist die human_readable_id eine Kopie der Gemeinschafts-ID anstelle eines einfachen Inkrements.
parent	int	ID der übergeordneten Gemeinschaft.
children	int[]	Liste der IDs von Kind-Gemeinschaften.
level	int	Tiefe der Gemeinschaft in der Hierarchie.
title	str	Freundlicher Name der Gemeinschaft.
entity_ids	str[]	Liste der Entitäten, die Mitglieder der Gemeinschaft sind.
relationship_ids	str[]	Liste der Beziehungen, die sich vollständig innerhalb der Gemeinschaft befinden (Quelle und Ziel sind beide in der Gemeinschaft).
text_unit_ids	str[]	Liste der Textbausteine, die in der Gemeinschaft repräsentiert sind.
period	str	Datum der Aufnahme, verwendet für inkrementelle Update-Zusammenführungen. ISO8601
size	int	Größe der Gemeinschaft (Entitätsanzahl), verwendet für inkrementelle Update-Zusammenführungen.

community_reports

Dies ist die Liste der zusammengefassten Berichte für jede Gemeinschaft.

name	type	description
community	int	Kurz-ID der Gemeinschaft, auf die sich dieser Bericht bezieht.
parent	int	ID der übergeordneten Gemeinschaft.
children	int[]	Liste der IDs von Kind-Gemeinschaften.
level	int	Ebene der Gemeinschaft, auf die sich dieser Bericht bezieht.
title	str	Vom LM generierter Titel für den Bericht.
summary	str	Vom LM generierte Zusammenfassung des Berichts.
full_content	str	Vom LM generierter vollständiger Bericht.
rank	float	Vom LM abgeleitetes Relevanzranking des Berichts basierend auf der Prägnanz der Mitgliedsentitäten.
rating_explanation	str	Vom LM abgeleitete Erklärung des Rankings.
findings	dict	Vom LM abgeleitete Liste der Top 5-10 Erkenntnisse aus der Gemeinschaft. Enthält `summary`- und `explanation`-Werte.
full_content_json	json	Vollständige JSON-Ausgabe, wie sie vom LM zurückgegeben wurde. Die meisten Felder werden in Spalten extrahiert, aber dieses JSON wird für die Abfragezusammenfassung gesendet, sodass es erhalten bleibt, um Anpassungen des Prompts zu ermöglichen, um Felder/Inhalte von Endbenutzern hinzuzufügen.
period	str	Datum der Aufnahme, verwendet für inkrementelle Update-Zusammenführungen. ISO8601
size	int	Größe der Gemeinschaft (Entitätsanzahl), verwendet für inkrementelle Update-Zusammenführungen.

covariates

(Optional) Wenn die Anspruchsextraktion aktiviert ist, handelt es sich hierbei um eine Liste der extrahierten Kovariaten. Beachten Sie, dass Ansprüche typischerweise auf die Identifizierung bösartigen Verhaltens wie Betrug ausgerichtet sind, sodass sie nicht für alle Datensätze nützlich sind.

name	type	description
covariate_type	str	Dies ist immer "claim" mit unseren Standard-Kovariaten.
type	str	Art des Anspruchstyps.
description	str	Vom LM generierte Beschreibung des Verhaltens.
subject_id	str	Name der Quellentität (die das beanspruchte Verhalten ausführt).
object_id	str	Name der Zielentität (auf die das beanspruchte Verhalten angewendet wird).
status	str	Vom LM abgeleitete Bewertung der Richtigkeit des Anspruchs. Eines von [WAHR, FALSCH, VERDÄCHTIG]
start_date	str	Vom LM abgeleiteter Beginn der beanspruchten Aktivität. ISO8601
end_date	str	Vom LM abgeleitetes Ende der beanspruchten Aktivität. ISO8601
source_text	str	Kurze Textpassage, die das beanspruchte Verhalten enthält.
text_unit_id	str	ID der Text-Einheit, aus der der Anspruchstext extrahiert wurde.

documents

Liste des Dokumenteninhalts nach der Aufnahme.

name	type	description
title	str	Dateiname, sofern während des CSV-Imports nicht anders konfiguriert.
text	str	Vollständiger Text des Dokuments.
text_unit_ids	str[]	Liste der Text-Einheiten (Chunks), die aus dem Dokument geparst wurden.
metadata	dict	Wenn während des CSV-Imports angegeben, ist dies ein Dict von Metadaten für das Dokument.

entities

Liste aller vom LM in den Daten gefundenen Entitäten.

name	type	description
title	str	Name der Entität.
type	str	Typ der Entität. Standardmäßig ist dies "organization", "person", "geo" oder "event", es sei denn, es ist anders konfiguriert oder Auto-Tuning wird verwendet.
description	str	Textuelle Beschreibung der Entität. Entitäten können in vielen Text-Einheiten vorkommen, daher ist dies eine vom LM abgeleitete Zusammenfassung aller Beschreibungen.
text_unit_ids	str[]	Liste der Text-Einheiten, die die Entität enthalten.
frequency	int	Anzahl der Text-Einheiten, in denen die Entität gefunden wurde.
degree	int	Knotengrad (Verbundenheit) im Graphen.
x	float	X-Position des Knotens für visuelle Layouts. Wenn Graph-Einbettungen und UMAP nicht aktiviert sind, ist dies 0.
y	float	Y-Position des Knotens für visuelle Layouts. Wenn Graph-Einbettungen und UMAP nicht aktiviert sind, ist dies 0.

relationships

Liste aller vom LM in den Daten gefundenen Entitäts-zu-Entitäts-Beziehungen. Dies ist auch die *Kantenliste* für den Graphen.

name	type	description
source	str	Name der Quellentität.
target	str	Name der Zielentität.
description	str	Vom LM abgeleitete Beschreibung der Beziehung. Siehe auch Hinweis zu Entitätsbeschreibungen.
weight	float	Gewicht der Kante im Graphen. Dies wird aus einer vom LM abgeleiteten "Stärke"-Messung für jede Beziehungsinstanz summiert.
combined_degree	int	Summe der Grade der Quell- und Zielknoten.
text_unit_ids	str[]	Liste der Text-Einheiten, in denen die Beziehung gefunden wurde.

text_units

Liste aller Text-Chunks, die aus den Eingabedokumenten geparst wurden.

name	type	description
text	str	Rohvoller Text des Chunks.
n_tokens	int	Anzahl der Tokens im Chunk. Dies sollte normalerweise mit dem `chunk_size`-Konfigurationsparameter übereinstimmen, außer beim letzten Chunk, der oft kürzer ist.
document_ids	str[]	Liste der Dokumenten-IDs, aus denen der Chunk stammt. Dies ist normalerweise nur 1 aufgrund unseres Standard-Gruppierungsmechanismus, aber bei sehr kurzen Textdokumenten (z. B. Mikroblogs) kann es so konfiguriert werden, dass Text-Einheiten mehrere Dokumente umfassen.
entity_ids	str[]	Liste der in der Text-Einheit gefundenen Entitäten.
relationships_ids	str[]	Liste der in der Text-Einheit gefundenen Beziehungen.
covariate_ids	str[]	Optionale Liste der in der Text-Einheit gefundenen Kovariaten.