Zum Inhalt springen

Ausgaben

Die Standard-Pipeline erzeugt eine Reihe von Ausgabetabellen, die dem konzeptionellen Wissensmodell entsprechen. Diese Seite beschreibt die detaillierten Schemata der Ausgabetabellen. Standardmäßig schreiben wir diese Tabellen als Parquet-Dateien auf die Festplatte.

Gemeinsame Felder

Alle Tabellen haben zwei Identifikationsfelder

name type description
id str Generierte UUID, die die globale Einzigartigkeit gewährleistet
human_readable_id int Dies ist eine inkrementell erstellte Kurz-ID pro Ausführung. Wir verwenden diese Kurz-ID beispielsweise mit generierten Zusammenfassungen, die Zitate drucken, damit sie leicht visuell referenziert werden können.

communities

Dies ist eine Liste der endgültigen Gemeinschaften, die von Leiden generiert wurden. Gemeinschaften sind streng hierarchisch und unterteilen sich in Kinder, während die Cluster-Affinität verringert wird.

name type description
community int Von Leiden generierte Cluster-ID für die Gemeinschaft. Beachten Sie, dass diese mit der Tiefe inkrementieren, sodass sie über alle Ebenen der Gemeinschaftshierarchie eindeutig sind. Für diese Tabelle ist die human_readable_id eine Kopie der Gemeinschafts-ID anstelle eines einfachen Inkrements.
parent int ID der übergeordneten Gemeinschaft.
children int[] Liste der IDs von Kind-Gemeinschaften.
level int Tiefe der Gemeinschaft in der Hierarchie.
title str Freundlicher Name der Gemeinschaft.
entity_ids str[] Liste der Entitäten, die Mitglieder der Gemeinschaft sind.
relationship_ids str[] Liste der Beziehungen, die sich vollständig innerhalb der Gemeinschaft befinden (Quelle und Ziel sind beide in der Gemeinschaft).
text_unit_ids str[] Liste der Textbausteine, die in der Gemeinschaft repräsentiert sind.
period str Datum der Aufnahme, verwendet für inkrementelle Update-Zusammenführungen. ISO8601
size int Größe der Gemeinschaft (Entitätsanzahl), verwendet für inkrementelle Update-Zusammenführungen.

community_reports

Dies ist die Liste der zusammengefassten Berichte für jede Gemeinschaft.

name type description
community int Kurz-ID der Gemeinschaft, auf die sich dieser Bericht bezieht.
parent int ID der übergeordneten Gemeinschaft.
children int[] Liste der IDs von Kind-Gemeinschaften.
level int Ebene der Gemeinschaft, auf die sich dieser Bericht bezieht.
title str Vom LM generierter Titel für den Bericht.
summary str Vom LM generierte Zusammenfassung des Berichts.
full_content str Vom LM generierter vollständiger Bericht.
rank float Vom LM abgeleitetes Relevanzranking des Berichts basierend auf der Prägnanz der Mitgliedsentitäten.
rating_explanation str Vom LM abgeleitete Erklärung des Rankings.
findings dict Vom LM abgeleitete Liste der Top 5-10 Erkenntnisse aus der Gemeinschaft. Enthält `summary`- und `explanation`-Werte.
full_content_json json Vollständige JSON-Ausgabe, wie sie vom LM zurückgegeben wurde. Die meisten Felder werden in Spalten extrahiert, aber dieses JSON wird für die Abfragezusammenfassung gesendet, sodass es erhalten bleibt, um Anpassungen des Prompts zu ermöglichen, um Felder/Inhalte von Endbenutzern hinzuzufügen.
period str Datum der Aufnahme, verwendet für inkrementelle Update-Zusammenführungen. ISO8601
size int Größe der Gemeinschaft (Entitätsanzahl), verwendet für inkrementelle Update-Zusammenführungen.

covariates

(Optional) Wenn die Anspruchsextraktion aktiviert ist, handelt es sich hierbei um eine Liste der extrahierten Kovariaten. Beachten Sie, dass Ansprüche typischerweise auf die Identifizierung bösartigen Verhaltens wie Betrug ausgerichtet sind, sodass sie nicht für alle Datensätze nützlich sind.

name type description
covariate_type str Dies ist immer "claim" mit unseren Standard-Kovariaten.
type str Art des Anspruchstyps.
description str Vom LM generierte Beschreibung des Verhaltens.
subject_id str Name der Quellentität (die das beanspruchte Verhalten ausführt).
object_id str Name der Zielentität (auf die das beanspruchte Verhalten angewendet wird).
status str Vom LM abgeleitete Bewertung der Richtigkeit des Anspruchs. Eines von [WAHR, FALSCH, VERDÄCHTIG]
start_date str Vom LM abgeleiteter Beginn der beanspruchten Aktivität. ISO8601
end_date str Vom LM abgeleitetes Ende der beanspruchten Aktivität. ISO8601
source_text str Kurze Textpassage, die das beanspruchte Verhalten enthält.
text_unit_id str ID der Text-Einheit, aus der der Anspruchstext extrahiert wurde.

documents

Liste des Dokumenteninhalts nach der Aufnahme.

name type description
title str Dateiname, sofern während des CSV-Imports nicht anders konfiguriert.
text str Vollständiger Text des Dokuments.
text_unit_ids str[] Liste der Text-Einheiten (Chunks), die aus dem Dokument geparst wurden.
metadata dict Wenn während des CSV-Imports angegeben, ist dies ein Dict von Metadaten für das Dokument.

entities

Liste aller vom LM in den Daten gefundenen Entitäten.

name type description
title str Name der Entität.
type str Typ der Entität. Standardmäßig ist dies "organization", "person", "geo" oder "event", es sei denn, es ist anders konfiguriert oder Auto-Tuning wird verwendet.
description str Textuelle Beschreibung der Entität. Entitäten können in vielen Text-Einheiten vorkommen, daher ist dies eine vom LM abgeleitete Zusammenfassung aller Beschreibungen.
text_unit_ids str[] Liste der Text-Einheiten, die die Entität enthalten.
frequency int Anzahl der Text-Einheiten, in denen die Entität gefunden wurde.
degree int Knotengrad (Verbundenheit) im Graphen.
x float X-Position des Knotens für visuelle Layouts. Wenn Graph-Einbettungen und UMAP nicht aktiviert sind, ist dies 0.
y float Y-Position des Knotens für visuelle Layouts. Wenn Graph-Einbettungen und UMAP nicht aktiviert sind, ist dies 0.

relationships

Liste aller vom LM in den Daten gefundenen Entitäts-zu-Entitäts-Beziehungen. Dies ist auch die *Kantenliste* für den Graphen.

name type description
source str Name der Quellentität.
target str Name der Zielentität.
description str Vom LM abgeleitete Beschreibung der Beziehung. Siehe auch Hinweis zu Entitätsbeschreibungen.
weight float Gewicht der Kante im Graphen. Dies wird aus einer vom LM abgeleiteten "Stärke"-Messung für jede Beziehungsinstanz summiert.
combined_degree int Summe der Grade der Quell- und Zielknoten.
text_unit_ids str[] Liste der Text-Einheiten, in denen die Beziehung gefunden wurde.

text_units

Liste aller Text-Chunks, die aus den Eingabedokumenten geparst wurden.

name type description
text str Rohvoller Text des Chunks.
n_tokens int Anzahl der Tokens im Chunk. Dies sollte normalerweise mit dem `chunk_size`-Konfigurationsparameter übereinstimmen, außer beim letzten Chunk, der oft kürzer ist.
document_ids str[] Liste der Dokumenten-IDs, aus denen der Chunk stammt. Dies ist normalerweise nur 1 aufgrund unseres Standard-Gruppierungsmechanismus, aber bei sehr kurzen Textdokumenten (z. B. Mikroblogs) kann es so konfiguriert werden, dass Text-Einheiten mehrere Dokumente umfassen.
entity_ids str[] Liste der in der Text-Einheit gefundenen Entitäten.
relationships_ids str[] Liste der in der Text-Einheit gefundenen Beziehungen.
covariate_ids str[] Optionale Liste der in der Text-Einheit gefundenen Kovariaten.