Ausgaben
Die Standard-Pipeline erzeugt eine Reihe von Ausgabetabellen, die dem konzeptionellen Wissensmodell entsprechen. Diese Seite beschreibt die detaillierten Schemata der Ausgabetabellen. Standardmäßig schreiben wir diese Tabellen als Parquet-Dateien auf die Festplatte.
Gemeinsame Felder
Alle Tabellen haben zwei Identifikationsfelder
| name | type | description |
|---|---|---|
| id | str | Generierte UUID, die die globale Einzigartigkeit gewährleistet |
| human_readable_id | int | Dies ist eine inkrementell erstellte Kurz-ID pro Ausführung. Wir verwenden diese Kurz-ID beispielsweise mit generierten Zusammenfassungen, die Zitate drucken, damit sie leicht visuell referenziert werden können. |
communities
Dies ist eine Liste der endgültigen Gemeinschaften, die von Leiden generiert wurden. Gemeinschaften sind streng hierarchisch und unterteilen sich in Kinder, während die Cluster-Affinität verringert wird.
| name | type | description |
|---|---|---|
| community | int | Von Leiden generierte Cluster-ID für die Gemeinschaft. Beachten Sie, dass diese mit der Tiefe inkrementieren, sodass sie über alle Ebenen der Gemeinschaftshierarchie eindeutig sind. Für diese Tabelle ist die human_readable_id eine Kopie der Gemeinschafts-ID anstelle eines einfachen Inkrements. |
| parent | int | ID der übergeordneten Gemeinschaft. |
| children | int[] | Liste der IDs von Kind-Gemeinschaften. |
| level | int | Tiefe der Gemeinschaft in der Hierarchie. |
| title | str | Freundlicher Name der Gemeinschaft. |
| entity_ids | str[] | Liste der Entitäten, die Mitglieder der Gemeinschaft sind. |
| relationship_ids | str[] | Liste der Beziehungen, die sich vollständig innerhalb der Gemeinschaft befinden (Quelle und Ziel sind beide in der Gemeinschaft). |
| text_unit_ids | str[] | Liste der Textbausteine, die in der Gemeinschaft repräsentiert sind. |
| period | str | Datum der Aufnahme, verwendet für inkrementelle Update-Zusammenführungen. ISO8601 |
| size | int | Größe der Gemeinschaft (Entitätsanzahl), verwendet für inkrementelle Update-Zusammenführungen. |
community_reports
Dies ist die Liste der zusammengefassten Berichte für jede Gemeinschaft.
| name | type | description |
|---|---|---|
| community | int | Kurz-ID der Gemeinschaft, auf die sich dieser Bericht bezieht. |
| parent | int | ID der übergeordneten Gemeinschaft. |
| children | int[] | Liste der IDs von Kind-Gemeinschaften. |
| level | int | Ebene der Gemeinschaft, auf die sich dieser Bericht bezieht. |
| title | str | Vom LM generierter Titel für den Bericht. |
| summary | str | Vom LM generierte Zusammenfassung des Berichts. |
| full_content | str | Vom LM generierter vollständiger Bericht. |
| rank | float | Vom LM abgeleitetes Relevanzranking des Berichts basierend auf der Prägnanz der Mitgliedsentitäten. |
| rating_explanation | str | Vom LM abgeleitete Erklärung des Rankings. |
| findings | dict | Vom LM abgeleitete Liste der Top 5-10 Erkenntnisse aus der Gemeinschaft. Enthält `summary`- und `explanation`-Werte. |
| full_content_json | json | Vollständige JSON-Ausgabe, wie sie vom LM zurückgegeben wurde. Die meisten Felder werden in Spalten extrahiert, aber dieses JSON wird für die Abfragezusammenfassung gesendet, sodass es erhalten bleibt, um Anpassungen des Prompts zu ermöglichen, um Felder/Inhalte von Endbenutzern hinzuzufügen. |
| period | str | Datum der Aufnahme, verwendet für inkrementelle Update-Zusammenführungen. ISO8601 |
| size | int | Größe der Gemeinschaft (Entitätsanzahl), verwendet für inkrementelle Update-Zusammenführungen. |
covariates
(Optional) Wenn die Anspruchsextraktion aktiviert ist, handelt es sich hierbei um eine Liste der extrahierten Kovariaten. Beachten Sie, dass Ansprüche typischerweise auf die Identifizierung bösartigen Verhaltens wie Betrug ausgerichtet sind, sodass sie nicht für alle Datensätze nützlich sind.
| name | type | description |
|---|---|---|
| covariate_type | str | Dies ist immer "claim" mit unseren Standard-Kovariaten. |
| type | str | Art des Anspruchstyps. |
| description | str | Vom LM generierte Beschreibung des Verhaltens. |
| subject_id | str | Name der Quellentität (die das beanspruchte Verhalten ausführt). |
| object_id | str | Name der Zielentität (auf die das beanspruchte Verhalten angewendet wird). |
| status | str | Vom LM abgeleitete Bewertung der Richtigkeit des Anspruchs. Eines von [WAHR, FALSCH, VERDÄCHTIG] |
| start_date | str | Vom LM abgeleiteter Beginn der beanspruchten Aktivität. ISO8601 |
| end_date | str | Vom LM abgeleitetes Ende der beanspruchten Aktivität. ISO8601 |
| source_text | str | Kurze Textpassage, die das beanspruchte Verhalten enthält. |
| text_unit_id | str | ID der Text-Einheit, aus der der Anspruchstext extrahiert wurde. |
documents
Liste des Dokumenteninhalts nach der Aufnahme.
| name | type | description |
|---|---|---|
| title | str | Dateiname, sofern während des CSV-Imports nicht anders konfiguriert. |
| text | str | Vollständiger Text des Dokuments. |
| text_unit_ids | str[] | Liste der Text-Einheiten (Chunks), die aus dem Dokument geparst wurden. |
| metadata | dict | Wenn während des CSV-Imports angegeben, ist dies ein Dict von Metadaten für das Dokument. |
entities
Liste aller vom LM in den Daten gefundenen Entitäten.
| name | type | description |
|---|---|---|
| title | str | Name der Entität. |
| type | str | Typ der Entität. Standardmäßig ist dies "organization", "person", "geo" oder "event", es sei denn, es ist anders konfiguriert oder Auto-Tuning wird verwendet. |
| description | str | Textuelle Beschreibung der Entität. Entitäten können in vielen Text-Einheiten vorkommen, daher ist dies eine vom LM abgeleitete Zusammenfassung aller Beschreibungen. |
| text_unit_ids | str[] | Liste der Text-Einheiten, die die Entität enthalten. |
| frequency | int | Anzahl der Text-Einheiten, in denen die Entität gefunden wurde. |
| degree | int | Knotengrad (Verbundenheit) im Graphen. |
| x | float | X-Position des Knotens für visuelle Layouts. Wenn Graph-Einbettungen und UMAP nicht aktiviert sind, ist dies 0. |
| y | float | Y-Position des Knotens für visuelle Layouts. Wenn Graph-Einbettungen und UMAP nicht aktiviert sind, ist dies 0. |
relationships
Liste aller vom LM in den Daten gefundenen Entitäts-zu-Entitäts-Beziehungen. Dies ist auch die *Kantenliste* für den Graphen.
| name | type | description |
|---|---|---|
| source | str | Name der Quellentität. |
| target | str | Name der Zielentität. |
| description | str | Vom LM abgeleitete Beschreibung der Beziehung. Siehe auch Hinweis zu Entitätsbeschreibungen. |
| weight | float | Gewicht der Kante im Graphen. Dies wird aus einer vom LM abgeleiteten "Stärke"-Messung für jede Beziehungsinstanz summiert. |
| combined_degree | int | Summe der Grade der Quell- und Zielknoten. |
| text_unit_ids | str[] | Liste der Text-Einheiten, in denen die Beziehung gefunden wurde. |
text_units
Liste aller Text-Chunks, die aus den Eingabedokumenten geparst wurden.
| name | type | description |
|---|---|---|
| text | str | Rohvoller Text des Chunks. |
| n_tokens | int | Anzahl der Tokens im Chunk. Dies sollte normalerweise mit dem `chunk_size`-Konfigurationsparameter übereinstimmen, außer beim letzten Chunk, der oft kürzer ist. |
| document_ids | str[] | Liste der Dokumenten-IDs, aus denen der Chunk stammt. Dies ist normalerweise nur 1 aufgrund unseres Standard-Gruppierungsmechanismus, aber bei sehr kurzen Textdokumenten (z. B. Mikroblogs) kann es so konfiguriert werden, dass Text-Einheiten mehrere Dokumente umfassen. |
| entity_ids | str[] | Liste der in der Text-Einheit gefundenen Entitäten. |
| relationships_ids | str[] | Liste der in der Text-Einheit gefundenen Beziehungen. |
| covariate_ids | str[] | Optionale Liste der in der Text-Einheit gefundenen Kovariaten. |