Unklar definierte Datenfelder führen oft zu ungenauen Ergebnissen bei der Extraktion – besonders bei Zahlen, Datumsangaben oder komplexen Hierarchien/ Strukturen. Selbst kleine Unterschiede innerhalb desselben Feldtyps können zu erheblichen Fehlern führen.
Unsere smarte Feldkonfiguration löst dieses Problem, indem sie Ihnen die volle Kontrolle gibt: Definieren Sie Zahlen, Datumsformate und Zeilenstrukturen genau so, wie Sie sie brauchen.
In diesem Tutorial zeigen wir Ihnen, wie Sie die Feldkonfiguration nutzen, um Mehrdeutigkeiten zu beseitigen und sicherzustellen, dass Ihr individuelles Extraktionsmodell präzise und zuverlässige Ergebnisse liefert.
Ihre Vorteile dank smarter Feldkonfiguration
Unsere smarte Feldkonfiguration macht das Erstellen und Verwalten von Datenfeldern so einfach wie nie zuvor. Maximieren Sie die Genauigkeit und Effizienz Ihrer Extraktionsmodelle!
Präzisere Datenextraktion: Definieren Sie jedes Datenfeld genau nach Ihren Anforderungen und optimieren Sie die Extraktion für höchste Präzision.
Maximale Flexibilität: Selbst innerhalb desselben Feldtyps können Sie individuelle Formate und spezifische Konfigurationen festlegen.
Schnellere Einrichtung: Dank ausführlicher Erklärungen und einer optimierten Benutzerführung sparen Sie Zeit und reduzieren Fehler.
Effizientere Workflows: Die intuitive Gestaltung und vereinfachte Erstellung ermöglichen eine nahtlose Integration in Ihren Prozess
Optionen für Dezimalzahlen
Mit dem Fallback Dezimaltrenner können Sie jetzt festlegen, wie Zahlen mit Trennzeichen interpretiert werden, wenn sie mehrere Bedeutungen haben können – d.h. ob sie als Dezimalzahlen oder Tausenderzahlen behandelt werden sollen. Weltweit gibt es dafür keinen einheitlichen Standard.
Aktuell können Sie aus den folgenden Formaten wählen:
– Komma (,) → Wird in europäischen Ländern genutzt (z.B. 3,14)
– Punkt (.) → Wird meist im englisch-sprachigen Raum genutzt (z.B. 3.14)
Hinweis: Wenn mindestens eine eindeutige Zahl mit Trennzeichen in Ihren Dokumenten vorhanden ist, lernt die KI daraus und interpretiert auch mehrdeutige Zahlen korrekt.
In diesem Fall erschien die Zahl 1.000,50 auf einer Seite. Aufgrund der vorherigen Erklärung weiß die KI, dass das Komma als Tausendertrennzeichen verwendet wird. Sie merkt sich dieses Muster, d. h. die Zahl auf der rechten Seite ist nun eindeutig, auch ohne zusätzliche Einstellungen (Speichermechanismus).
Anpassen des Datumsformates
Die Primäre Regel für die Datumsinterpretation legt fest, wie die KI ein Datum in mehrdeutigen Fällen interpretiert. Da es weltweit keinen universellen Standard für Datumsformate gibt, folgt das System vordefinierten Regeln, um Datumsangaben in eine standardisierte Form umzuwandeln.
Aktuell können Sie aus folgenden Formaten wählen:
– Tag zuerst (DD.MM.YYYY) → z.B. 25.04.2025
– Monat zuerst (MM/DD/YYYY) → z.B. 04/25/2025
– Jahr zuerst (YYYY-MM-DD) → z.B. 2025-04-25
Dieses Datum ist ein eindeutiges Beispiel. Es gibt keinen 25. Monat, also muss dies der Tag sein.

Bei Zahlen bis zu 12 kann die Interpretation schwierig sein:
Es ist unklar, ob die Zahlen für den Tag oder den Monat stehen. Handelt es sich zum Beispiel bei „03/12/2025“ um den 3. Dezember oder den 12. März? Um solche unklaren Fälle zu vermeiden, können Sie das Fallback-Datumsformat für Ihre Dokumente explizit angeben und so eine genaue Interpretation gewährleisten.
Hinweis: Wenn mindestens ein Datum auf Ihren Dokumenten eindeutig ist, lernt die KI daraus und interpretiert auch unklare Daten richtig.
In diesem Fall erschien das eindeutige Datum 25/04/2025 auf einem Dokument.
Diese Eindeutigkeit wird erkannt, und die KI lernt, dass Datumsangaben normalerweise mit dem Tag beginnen. Dieses Wissen wendet sie dann auch auf mehrdeutige Datumsangaben an – ohne zusätzliche Einstellungen (Speichermechanismus).
Verschachtelte Positionsdaten
Stellen Sie sich vor, Sie haben eine Liste, in der einmal die „Liefernummer 1020“ steht, und darunter befinden sich Positionen wie „Zementsäcke“, „Sand“ und „Kies“.
Das Problem ist, dass die KI nicht automatisch weiß, dass diese Positionen zu „Lieferung 1020“ gehören, weil die Nummer nicht in jeder Zeile wiederholt wird.
Diese Einstellung wäre in diesem Fall die richtige:
– Die Liefernummer gilt für mehrere Artikel.
– Sie sollte nach unten zu jedem verwandten Element kopiert werden.
Anstatt also in jeder Zeile die Liefernummer zu verlangen, versteht die KI jetzt, dass alles unter „Lieferung 1020“ auch dazugehört – bis eine neue Liefernummer auftaucht und der Prozess von vorne beginnt.
Positionsdaten über mehrere Seiten
Stellen Sie sich vor, Sie haben eine Artikelbeschreibung, die auf Seite 1 beginnt und auf Seite 2 fortgesetzt wird. Es wird nicht automatisch erkannt, dass es sich um ein und denselben Artikel handelt, weshalb er als zwei separate Einträge behandelt wird.
Dieses Problem kann nun durch die Verwendung eines eindeutigen Identifikators gelöst werden, der zusammengehörige Artikel miteinander verbindet, z. B. eine Artikelnummer.
Die Einstellung wäre in diesem Fall:
– „Article Number 1″ auf Seite 1 wird erkannt.
– Auf Seite 2 erscheint ein Text ohne eine neue Artikelnummer.
– Mit dieser Einstellung wird der Text korrekt mit „Article Number 1“ verknüpft.

Ohne diese Einstellung würde der zweite Teil auf Seite 2 als ein weiteres Listenelement ohne Artikelnummer behandelt werden, das nur eine Beschreibung enthält. Durch die Verwendung eines eindeutigen Identifikators wird sichergestellt, dass der Inhalt korrekt gruppiert bleibt, auch wenn er sich über mehrere Seiten erstreckt.
Unterschiede auf zwei Seiten:
Ein weiteres Szenario umfasst leichte Unterschiede zwischen den Seiten:
– Seite 1 enthält „Artikelnummer“ und „Beschreibung“
– Seite 2 enthält „Artikelnummer“, „Beschreibung“ und „Preis“
Obwohl dies wie eine Fortsetzung derselben Liste aussieht, behandelt das System sie als zwei getrennte Listen, weil die Artikelnummer auf Seite 2 wieder auftaucht und als eindeutiger Identifikator konfiguriert ist.
In solchen Fällen würden die Einträge nur zusammengeführt, wenn die Logik die Wiederholung bestimmter Felder (z. B. Preis) zuließe, während die Artikelnummer weiterhin als primärer Identifikator behandelt würde.
Dies zeigt, wie wichtig das Zusammenspiel der verschiedenen Feldkonfigurationen bei der Erkennung von Listen über mehrere Seiten hinweg ist.
Erstellen Sie jetzt Ihr individuelles Modell
Mit unserer neuen Feldkonfiguration können Sie mühelos Ihr perfektes Extraktionsmodell erstellen. Dank mehr Flexibilität und Kontrolle können Sie Datenfelder an Ihre spezifischen Anforderungen anpassen und die Genauigkeit mühelos verbessern.
Jetzt ist es an der Zeit, dieses Feature in die Tat umzusetzen – beginnen Sie noch heute und erstellen Sie Ihr individuelles Extraktionsmodell, um noch präzisere und effizientere Ergebnisse zu erzielen!