So trainieren Sie Ihr individuelles Extraktionsmodell

Obwohl wir bereits Extraktionsmodelle für viele verschiedene Dokumententypen anbieten, wissen wir, dass in Arbeitsprozessen oft noch mehr Dokumente eine Rolle spielen. Deshalb können Sie jetzt Ihr eigenes Extraktionsmodell erstellen. Sie bestimmen selbst, welche Dokumenttypen relevant sind und welche Inhalte daraus extrahiert werden sollen.

Bei natif.ai haben wir zahlreiche Modelle, die relevante Informationen aus Dokumenten wie Rechnungen, Belegen, Fahrzeugscheinen und Lieferscheinen extrahieren. Für jeden dieser Dokumenttypen erfassen unsere Modelle genau die Informationen, die für die Weiterverarbeitung benötigt werden, wie beispielsweise Steuernummern oder Bankverbindungen.

Wir wissen aber, dass Ihr Unternehmen mit weit mehr Dokumenttypen arbeitet und dass die Extraktion von Informationen aus weiteren Dokumenten Ihnen helfen kann, noch mehr Geschäftsprozesse zu automatisieren. Anstatt also darauf zu warten, dass wir ein Modell für jeden einzelnen Dokumenttyp entwickeln – das möglicherweise nicht alle von Ihnen gewünschten Felder enthält – können Sie nun selbst aktiv werden und Ihr eigenes Modell erstellen!

Mit unserem neuen Train-Your-Own-Extraction-Model haben Sie die Möglichkeit, ein Modell zu erstellen, das genau die Informationen extrahiert, die Sie benötigen – und das aus den Dokumenten Ihrer Wahl. In diesem Beitrag führen wir Sie Schritt für Schritt durch den Prozess und zeigen Ihnen, wie einfach die Extraktion von Informationen aus Ihren Dokumenten sein kann!

Los geht’s

Wir beginnen in der  Workflow Übersicht unserer Plattform und wählen “Trainieren Sie jetzt Ihr eigenes Modell” aus.

Wählen Sie Ihren Workflow

Hier finden Sie alle unsere benutzerdefinierten KI-Workflows.
Für unseren Custom Extraction-Workflow wählen wir „Erstelle maßgeschneiderte Extraktion„.

Beschreiben Sie Ihren Workflow

Zuerst beschreiben wir den Workflow, indem wir ihm einen Namen und eine kurze Beschreibung hinzufügen. Sie können außerdem ein Bild hochladen. Dies hilft Ihnen, diesen Workflow von anderen zu unterscheiden.

In unserem Fall möchten wir ein Extraktionsmodell für Kontoauszüge erstellen.

Definieren Sie Ihre Datenfelder

Jetzt bestimmen wir, welche Datenfelder aus den Dokumenten extrahiert werden sollen.
Das ist die Basis unseres Modells! Der Workflow wird später nur die Felder extrahieren, die wir in diesem Schritt definieren. Dabei können Sie zwischen verschiedenen Arten von Datenfeldern wählen – von einfachen Text- und Zahlenfeldern bis hin zu komplexeren Strukturen wie Tabellen.

Alle verfügbaren Datenfelder werden ausführlich in  diesem Tutorial erklärt.

Spezifizieren Sie Ihre Dokumente

Damit die KI genau weiß, welche Aufgaben sie ausführen soll, geben wir ihr ein paar Informationen über Ihre Dokumente. Das verbessert die Genauigkeit Ihres Workflows.

Für ein individuelles Extraktionsmodell muss die KI einige wichtige Informationen erhalten:
– Sind die Dokumente bereits perfekt zugeschnitten, oder soll der Zuschnitt im Workflow erfolgen?
– Sind die Inhalte in lateinischer oder japanischer Schrift verfasst?
– Handelt es sich um gedruckten Text, handgeschriebene Inhalte oder eine Mischung aus beidem?

Ihr Workflow ist fertig

Ihr Modell ist bereit – aber es muss noch trainiert werden. Es braucht Ihre Unterstützung, um sein volles Potenzial zu entfalten! Damit die KI lernt, wo sie welche Datenfelder findet, brauchen wir jetzt einige Trainingsdokumente. Dafür klicken Sie einfach auf „Trainingsdaten Hochladen“.

Laden Sie Ihre Trainingsdaten hoch

Jetzt können Sie Ihre eigenen Trainingsdaten hochladen. Dafür können Sie mehrere Templates erstellen und Ihre Dokumente entsprechend zuordnen. In unserem Fall legen wir ein Template pro Bank an und laden dort alle Kontoauszüge der jeweiligen Bank hoch. Sind Ihre Dokumente sehr unterschiedlich und sehen jedes Mal anders aus? Dann können Sie sie auch ohne festes Template hochladen – die KI lernt dann, sich flexibel an verschiedene Layouts anzupassen.

Tipp: Wenn Sie Dokumente in Templates hochladen, erhalten Sie später detaillierte Auswertungen für jedes Template. So können Sie genau nachvollziehen, was gut funktioniert und wo noch Optimierungsbedarf besteht – und Ihr Extraktionsmodell gezielt verbessern.
Bitte laden Sie mindestens 5 Dokumente pro Template hoch oder 50 verschiedene Dokumente. Es ist wichtig, dass die ausgewählten Dokumente möglichst ähnlich zu denen sind, die das Modell später verarbeiten soll.

So kann die KI Ihre Dokumente optimal verstehen und mit hoher Genauigkeit verarbeiten.

Annotieren Sie Ihre Trainingsdokumente

Jetzt müssen wir unsere hochgeladenen Dokumente annotieren. Das heißt, dass wir der KI beibringen müssen, wo sie welche Datenfelder in den Dokumenten findet.
Auf der linken Seite sehen Sie alle definierten Datenfelder Ihres Extraktionsmodells. Um die Felder zuzuweisen, wählen Sie einfach ein Datenfeld aus der Liste aus und klicken dann auf die passende Textstelle im Dokument. Die Farbcodierung zeigt Ihnen, welche Felder mit welchen Textboxen verknüpft sind.
Datenfelder, die zusammengehören – wie zum Beispiel der Kontoinhaber – müssen gruppiert werden. Das geht ganz einfach: Klicken Sie auf den schwarzen Button mit dem Plus-Zeichen, und die Felder werden automatisch in der gleichen Farbe hervorgehoben.
Um große Tabellen, wie zum Beispiel Transaktionen, zu annotieren, beginnen wir damit, alle passenden Textfelder den entsprechenden Datenfeldern zuzuordnen. In unserem Fall bedeutet das, dass wir Spalte für Spalte vorgehen.

Sobald alle Felder zugewiesen sind, können wir damit beginnen die einzelnen Transaktionen zu gruppieren. Das heißt, jede Zeile der Tabelle wird als eigene Gruppe angelegt. Um mehrere Gruppen zu erstellen, klicken wir auf den grünen Button mit dem Plus-Zeichen am unteren Rand. Anschließend können wir per Drag & Drop alle Datenfelder der ersten Zeile markieren und zu einer Gruppe zusammenfassen.
Sobald alle Datenfelder zugewiesen sind, können Sie die Annotationen speichern und diesen Schritt für alle weiteren hochgeladenen Dokumente wiederholen.

KI-Training starten

Nachdem Sie alle Dokumente annotiert haben, können Sie das Training starten. Die KI lernt nun, wie Ihre Dokumente verarbeitet werden sollen.
Sie erhalten eine E-Mail sobald das Training abgeschlossen ist, was gewöhnlich in innerhalb der kommenden 24 Stunden geschieht.

API-Integration

Ihr Workflow-API ist schon fertig und kann direkt integriert werden! In der Workflow-Dokumentation finden Sie alle wichtigen Details, einschließlich Code-Beispielen und JSON-Antworten.

Das war’s

Ihre API wird automatisch angepasst, sobald das Training abgeschlossen ist. Die Trainingsmetriken liefern Ihnen detaillierte Informationen über die Genauigkeit Ihres KI-Workflows.

Wenn Sie Unterstützung bei der Erstellung Ihres eigenes Extraktionsmodells benötigen, kontaktieren Sie uns einfach, und lassen Sie uns wissen, wie wir Ihnen helfen können!
Share Post