Die Analyse der Trainingsergebnisse ist entscheidend, um zu erkennen, in welchen Bereichen Ihr KI-Modell bereits überzeugt, wo noch Verbesserungsbedarf besteht und wie sich die Leistung weiter optimieren lässt. In diesem Tutorial zeigen wir Ihnen Schritt für Schritt, wie Sie Ihre Trainingsmetriken auswerten und so die Genauigkeit Ihres Modells steigern können.
Workflow Dashboard
Wir beginnen auf dem Workflow-Dashboard unserer individuellen Extraktion. Im Bereich „Trainingsstatus“ erhalten Sie bereits einen schnellen Überblick über die Performance Ihres Modells.
Um tiefer einzutauchen, wählen Sie „Trainings Anzeigen“. Hier können Sie auf alle aktuellen und historischen Trainingsmetriken zugreifen, mit denen Sie den Fortschritt Ihres Modells verfolgen können. Denken Sie daran, dass sich das Modell mit jedem Prüfen oder Hinzufügen von Daten verbessern sollte.
Gesamtgenauigkeit
Die Gesamtgenauigkeit gibt an, wie oft das Modell die Datenfelder in Ihren Dokumenten korrekt vorhersagt. Dies gibt Auskunft darüber, wie viele Textfelder von der KI korrekt identifiziert wurden.
In unserem Modell haben wir eine Gesamtgenauigkeit von 93 % – das bedeutet, dass noch Verbesserungsbedarf besteht.
Hinweis: Für weitere Details können Sie auf die Fragezeichen-Symbole neben den einzelnen Kennzahlen klicken.
Template Metriken
Der erste Schritt zur Verbesserung des Modells besteht darin, die Metriken der einzelnen Templates zu überprüfen – sofern Ihre Daten in Templates aufgeteilt sind. Stellt sich dabei heraus, dass vor allem ein Template schlecht abschneidet, können wir uns zunächst gezielt auf dessen Optimierung konzentrieren.
In unserem Modell hat das Template „Bank A“ eine Gesamtgenauigkeit von 85 %. Das bedeutet, dass wir uns dieses Template genauer ansehen müssen.
Über das Augensymbol lassen sich die verschiedenen Metriken aller Datenfelder innerhalb der für das Modell erstellten Vorlage einsehen.
Interpretation der Metriken
In der Übersicht sehen Sie verschiedene Kennzahlen, die die unterschiedlichen Leistungsaspekte Ihres KI-Modells widerspiegeln.
Anzahl an Boxen:
Gibt an, wie viele Textboxen dieses Typs im Validierungsdatensatz enthalten waren. Wenn Ihre Metriken (F1/Präzision/Recall) niedrig sind, obwohl es viele Boxen gibt, deutet dies darauf hin, dass dieser Typ wirklich schlecht funktioniert. Wenn die Anzahl der Boxen niedrig ist und die Metriken niedrig sind, könnte es sich um einen Zufall handeln. Versuchen Sie in diesem Fall, mehr Beispiele mit diesem Typ hinzuzufügen.
Recall:
Von allen Textfeldern, denen dieser Typ hätte zugewiesen werden müssen, gibt der Recall an, wie oft das Modell dies tatsächlich getan hat.
F1 Wert:
Kombiniert Präzision und Recall, um ein Gesamtmaß für die Qualität eines Modells zu erhalten. Es handelt sich um das harmonisch Mittel aus Präzision und Recall, das beide Metriken gleichermaßen berücksichtigt.
Präzision:
Gibt an, wie oft das Modell richtig liegt, wenn es diesen Typ einer Textbox zuordnet.
Unsere Metriken zeigen, dass das Datenfeld „Bank Name„ vergleichsweise schwache Ergebnisse liefert. Offenbar hat die KI Schwierigkeiten, diesen Typ zuverlässig zu erkennen. Um das Modell zu verbessern, sollten wir daher die Trainingsdaten im Template Bank A prüfen und das Feld „Bank Name“ gezielt kontrollieren.
Aber schauen wir uns zunächst einmal die Gesamtleistung dieses Datenfeldes an.

Aggregierte Metriken
Dazu klicken wir auf die Schaltfläche „Siehe Aggregierte Detaillierte Metriken”.
Hier sehen wir, dass die Gesamtleistung des Feldes „Bank Name” mit nur 65 % ebenfalls sehr niedrig ist.
Wenn wir nach unten scrollen, finden wir die häufigsten Fehler, die uns zeigen, welche Datenfelder am häufigsten verwechselt wurden. Um detailliertere Informationen zu erhalten, können wir die Konfusionsmatrix ansehen.
Konfusionsmatrix
Die Konfusionsmatrix zeigt die Leistung des Modells, indem sie die vorhergesagten Ergebnisse mit den tatsächlichen Ergebnissen vergleicht.
Bei genauerer Betrachtung des Feldes „Bank Name“ fällt auf, dass die KI offenbar Probleme hat, es von dem Feld „Nichts“ zu unterscheiden.
Nur 65% der Felder “Bank Name” werden als solches erkannt.
KI-Modell verbessern
Zur Verbesserung der Genauigkeit können wir die Trainingsdaten des betreffenden Templates analysieren, die Datenfelder mit schwachen Ergebnissen prüfen und bei Bedarf zusätzliche Trainingsdaten hinzufügen.
Um Ihre Trainingsdaten zu überprüfen, gehen Sie zum Reiter „Trainingsdaten“ und wählen Sie „Daten überprüfen“ im Template „Bank A“.
Gehen Sie die Dokumente durch und überprüfen Sie die Annotationen für das Feld „Bank Name“. Wenn dieses Feld falsch markiert ist, klicken Sie darauf und weisen Sie die richtigen Textfelder zu. Speichern Sie Ihre Änderungen und wiederholen Sie den Vorgang für alle Dokumente.
Wenn die Felder durchgehend korrekt sind, sollten Sie zusätzliche Trainingsdaten hochladen, um der KI mehr Beispiele zu liefern.
Sobald Sie alles überprüft haben, können Sie ein neues Training starten. Danach sollte sich die Performance des Modells verbessern. Wiederholen Sie diesen Prozess bei Bedarf, bis Ihr Modell die gewünschte Genauigkeit erreicht.
Jetzt sind Sie dran!
Überprüfen Sie Ihre Trainingsergebnisse, optimieren Sie Ihr Modell und wenden Sie sich bei Bedarf an unsere KI-Experten. Durch sorgfältige Analyse und wiederholte Verbesserungen kann Ihre individuelle Extraktion ihr volles Potenzial entfalten.