KI und Datenschutz - Was muss ich beachten?

Technologien aus der Künstlichen Intelligenz (KI) und der automatisierten Dokumentenverarbeitung sind zu einem integralen Bestandteil der modernen Geschäftswelt geworden. Kombiniert ermöglichen sie automatisierte Abläufe, von denen man vor kurzer Zeit nur träumen konnte. Wie jede andere Technologie auch, birgt jedoch auch KI potenzielle Risiken und Gefahren. Insbesondere in Bezug auf den Datenschutz werden vermehrt Bedenken geäußert. Um dem zu begegnen und auch KI sorgenfrei nutzen zu können, werden wir in diesem Blogartikel den Datenschutz im Hinblick auf KI einmal genauer betrachten.

Wie arbeitet eine KI?

KI-Systeme sind in sehr hohem Maße auf Daten angewiesen. Diese werden von den Algorithmen benötigt, um zu lernen, Entscheidungen zu treffen und zusätzliche Erkenntnisse zu gewinnen. Dabei muss man wissen, dass die verarbeiteten Daten nicht einfach in einer großen Datenbank gesammelt werden, das wäre in der Tat innerhalb kürzester Zeit ein Datenschutz-Inferno. Stattdessen werden die Daten statistisch ausgewertet und die KI lernt aus der Kombination der Daten: Reihenfolge, Häufigkeit, Position im Dokument und weitere Faktoren werden analysiert und bewertet.
In der intelligenten Dokumentenverarbeitung bedeutet dies, dass Modelle durch die Verarbeitung neuer Dokumente lernen, diese zukünftig besser zu klassifizieren und Daten daraus zu extrahieren. Solche Daten können personenbezogene Informationen wie z.B. Namen, Adressen oder finanzielle Daten von Kunden enthalten, aber auch vertrauliche Informationen zwischen Unternehmen im B2B Kontext oder einfach sonstige Texte.

KI und Datenschutz allgemein

Wird eine KI nun trainiert oder im laufenden Betrieb durch stetiges Lernen verbessert, so werden mit hoher Wahrscheinlichkeit auch personenbezogene Daten verarbeitet. Bereits die Nennung einer Ansprechpartner*in auf Rechnungen, die Personalnummer auf Reisekostenabrechnungen oder das KFZ-Kennzeichen auf einem Tankbeleg sind personenbezogene Daten. Werden diese personenbezogenen Daten in der EU bzw. dem EWR verarbeitet, so gilt die Datenschutz-Grundverordnung (DSGVO). Sie gilt ebenfalls, wenn die Daten in einem sogenannten Drittstaat (also außerhalb EU/EWR) verarbeitet werden, dies aber als Dienstleistung für EU-Bürger*innen erbracht wird oder sich die Dienstleistungsempfänger*innen einfach in EU oder EWR aufhalten.

Insbesondere der letzte Fall (Verarbeitung in einem Drittstaat) ist anspruchsvoll, da das EU-Recht in diesem Drittstaat nur schwer durchgesetzt werden kann. Daher schreibt die DSGVO für solche Fälle spezielle Verträge vor, die im Wortlaut von der EU-Kommission vorgegeben sind und nicht geändert werden dürfen, die sogenannten Standardvertragsklauseln (Standard Contractual Clauses, SCC).

Zurück zur KI: Werden personenbezogene Daten für das Training einer KI genutzt oder einfach nur von einer KI verarbeitet, müssen Unternehmen in der EU die DSGVO einhalten und auch ihre Dienstleister so auswählen, dass diese dies ebenfalls tun.

Dies ist einer der Gründe, warum beispielsweise in Bezug auf den KI-Chatbot ChatGPT aktuell so eine große Diskussion in Medien und Fachkreisen geführt wird.

Ohne zu sehr ins Detail gehen zu wollen: Der Betreiber von ChatGPT, das Unternehmen OpenAI sitzt in den USA und damit in einem Drittstaat. Im Jahr 2020 wurde vom Europäischen Gerichtshof (EuGH) ein Abkommen zwischen der EU und den USA für ungültig erklärt, welches den Austausch personenbezogener Daten zwischen diesen beiden Rechtsräumen geregelt hatte. Seitdem sind die USA als „normaler“ Drittstaat zu behandeln und damit die Hürden für Verarbeitungen personenbezogener Daten enorm gestiegen. Einer der Gründe für diese Entscheidung des EuGH war, dass die Zugriffsmöglichkeiten für US-Geheimdienste nahezu unkontrollierbar waren (und aktuell noch sind). Gleichzeitig gab es für die betroffenen Personen keinerlei Möglichkeiten, die aus der DSGVO resultierenden Rechte oder irgendeine Art von Rechtsschutz in Bezug auf ihre Daten wahrzunehmen.

Training von KIs und die Rechtsgrundlage

Aber auch, wenn die Verarbeitung in der EU erfolgt, wird für das Training einer KI unter Nutzung personenbezogener Daten eine Rechtsgrundlage benötigt. Sind die Nutzer*innen auch die Auftraggeber*innen, lässt sich dies vertraglich regeln. Ist aber der Auftraggeber der Arbeitgeber der Nutzer*innen, haben wir einen klassischen Fall von Auftragsverarbeitung, sofern in den verarbeiteten Daten personenbezogene Daten enthalten sind. Dies lässt sich in den meisten Fällen nicht ausschließen und bei der Verarbeitung von Dokumenten muss man sogar davon ausgehen, dass personenbezogene Daten verarbeitet werden. Es wird also ein Vertrag zur Auftragsverarbeitung gem. Art. 28 DSGVO benötigt.

Nun darf ein Auftragsverarbeiter die ihm zur Verfügung gestellten Daten nicht einfach für eigene Zwecke nutzen. Genau dies stellt aber das Training einer KI dar: Einen eigenen Verarbeitungszweck des Betreibers der KI.

Datenschutz bei natif.ai

Bei natif.ai findet die gesamte Datenverarbeitung in der EU statt und unterliegt den hohen Standards der DSGVO. Es werden keine Daten in unsichere Rechtsräume übertragen, auch nicht in die USA. Die gesamte bei natif.ai eingesetzte Technik steht nicht nur in der EU, sondern in Deutschland.
Selbstverständlich schließt natif.ai mit ihren Kunden eine Vereinbarung zur Auftragsverarbeitung, so wie es die DSGVO vorsieht.

Verarbeitung mit bestehenden KI-Modellen
Wenn bestehende Modelle verarbeitet werden, bewahrt natif.ai das Dokument zusammen mit allen verarbeiteten Parametern 14 Tage lang auf.
Nach 14 Tagen werden alle Daten gelöscht. Das Löschen der Daten kann aber auch jederzeit über die API veranlasst werden (alle Informationen dazu finden Sie hier).
Sollten die Dokumente für das Verbessern der von dem Kunden genutzten bestehenden Modelle im Sinne des Kunden sinnvoll sein, werden Trainingsdaten über die Vertragslaufzeit gespeichert, um das Modell entsprechend zu verbessern. Wird der Vertrag gekündigt, werden auch die Daten gelöscht.

Verarbeitung mit selbst trainierten Modellen
Bei selbst trainierten Modellen mit den eigenen Dokumenten behält natif.ai die Daten so lange wie die Vertragsbeziehung besteht oder aber der Kunde sein individuelles Modell löscht – dies dient der Sicherstellung der einwandfreien Nutzung des Modells. Sobald das Kundenkonto oder das Annotationsprojekt (welches die Basis des Modells bildet) gelöscht werden, werden auch automatisch alle damit verbundenen Daten gelöscht.

Alle Vorteile im Überblick

Vorteil Nr. 1:
Die gesamte Verarbeitung findet in der EU statt und unterliegt den hohen Standards der DSGVO. Es werden keine Daten in unsichere Rechtsräume übertragen, auch nicht in die USA.

Vorteil Nr. 2:
Selbstverständlich schließt natif.ai mit ihren Kunden eine Vereinbarung zur Auftragsverarbeitung, so wie es die DSGVO vorsieht.

Vorteil Nr. 3:
Der Kunde hat die Datenhoheit. Die Kundendaten werden nur in dem Zeitraum für das Training genutzt, in dem die Kundenbeziehung steht. Die Produktivdaten werden maximal 14 Tage gespeichert. Das Löschen der Daten kann jederzeit von dem Kunden über die API veranlasst werden.

Damit erfüllt natif.ai die hohen Anforderungen der DSGVO und bietet ihren Kunden eine Dienstleistung unter Einsatz modernster KI.

Diese KI lernt kundenspezifisch dazu, so dass alle Vorteile einer lernenden KI genutzt werden können. Gleichzeitig ist die Nutzung der Daten für das kontinuierliche Lernen der KI unproblematisch, da die Daten vollständig im Auftrag des Kunden genutzt werden.

Dieser Artikel wurde gemeinsam mit unserem Datenschutzbeauftragten verfasst.