Wer die Daten nicht ehrt, ist der KI nicht wert

Autor*in

Thani Shamsi

Seite 1 / 2

Gastbeitrag von Thani Shamsi, Gründer und CEO von der Berliner Softwarefirma Datarade.

Technologie verändert unser Leben und unsere Gesellschaft in rasantem Tempo. Künstliche Intelligenz (KI) steht im Mittelpunkt dieses Wandels. In der Vergangenheit standen vor allem neue (generative) KI-Modelle wie Large Language Models (LLM) und die generelle Verbesserung von Algorithmen im Vordergrund – ChatGPT als prominentestes Beispiel. Was in der Diskussion jedoch häufig außer Acht gelassen wird, ist die essenzielle Zutat für KI: Zugang zu umfangreichen, hochwertigen, und rechtssicheren Daten.

Daten sind die Grundlage für die KI-Entwicklung

ChatGPT wäre höchstens ein spannendes wissenschaftliches Projekt, hätte OpenAI nicht Zugriff zu einem riesigen Korpus an öffentlich zugänglichen Trainingsdaten (das Internet) sowie exklusive Datenlizenzverträge mit Firmen wie Axel Springer, Reddit, oder Shutterstock. Erst das Training und Finetuning von KI-Modellen mit diesen öffentlichen und proprietären Daten schafft tatsächlichen Mehrwert. Nicht ohne Grund veröffentlichen viele Tech-Giganten KI-Modelle (z.B. Google TensorFlow oder Meta Llama) als Open Source – ohne zusätzlichen Zugang zu proprietären Trainingsdaten sind diese nicht wirklich differenziert. Auch in Deutschland ist der Diskussionsschwenk von KI-Modellen hin zu Datenzugang angekommen: Mit der Gründung des DataHub Europe haben die Deutsche Bahn und Schwarz Digits erkannt, das der Zugang und sichere Austausch von Daten unabdingbar für erfolgreiche KI-Entwicklung ist. Selbst Aleph Alpha, einer der ersten Kunden vom DataHub Europe, wendet sich von der Entwicklung von eigenen Sprachmodellen ab und fokussiert sich mit PhariaAI auf das gesamte Zusammenspiel von Modellen, Daten, Infrastruktur und Compliance.

Proprietäre Daten bilden den Kern

Wenn Unternehmen KI anwenden wollen, sollten vor allem die internen und „proprietären“ Daten im Vordergrund stehen. Proprietäre Daten sind für jedes Unternehmen einzigartig und exklusiv, wie z.B. Verkaufsdaten, Produktionsdaten, Finanzdaten, Prozessdaten, oder Transaktionsdaten. Diese Daten kann man zum Training von Machine Learning (ML) Modellen oder Finetuning von LLMs nutzen, um schneller geschäftskritische Erkenntnisse zu erlangen und bessere Voraussagen der Geschäftsentwicklung zu treffen. KI kann mit proprietären Daten den „mikro-ökonomischen“ Kontext herstellen.

Ein weiterer Vorteil in der intensiven Nutzung von internen Daten liegt in der totalen Kontrolle: Interne Daten können sehr viel einfacher auf Qualität und Rechtssicherheit geprüft werden als externe Daten. Auch im Falle von der Nutzung von personenbezogenen Daten für KI-Training müssen Unternehmen in Bezug auf Datenschutz sicherstellen, das valide Einwilligungserklärungen zur Verarbeitung im Einklang mit der DSGVO von den Kunden und Nutzern vorliegen. Extrem wichtig ist immer die Klärung von geistigem Eigentum: Sind die internen verfügbaren Daten unser geistiges Eigentum? Oder sind sie das geistige Eigentum unserer Kunden oder Partner? Im letzteren Fall muss in Verträgen und Nutzungsbedingungen eindeutig sichergestellt werden, dass diese Daten zum Training von KI-Modellen genutzt werden dürfen.

Daten von Geschäftspartnern sind essenziell

Nach den internen Daten sind die Daten von Geschäftspartnern wie Großabnehmern, Zulieferern oder Dienstleistern von großer Bedeutung für die Anwendung und das Training von KI-Modellen.

Für Konsumgüterkonzerne wie z.B. Henkel, Unilever, oder Proctor & Gamble ist es geschäftskritisch für die Unternehmenssteuerung, dass sie zeitnah und regelmäßig Zugang zu detaillierten Abverkaufszahlen ihrer Großabnehmer wie z.B. einem Walmart oder einer Schwarz Gruppe kommen. Je kleiner der Zeitverzug zwischen dem Entstehen und Austausch von Daten zwischen zwei Geschäftspartnern, desto besser können KI-Modelle tagesgenau angepasste Vorhersagen treffen und Geschäftsentscheidungen beeinflussen.

Daten von Zulieferern können z.B. für das Training von KI-Modellen genutzt werden, die bessere Voraussagen zur Sicherung der Lieferkette treffen können. Wenn ein KI-Modell kontinuierlich mit Produktionsdaten aller Zulieferer gefüttert wird, kann man frühzeitig Produktionsengpässe erkennen und ein Lieferketten-Frühwarnsystem erzeugen.

Der Austausch von Daten zwischen zwei Geschäftspartnern muss immer mit klaren Absprachen und Verträgen zur Nutzung für KI einhergehen: Schon heute sind diese Datenaustausch-Szenarios lange Realität, aber ist vertraglich auch eine Nutzung zum Training für KI vereinbart? Falls personenbezogene Daten ausgetauscht werden, muss eine klare Dokumentation für die eindeutige Einwilligung von Datensubjekten zur Nutzung der Daten für das KI-Training von Partnern.

Seite 1 / 2

Nächste Seite