Was bedeutet Datenqualität im KI-Kontext?
Was meint Datenqualität hinsichtlich KI und wirksamer KI-Tools? Und wie kreieren mittelständische Unternehmen in Zukunft Datenqualität für künstliche Intelligenz?

Künstliche Intelligenz basiert auf guter Datengrundlage – an genau diesem Punkt kommt Datenqualität ins Spiel. Dabei bedeuten grosse Datenmengen nicht zwangsläufig, dass diese für einen KI-Anwendungsfall geeignet sind.
Wesentliche Erfolgsparameter
Wirkliche Prominenz erlangte KI insbesondere durch erstaunliche Ergebnisse sogenannter Large Language Models wie ChatGPT. Solche Erfolgsgeschichten lassen viele Unternehmer in dem Glauben, gewinnbringende Large Language Models, kurz LLMs, seien echte Selbstläufer. Tatsächlich funktionieren die heutigen LLMs in ihrer Domäne auch deshalb so gut, weil das Internet gigantische Datenmengen bereitstellt und Entwickler diese mittels Pre-Training effizient nutzen. Die Kombination aus vorhandenen Daten und einem Pre-Training ist jedoch nicht in allen Bereichen durchsetzbar. Letzteres erfordert vor allem eine horrende Menge Content in Textform.
Mittelständler, die perspektivisch eigene KI-Use-Cases entwickeln und umsetzen möchten, kommen nicht umhin, sich mit dem Thema Datenqualität auseinanderzusetzen. Sie entscheidet in letzter Instanz über das Gelingen eines KI-Projekts, definiert die Datenmengen und den Nutzwert der Ergebnisse. Es gilt das Garbage-in-garbage-out-Prinzip: Taugen die Daten nichts, erzielt auch das beste Machine Learning Model keine zufriedenstellenden Resultate.
Was meint Datenqualität?
Welche Anforderungen müssen qualitativ hochwertige Datensätze erfüllen? Einige Datenqualitätskriterien sind recht einfach nachzuvollziehen und zu prüfen, darunter die Datenvollständigkeit. Fehlen in den einzelnen Trainingsbeispielen nur wenige Einträge, beugt das grösseren, zusammenhängenden Lücken vor. Kleine Leerstellen schliessen Experten, indem sie einzelne Werte durch den Mittelwert ersetzen. Grössere Auslassungen im Datensatz hingegen erschweren dieses Vorgehen.
Darüber hinaus sollten Daten wenige Outlier enthalten. Outlier meint Datenpunkte, also Trainingsbeispiele, die sich in einem oder mehreren Werten in ihrem Wesen vollkommen von den anderen Datenpunkten unterscheiden. In Summe bringen sie das Machine Learning Model von der eigentlichen Verteilung ab. Outlier entstehen unter anderem durch Fehler beim Sammeln oder Erstellen von Daten, beispielsweise durch Vertipper oder Zahlendreher, und können maschinell erkannt und behandelt werden.
Daten und Use Case ergeben ein Match
Der entscheidende Punkt in Sachen Datenqualität lautet: Die Daten sollten möglichst gut zum Use Case passen. Dazu machen Unternehmen einen Anwendungsfall für bestehende Daten ausfindig – was sich nicht selten als Herausforderung erweist – oder entwerfen einen Datensatz, der zu einem vorhandenen Use Case passt. Letzteres ist mit hohem Aufwand verbunden. Der Mittelweg ergänzt bestehende Daten um für einen bestimmten Use Case zusätzlich erstellte Daten und kristallisiert sich als bewährte Herangehensweise für mittelständische Unternehmen heraus.
Trainingsdatensätze dienen dazu, die Welt möglichst realistisch abzubilden. Der immensen Datenvielfalt geschuldet, erfüllt nur eine Minderheit der KI-Anwendungsfälle das Ziel. Enthält der Trainingsdatensatz viele Beispiele, die im echten Einsatz potenziell vorkommen, unterstützt dieser Faktor das Training enorm. Auf diese Weise gelingt es, unterschiedliche Parameter des Modells so einzustellen, dass es eine hinreichende Performance erlangt. Ein anschauliches Beispiel: Damit ein KI-Tool Hunderassen anhand von Bildern klassifiziert, muss dem Trainingsdatensatz umfangreiches Bildmaterial jeder Hunderasse vorliegen.
Optimale Datenbasis für KI
Das Geheimnis guter Datenqualität liegt darin, Daten und Use Case in Einklang zu bringen. Entweder ergeben ein entdeckter Anwendungsfall und vorhandene Daten ein Match oder Unternehmen entwickeln passende Datensätze für einen gefunden Use Case. So reibungslos wie dargestellt, funktioniert es in der Praxis selten von Beginn an. Doch es existieren Methoden, die darin unterstützen, das Beste aus einem Datensatz herauszukitzeln. Experten fügen Trainingsbeispiele manuell hinzu, wenn es von deren Typ bislang wenige gibt. In der Umsetzung heisst das: Entwickler denken sich ein fiktives, aber realistisches Trainingsbeispiel mit all seinen Werten aus.
Über Brandmauer AI Solutions
Die Brandmauer AI Solutions ist eine von Jan Bentz gegründete KI-Beratungsfirma. Der Wirtschaftsinformatiker, mit einem Master im Schwerpunkt Machine Learning sowie einem Master in Management, erkannte bereits im Laufe seines Studiums den Mangel an KI-Angeboten für mittelständische Unternehmen. Im Frühjahr 2024 stieg er in diesen Bereich ein. Unter dem Schirm der Brandmauer-Familie betreut er Bestands- und Neukunden rund um die strategische Nutzung Künstlicher Intelligenz. Hierbei setzt er bei der Analyse der Datenlage an und entwickelt in enger Zusammenarbeit mit Entscheidern Konzepte für deren Nutzung.