Daten jeglicher Herkunft und Art erhalten im heutigen Zeitalter der Digitalisierung eine immer wichtiger werdende Bedeutung. Dabei haben die meisten Daten an sich noch keinen wirklichen Nutzen. Erst das Sammeln, Sortieren, Aufbereiten, Strukturieren und gegebenenfalls das Labeln der Daten bringt den erhofften Mehrwert. Angesichts der zunehmenden Bedeutung von KI-Verfahren spielen Daten zunehmend eine zentrale Rolle in Unternehmen. Während noch vor 50 Jahren Daten als Ergebnis von Prozessen anfielen und unterstützend eingesetzt wurden, sind Daten heute zugleich wertvolle Ressourcen als auch ein eigenes Produkt (Social Networks, Metadaten, etc.).
Beim Analysieren bzw. beim Auswerten von Datensätzen kommt es immer wieder vor, dass einzelne Datenpunkte oder sogar ganze Datengruppen außerhalb eines erwarteten Musters liegen. Die Gründe dafür sind Anomalien, Ausreißer und Trends. Eine separate Betrachtung der drei Abweichungen ist in den meisten Fällen sinnvoll, da die Ursachen für das Auftreten der drei Abweichungen unterschiedliche sind und auch unterschiedliche Schlussfolgerungen daraus abgeleitet werden können.
Ausreißer
Zu der Gruppe der Ausreißer gehören Daten, die sich deutlich vom Rest der Daten im Datensatz unterscheiden. Entstehen können diese Ausreißer aufgrund eines menschlichen oder mechanischen Fehlers bei der Datensammlung (bspw. eine Unterbrechung im Datentransport) oder durch natürliche Werte, die einfach extrem hoch bzw. sehr niedrig sind, jedoch deren Auftreten nur sehr unwahrscheinlich ist (bspw. Ein Wert bei einer Normalverteilung liegt außerhalb von 6 Sigma ≈ 0,00034%).
Die Berechnung statistischer Kennzahlen, als auch das Training von Machine Learning Algorithmen, reagieren sehr empfindlich auf Ausreißer, gerade wenn der Datensatz nicht sehr groß ist. Jedoch müssen Ausreißer nicht zwangsläufig zu großen Problemen führen. Daher ist es in der Vorverarbeitung der Daten wichtig zu definieren, wie mit Ausreißern umzugehen ist.
Trend
Eine mögliche Erscheinung bei der Betrachtung von Daten aus Zeitreihen ist der Trend. Trend bezeichnet die Veränderung von Daten über einen langfristigen Zeitraum, der unabhängig von Schwankungen eine Richtung beibehält. Ein Trendverhalten kann gezielt gesteuert werden (bspw. Die Produktnachfrage nach dem Schalten von Werbung), kann sich unbewusst Einschleichen (z.B. durch Verschleißerscheinungen in der Produktion) oder kann zur Vorhersage herangezogen werden.
Anomalie
Im Gegensatz zu den Ausreißern und dem Trend ist eine Anomalie eine unerwartete Änderung oder Abweichung von einem erwarteten Muster in einem Datensatz. Oftmals werden Ausreißer und Anomalie als Synonym verwendet. Sie sind sich ähnlich aber nicht identisch. Während Ausreißer eine geringe Eintrittswahrscheinlichkeit haben sind Anomalien nicht vorherzusehen und entsprechen oftmals nicht einer definierten Vorstellung. Oftmals deuten Anomalien darauf hin bzw. erwecken den Verdacht, dass sie durch einen anderen Mechanismus erzeugt wurden oder mit dem Rest des Datensatzes unvereinbar erscheinen.