Was ist mit unvollständigen Daten zu tun? Imputation für fehlende Werte in Zeitreihen

Veröffentlicht: Zuletzt aktualisiert:

Kategorie: Data Engineering, Produktnews

4 Min. Lesezeit

Imputation für fehlende Werte in Zeitreihen im Zusammenhang mit dem Internet der Dinge (IoT) liefern Sensoren kontinuierlich Zeitreihendaten, die jedoch Lücken aufweisen können – Lücken, die die Qualität und Aussagekraft einer Analyse gefährden. An dieser Stelle kommt die Datenimputation ins Spiel: Eine Methode, die fehlende Werte schätzt und die Zuverlässigkeit der aus unvollständigen Daten gewonnenen Erkenntnisse sicherstellt. Dieser Artikel befasst sich mit den Vorteilen und Möglichkeiten der Datenimputation und mit den Umständen, unter denen jede Methode auf verschiedene Arten fehlender Daten anwendbar ist.

Was ist Imputation?
Was ist Imputation?
Was ist Imputation?
Was ist Imputation?

Was ist Imputation? Eine Definition

Imputation ist ein statistisches Verfahren, das dazu verwendet wird, fehlende Werte sinnvoll zu ergänzen. Die Bandbreite möglicher Imputationsmethoden umfasst einfache statistische Algorithmen wie Mittelwert, Median oder Modus sowie ausgefeiltere Techniken wie die Mehrfachimputation durch verkettete Gleichungen (MICE) oder die Erwartungsmaximierung (EM)-Imputation. Am anderen Ende des Spektrums stehen komplexe neuronale Netze, die individuell für Datensätze trainiert und zur Imputation fehlender Werte verwendet werden.

Die Imputation von Zeitreihendaten stellt eine besondere Herausforderung dar. Da es immer eine Sequenz oder einen Zeitstempel gibt, ist es entscheidend, die zeitliche Struktur zu erhalten. Die Schätzung fehlender Werte zu einem beliebigen Zeitpunkt ohne Berücksichtigung der Sequenz oder des zeitlichen Kontextes würde die Analyse verzerren. Daher sind spezielle Imputationsmethoden erforderlich, um zeitliche Abhängigkeiten zu berücksichtigen und eine realistische Vervollständigung der Daten zu erreichen.

Imputation
Imputation
Imputation
Imputation

Was sind die Ursachen für fehlende Daten?

Das Ausbleiben von Daten von IoT-Sensoren kann das Ergebnis einer Reihe von Faktoren sein, darunter Verbindungsverluste, Netzwerkverzögerungen oder schwache Batterien. Ein Ausfall aufgrund einer leeren Batterie mag zwar frustrierend sein, ist aber oft erklärbar. In solchen Fällen können die Daten einfach zu einer Analyse hinzugefügt oder weggelassen werden. Die zugrunde liegenden Ursachen sind jedoch häufig komplexer und sporadisch. So können beispielsweise Datenlücken bei falsch kalibrierte Sensoren mit ungenauen Messbereichen erst in einem größeren Zusammenhang auffallen. In solchen Fällen ist eine gründliche Diagnose erforderlich, um die wahre Natur der Lücken und ihre Ursachen zu verstehen.

Die folgenden drei Arten von fehlenden Daten werden als Grundkategorien unterschieden:

Missing Completely at random (MCAR)

Im einfachsten Fall fehlen die Werte nach einem rein zufälligen Muster. Dies ist in der folgenden Abbildung links dargestellt. Es ist zu beobachten, dass es keinen Zusammenhang zwischen den fehlenden Werten und der Farbe gibt. Außerdem gibt es keine Korrelation zwischen dem Auftreten fehlender Werte und anderen Merkmalen. Die Werte fehlen völlig zufällig.

Missing at Random (MAR)

Wenn Werte nach dem MAR-Muster fehlen, bedeutet dies, dass das Fehlen von der Beobachtung anderer Merkmale abhängt. Wie im Beispiel dargestellt, kann dieses Muster in der Mitte beobachtet werden, wo Werte in Merkmal 1 konsequent fehlen, wenn Merkmal 2 einen roten Wert hat.

Missing Not at Random (MNAR)

Fehlende Werte nach dem MNAR-Schema treten nach unbeobachteten Mustern auf. Dies bedeutet, dass das Muster von den fehlenden Daten selbst bzw. von unbeobachteten Merkmalen abhängt. In der Abbildung wird dies auf der rechten Seite dargestellt. Hier fehlen Werte immer, wenn sie rot sind. Dies bedeutet, dass im beobachteten Datensatz rote Werte fehlen, obwohl es im gesamten Datensatz rote Werte gibt.

Insbesondere bei dieser Kategorie fehlender Werte ist es nicht ratsam, die fehlenden Werte zu ignorieren und sie Zeile für Zeile zu löschen. Stattdessen empfiehlt es sich, den Kontext der unvollständigen Daten zu untersuchen.

missing data
missing data
missing data
missing data

Was sind die Möglichkeiten der Imputation?

Eine umfassende Diagnose ist der erste Schritt im Prozess der sinnvollen Ergänzung fehlender Daten. Vor der Anwendung einer Imputationsmethode ist es von wesentlicher Bedeutung, ein Verständnis für die zugrunde liegenden Ursachen und Muster zu erlangen, die mit dem Auftreten von Datenlücken nach bestimmten Ereignissen verbunden sind. Eine systematische Untersuchung der Art dieser Datenlücken ermöglicht die Auswahl eines geeigneten Imputationsansatzes und die Ermittlung potenzieller Schwachstellen im System.

Die Anwendung bewährter Imputationsverfahren kann die Qualität der Daten verbessern, doch gibt es bei diesem Ansatz auch Grenzen. Wenn die Imputationsmethode für die Aufgabe nicht gut geeignet ist, kann sie Verzerrungen in die Daten einbringen. Modelle, die auf solchen „ergänzten“ Daten trainiert werden, können für Verzerrungen anfällig sein und zu verzerrten Ergebnissen führen. Daher ist es wichtig, die Imputationsmethode sorgfältig auszuwählen und ihre Übereinstimmung mit dem zugrunde liegenden Datenmuster zu bewerten.

Fazit

Die Imputation von Daten ist ein Prozess, der über das bloße Auffüllen von Lücken hinausgeht. Sie ist eine entscheidende Methode zur Verbesserung der Datenqualität. Durch gezielte Diagnostik und die Auswahl geeigneter Techniken ist es möglich, IoT-Daten zuverlässiger und aussagekräftiger zu machen. Dies verdeutlicht, dass die Imputation nicht nur ein Werkzeug zur Datenaufbereitung ist, sondern auch die Grundlage für verlässliche Erkenntnisse und verbesserte Entscheidungsfindung in datengesteuerten Prozessen.

Verwandte Artikel:

Influence of Imputation in Machine learning models

State of the art Imputation Methods

Taxonomy of Imputation Methods

  • NXP ithinx Embedded World
    NXP ithinx Embedded World

    Ein Jahr voller spanneder Innovationen: 2024 mit ithinx

  • data analytics
    data analytics

    Data-Analytics im IoT-Bereich

Lassen Sie uns über Ihr IoT Projekt sprechen!

Egal in welchem Stadium Ihrer Planungen Sie sich befinden – wir sind Ihr Ansprechpartner. Unsere Experten finden gemeinsam mit Ihnen die richtige Lösung für Ihre Herausforderung.

Bitte aktiviere JavaScript in deinem Browser, um dieses Formular fertigzustellen.