Rubrik: Variablen/Strings · Array/ArrayList | VB-Versionen: VB2010 | 13.06.11 |
Datenreihe: Ausreißer aussondern Eine Funktion zum Markieren unplausibler Werte-Ausprägungen in Datenreihen | ||
Autor: Manfred Bohn | Bewertung: | Views: 9.880 |
ohne Homepage | System: Win2k, WinXP, Win7, Win8, Win10, Win11 | kein Beispielprojekt |
Datenreihen, die aufgrund von Fehlmessungen, Übertragungs- oder Eingabefehlern, einzelne Messdaten enthalten, deren Ausprägungen stark von der zentralen Tendenz in der Reihe abweichen, führen zu Fehlentscheidungen bei parametrischen statistischen Tests und verfälschen Verteilungs-Diagramme.
Zur Ermittlung von unplausiblen Extremwerten ("Ausreißern") in Datenreihen, gibt es diverse Verfahren (z.B. von Grubbs, von Dixon oder von Iglewicz & Hoaglin), denen bestimmte Modell- und Verteilungsannahmen zugrunde liegen.
Als Alternative zum Entdecken von unplausiblen Daten-Ausprägungen, bieten sich auch graphische Methoden der Daten-Inspektion an (z.B. Boxplot nach Tukey). Prinzipiell sollten Extremwerte nur ausgesondert werden, wenn sicher gestellt ist, dass sie NICHT die tatsächliche Eigenschaft des gemessenen Objekts ausdrücken. Falls möglich, sollte die Plausibilität einer Datenausprägung durch die sachlichen Gegebenheiten und Umstände der Messung beurteilt werden.
Das hier vorgeschlagene robust-pragmatische Verfahren beruht auf den Medianen der Daten-Abweichungen vom Median. Positive und negative Differenzen werden separat berücksichtigt.
Die Datenreihe wird als Double-Array übergeben, muss mindestens 12 Werte umfassen - und darf keine Double.NaN-Einträge enthalten. Als weiterer (optionaler) Parameter kann der Multiplikations-Faktor für die Abweichungsmediane gegeben werden, Zweckmäßig sind Werte zwischen 2 (enger Gültigkeitsbereich) und 4 (breiter Gültigkeitsbereich).
Im Ergebnis-Array sind ggf. die Extremwerte durch Double.Nan markiert.
Die weiteren optionalen Rückgabe-Parameter enthalten Angaben zu den verwendeten Grenzen der zulässigen Werte-Ausprägung und zur Anzahl der markierten Extremwerte.
''' <summary>Markierung stark vom Median abweichender Werte</summary> ''' <param name="values">Array mit zu prüfenden Werten</param> ''' <param name="Factor">Prüfkriterium: Faktor für Median der Medianabw.</param> ''' <param name="Counteru">Anzahl der markierten Werte: zu klein</param> ''' <param name="Countero">Anzahl markierter Werte: zu groß</param> ''' <param name="Limito">Obergrenze zulässiger Wertebereich</param> ''' <param name="Limitu">Untergrenze zulässiger Wertebereich</param> ''' <returns>Array mit markierten Ausreissern (Double.Nan) oder Nothing</returns> Public Function RemoveOutliers(ByVal values() As Double, _ Optional ByVal Factor As Double = 3.0#, _ Optional ByRef Limitu As Double = 0.0#, _ Optional ByRef Limito As Double = 0.0#, _ Optional ByRef Counteru As Integer = 0, _ Optional ByRef Countero As Integer = 0) As Double() Counteru = 0 : Countero = 0 : Limitu = 0 : Limito = 0 If Factor < 1 Or values.Length < 12 Then Return Nothing ' Median der Datenreihe ermitteln Dim median As Double = Medianval(values) If Double.IsNaN(median) Then Return Nothing ' Berechnung der Abweichungen vom Median Dim diffu As New List(Of Double) Dim diffo As New List(Of Double), mz, cmp As Integer For i As Integer = 0 To values.Count - 1 cmp = values(i).CompareTo(median) If cmp = 0 Then ' Medianwerte abwechselnd zuordnen mz += 1 If mz Mod 2 = 0 Then cmp = -1 Else cmp = 1 End If If cmp = 1 Then diffo.Add(values(i) - median) Else diffu.Add(median - values(i)) End If Next i ' Ermittlung des Bereichs zulässiger Werte Limitu = median - (Medianval(diffu.ToArray) * Factor) Limito = median + (Medianval(diffo.ToArray) * Factor) ' Extreme Abweichungen ermitteln und im Rückgabe-Array markieren Dim ivalues(values.Length - 1) As Double For i As Integer = 0 To values.Length - 1 If values(i) < Limitu Then ivalues(i) = Double.NaN 'zu kleiner Wert: ungültig Counteru += 1 ElseIf values(i) > Limito Then ivalues(i) = Double.NaN 'zu großer Wert: ungültig Countero += 1 Else ivalues(i) = values(i) 'zulässiger Wert End If Next i Return ivalues End Function
''' <summary>Bestimmung des Medians einer Datenreihe</summary> ''' <param name="values">Array (N>3) mit Datenreihe (ohne NaN)</param> ''' <returns>Median (oder NaN)</returns> Public Function Medianval(ByVal values() As Double) As Double If values Is Nothing Then Return Double.NaN If values.Length < 4 Then Return Double.NaN ' Liste erstellen und sortieren Dim vlst As New List(Of Double)(values) vlst.Sort() ' NaN im Array enthalten? If Double.IsNaN(vlst(0)) Then Return Double.NaN ' Median berechnen If vlst.Count Mod 2 = 1 Then Return vlst(vlst.Count \ 2) Else Return (vlst(vlst.Count \ 2 - 1) + vlst(vlst.Count \ 2)) / 2D End If End Function