Datenreihen, die aufgrund von Fehlmessungen, Übertragungs- oder Eingabefehlern, einzelne Messdaten enthalten, deren Ausprägungen stark von der zentralen Tendenz in der Reihe abweichen, führen zu Fehlentscheidungen bei parametrischen statistischen Tests und verfälschen Verteilungs-Diagramme. Zur Ermittlung von unplausiblen Extremwerten ("Ausreißern") in Datenreihen, gibt es diverse Verfahren (z.B. von Grubbs, von Dixon oder von Iglewicz & Hoaglin), denen bestimmte Modell- und Verteilungsannahmen zugrunde liegen. Als Alternative zum Entdecken von unplausiblen Daten-Ausprägungen, bieten sich auch graphische Methoden der Daten-Inspektion an (z.B. Boxplot nach Tukey). Prinzipiell sollten Extremwerte nur ausgesondert werden, wenn sicher gestellt ist, dass sie NICHT die tatsächliche Eigenschaft des gemessenen Objekts ausdrücken. Falls möglich, sollte die Plausibilität einer Datenausprägung durch die sachlichen Gegebenheiten und Umstände der Messung beurteilt werden. Das hier vorgeschlagene robust-pragmatische Verfahren beruht auf den Medianen der Daten-Abweichungen vom Median. Positive und negative Differenzen werden separat berücksichtigt. Die Datenreihe wird als Double-Array übergeben, muss mindestens 12 Werte umfassen - und darf keine Double.NaN-Einträge enthalten. Als weiterer (optionaler) Parameter kann der Multiplikations-Faktor für die Abweichungsmediane gegeben werden, Zweckmäßig sind Werte zwischen 2 (enger Gültigkeitsbereich) und 4 (breiter Gültigkeitsbereich). Im Ergebnis-Array sind ggf. die Extremwerte durch Double.Nan markiert. ''' <summary>Markierung stark vom Median abweichender Werte</summary> ''' <param name="values">Array mit zu prüfenden Werten</param> ''' <param name="Factor">Prüfkriterium: Faktor für Median der Medianabw.</param> ''' <param name="Counteru">Anzahl der markierten Werte: zu klein</param> ''' <param name="Countero">Anzahl markierter Werte: zu groß</param> ''' <param name="Limito">Obergrenze zulässiger Wertebereich</param> ''' <param name="Limitu">Untergrenze zulässiger Wertebereich</param> ''' <returns>Array mit markierten Ausreissern (Double.Nan) oder Nothing</returns> Public Function RemoveOutliers(ByVal values() As Double, _ Optional ByVal Factor As Double = 3.0#, _ Optional ByRef Limitu As Double = 0.0#, _ Optional ByRef Limito As Double = 0.0#, _ Optional ByRef Counteru As Integer = 0, _ Optional ByRef Countero As Integer = 0) As Double() Counteru = 0 : Countero = 0 : Limitu = 0 : Limito = 0 If Factor < 1 Or values.Length < 12 Then Return Nothing ' Median der Datenreihe ermitteln Dim median As Double = Medianval(values) If Double.IsNaN(median) Then Return Nothing ' Berechnung der Abweichungen vom Median Dim diffu As New List(Of Double) Dim diffo As New List(Of Double), mz, cmp As Integer For i As Integer = 0 To values.Count - 1 cmp = values(i).CompareTo(median) If cmp = 0 Then ' Medianwerte abwechselnd zuordnen mz += 1 If mz Mod 2 = 0 Then cmp = -1 Else cmp = 1 End If If cmp = 1 Then diffo.Add(values(i) - median) Else diffu.Add(median - values(i)) End If Next i ' Ermittlung des Bereichs zulässiger Werte Limitu = median - (Medianval(diffu.ToArray) * Factor) Limito = median + (Medianval(diffo.ToArray) * Factor) ' Extreme Abweichungen ermitteln und im Rückgabe-Array markieren Dim ivalues(values.Length - 1) As Double For i As Integer = 0 To values.Length - 1 If values(i) < Limitu Then ivalues(i) = Double.NaN 'zu kleiner Wert: ungültig Counteru += 1 ElseIf values(i) > Limito Then ivalues(i) = Double.NaN 'zu großer Wert: ungültig Countero += 1 Else ivalues(i) = values(i) 'zulässiger Wert End If Next i Return ivalues End Function ''' <summary>Bestimmung des Medians einer Datenreihe</summary> ''' <param name="values">Array (N>3) mit Datenreihe (ohne NaN)</param> ''' <returns>Median (oder NaN)</returns> Public Function Medianval(ByVal values() As Double) As Double If values Is Nothing Then Return Double.NaN If values.Length < 4 Then Return Double.NaN ' Liste erstellen und sortieren Dim vlst As New List(Of Double)(values) vlst.Sort() ' NaN im Array enthalten? If Double.IsNaN(vlst(0)) Then Return Double.NaN ' Median berechnen If vlst.Count Mod 2 = 1 Then Return vlst(vlst.Count \ 2) Else Return (vlst(vlst.Count \ 2 - 1) + vlst(vlst.Count \ 2)) / 2D End If End Function Dieser Tipp wurde bereits 9.978 mal aufgerufen.
Anzeige
![]() ![]() ![]() Ein absolutes Muss - Geballtes Wissen aus mehr als 8 Jahren vb@rchiv! - nahezu alle Tipps & Tricks und Workshops mit Beispielprojekten - Symbol-Galerie mit mehr als 3.200 Icons im modernen Look Weitere Infos - 4 Entwickler-Vollversionen (u.a. sevFTP für .NET), Online-Update-Funktion u.v.m. |
TOP! Unser Nr. 1 ![]() Neu! sevDataGrid 3.0 Mehrspaltige Listen, mit oder ohne DB-Anbindung. Autom. Sortierung, Editieren von Spalteninhalten oder das interaktive Hinzufügen von Datenzeilen sind ebenso möglich wie das Erstellen eines Web-Reports. Tipp des Monats ![]() Dieter Otter Beliebige Zeichen am Anfang und Ende eines Strings entfernen Mit der Trim-Funktion lassen sich nicht nur Leerzeichen, sondern bei Bedarf auch beliebige Zeichen entfernen. Access-Tools Vol.1 ![]() Über 400 MByte Inhalt Mehr als 250 Access-Beispiele, 25 Add-Ins und ActiveX-Komponenten, 16 VB-Projekt inkl. Source, mehr als 320 Tipps & Tricks für Access und VB |
||||||||||||||||
Microsoft, Windows und Visual Basic sind entweder eingetragene Marken oder Marken der Microsoft Corporation in den USA und/oder anderen Ländern. Weitere auf dieser Homepage aufgeführten Produkt- und Firmennamen können geschützte Marken ihrer jeweiligen Inhaber sein. |