Datenreihen, die aufgrund von Fehlmessungen, Übertragungs- oder Eingabefehlern, einzelne Messdaten enthalten, deren Ausprägungen stark von der zentralen Tendenz in der Reihe abweichen, führen zu Fehlentscheidungen bei parametrischen statistischen Tests und verfälschen Verteilungs-Diagramme. Zur Ermittlung von unplausiblen Extremwerten ("Ausreißern") in Datenreihen, gibt es diverse Verfahren (z.B. von Grubbs, von Dixon oder von Iglewicz & Hoaglin), denen bestimmte Modell- und Verteilungsannahmen zugrunde liegen. Als Alternative zum Entdecken von unplausiblen Daten-Ausprägungen, bieten sich auch graphische Methoden der Daten-Inspektion an (z.B. Boxplot nach Tukey). Prinzipiell sollten Extremwerte nur ausgesondert werden, wenn sicher gestellt ist, dass sie NICHT die tatsächliche Eigenschaft des gemessenen Objekts ausdrücken. Falls möglich, sollte die Plausibilität einer Datenausprägung durch die sachlichen Gegebenheiten und Umstände der Messung beurteilt werden. Das hier vorgeschlagene robust-pragmatische Verfahren beruht auf den Medianen der Daten-Abweichungen vom Median. Positive und negative Differenzen werden separat berücksichtigt. Die Datenreihe wird als Double-Array übergeben, muss mindestens 12 Werte umfassen - und darf keine Double.NaN-Einträge enthalten. Als weiterer (optionaler) Parameter kann der Multiplikations-Faktor für die Abweichungsmediane gegeben werden, Zweckmäßig sind Werte zwischen 2 (enger Gültigkeitsbereich) und 4 (breiter Gültigkeitsbereich). Im Ergebnis-Array sind ggf. die Extremwerte durch Double.Nan markiert. ''' <summary>Markierung stark vom Median abweichender Werte</summary> ''' <param name="values">Array mit zu prüfenden Werten</param> ''' <param name="Factor">Prüfkriterium: Faktor für Median der Medianabw.</param> ''' <param name="Counteru">Anzahl der markierten Werte: zu klein</param> ''' <param name="Countero">Anzahl markierter Werte: zu groß</param> ''' <param name="Limito">Obergrenze zulässiger Wertebereich</param> ''' <param name="Limitu">Untergrenze zulässiger Wertebereich</param> ''' <returns>Array mit markierten Ausreissern (Double.Nan) oder Nothing</returns> Public Function RemoveOutliers(ByVal values() As Double, _ Optional ByVal Factor As Double = 3.0#, _ Optional ByRef Limitu As Double = 0.0#, _ Optional ByRef Limito As Double = 0.0#, _ Optional ByRef Counteru As Integer = 0, _ Optional ByRef Countero As Integer = 0) As Double() Counteru = 0 : Countero = 0 : Limitu = 0 : Limito = 0 If Factor < 1 Or values.Length < 12 Then Return Nothing ' Median der Datenreihe ermitteln Dim median As Double = Medianval(values) If Double.IsNaN(median) Then Return Nothing ' Berechnung der Abweichungen vom Median Dim diffu As New List(Of Double) Dim diffo As New List(Of Double), mz, cmp As Integer For i As Integer = 0 To values.Count - 1 cmp = values(i).CompareTo(median) If cmp = 0 Then ' Medianwerte abwechselnd zuordnen mz += 1 If mz Mod 2 = 0 Then cmp = -1 Else cmp = 1 End If If cmp = 1 Then diffo.Add(values(i) - median) Else diffu.Add(median - values(i)) End If Next i ' Ermittlung des Bereichs zulässiger Werte Limitu = median - (Medianval(diffu.ToArray) * Factor) Limito = median + (Medianval(diffo.ToArray) * Factor) ' Extreme Abweichungen ermitteln und im Rückgabe-Array markieren Dim ivalues(values.Length - 1) As Double For i As Integer = 0 To values.Length - 1 If values(i) < Limitu Then ivalues(i) = Double.NaN 'zu kleiner Wert: ungültig Counteru += 1 ElseIf values(i) > Limito Then ivalues(i) = Double.NaN 'zu großer Wert: ungültig Countero += 1 Else ivalues(i) = values(i) 'zulässiger Wert End If Next i Return ivalues End Function ''' <summary>Bestimmung des Medians einer Datenreihe</summary> ''' <param name="values">Array (N>3) mit Datenreihe (ohne NaN)</param> ''' <returns>Median (oder NaN)</returns> Public Function Medianval(ByVal values() As Double) As Double If values Is Nothing Then Return Double.NaN If values.Length < 4 Then Return Double.NaN ' Liste erstellen und sortieren Dim vlst As New List(Of Double)(values) vlst.Sort() ' NaN im Array enthalten? If Double.IsNaN(vlst(0)) Then Return Double.NaN ' Median berechnen If vlst.Count Mod 2 = 1 Then Return vlst(vlst.Count \ 2) Else Return (vlst(vlst.Count \ 2 - 1) + vlst(vlst.Count \ 2)) / 2D End If End Function Dieser Tipp wurde bereits 10.321 mal aufgerufen.
Anzeige
![]() ![]() ![]() Ein absolutes Muss - Geballtes Wissen aus mehr als 8 Jahren vb@rchiv! - nahezu alle Tipps & Tricks und Workshops mit Beispielprojekten - Symbol-Galerie mit mehr als 3.200 Icons im modernen Look Weitere Infos - 4 Entwickler-Vollversionen (u.a. sevFTP für .NET), Online-Update-Funktion u.v.m. |
sevISDN 1.0 ![]() Überwachung aller eingehender Anrufe! Die DLL erkennt alle über die CAPI-Schnittstelle eingehenden Anrufe und teilt Ihnen sogar mit, aus welchem Ortsbereich der Anruf stammt. Weitere Highlights: Online-Rufident, Erkennung der Anrufbehandlung u.v.m. Tipp des Monats ![]() Manfred Bohn IndexOf für mehrdimensionale Arrays Die generische Funktion "IndexOf" ermittelt das erste Auftreten eines bestimmten Wertes in einem n-dimensionalen Array Neu! sevEingabe 3.0 ![]() Einfach stark! Ein einziges Eingabe-Control für alle benötigten Eingabetypen und -formate, inkl. Kalender-, Taschenrechner und Floskelfunktion, mehrspaltige ComboBox mit DB-Anbindung, ImageComboBox u.v.m. |
||||||||||||||||
Microsoft, Windows und Visual Basic sind entweder eingetragene Marken oder Marken der Microsoft Corporation in den USA und/oder anderen Ländern. Weitere auf dieser Homepage aufgeführten Produkt- und Firmennamen können geschützte Marken ihrer jeweiligen Inhaber sein. |