vb@rchiv
VB Classic
VB.NET
ADO.NET
VBA
C#
SEPA-Dateien erstellen inkl. IBAN-, BLZ-/Kontonummernprüfung  
 vb@rchiv Quick-Search: Suche startenErweiterte Suche starten   RSS-Feeds  | Newsletter  | Impressum  | Datenschutz  | vb@rchiv CD Vol.6  | Shop Copyright ©2000-2018
 
zurück
Rubrik: Variablen/Strings · Array/ArrayList   |   VB-Versionen: VB201013.06.11
Datenreihe: Ausreißer aussondern

Eine Funktion zum Markieren unplausibler Werte-Ausprägungen in Datenreihen

Autor:   Manfred BohnBewertung:     [ Jetzt bewerten ]Views:  7.043 
ohne HomepageSystem:  Win2k, WinXP, Vista, Win7, Win8, Win10kein Beispielprojekt 

Datenreihen, die aufgrund von Fehlmessungen, Übertragungs- oder Eingabefehlern, einzelne Messdaten enthalten, deren Ausprägungen stark von der zentralen Tendenz in der Reihe abweichen, führen zu Fehlentscheidungen bei parametrischen statistischen Tests und verfälschen Verteilungs-Diagramme.

Zur Ermittlung von unplausiblen Extremwerten ("Ausreißern") in Datenreihen, gibt es diverse Verfahren (z.B. von Grubbs, von Dixon oder von Iglewicz & Hoaglin), denen bestimmte Modell- und Verteilungsannahmen zugrunde liegen.

Als Alternative zum Entdecken von unplausiblen Daten-Ausprägungen, bieten sich auch graphische Methoden der Daten-Inspektion an (z.B. Boxplot nach Tukey). Prinzipiell sollten Extremwerte nur ausgesondert werden, wenn sicher gestellt ist, dass sie NICHT die tatsächliche Eigenschaft des gemessenen Objekts ausdrücken. Falls möglich, sollte die Plausibilität einer Datenausprägung durch die sachlichen Gegebenheiten und Umstände der Messung beurteilt werden.

Das hier vorgeschlagene robust-pragmatische Verfahren beruht auf den Medianen der Daten-Abweichungen vom Median. Positive und negative Differenzen werden separat berücksichtigt.

Die Datenreihe wird als Double-Array übergeben, muss mindestens 12 Werte umfassen - und darf keine Double.NaN-Einträge enthalten. Als weiterer (optionaler) Parameter kann der Multiplikations-Faktor für die Abweichungsmediane gegeben werden, Zweckmäßig sind Werte zwischen 2 (enger Gültigkeitsbereich) und 4 (breiter Gültigkeitsbereich).

Im Ergebnis-Array sind ggf. die Extremwerte durch Double.Nan markiert.
Die weiteren optionalen Rückgabe-Parameter enthalten Angaben zu den verwendeten Grenzen der zulässigen Werte-Ausprägung und zur Anzahl der markierten Extremwerte.

''' <summary>Markierung stark vom Median abweichender Werte</summary>
''' <param name="values">Array mit zu prüfenden Werten</param>
''' <param name="Factor">Prüfkriterium: Faktor für Median der Medianabw.</param>
''' <param name="Counteru">Anzahl der markierten Werte: zu klein</param>
''' <param name="Countero">Anzahl markierter Werte: zu groß</param>
''' <param name="Limito">Obergrenze zulässiger Wertebereich</param>
''' <param name="Limitu">Untergrenze zulässiger Wertebereich</param>
''' <returns>Array mit markierten Ausreissern (Double.Nan) oder Nothing</returns>
Public Function RemoveOutliers(ByVal values() As Double, _
  Optional ByVal Factor As Double = 3.0#, _
  Optional ByRef Limitu As Double = 0.0#, _
  Optional ByRef Limito As Double = 0.0#, _
  Optional ByRef Counteru As Integer = 0, _
  Optional ByRef Countero As Integer = 0) As Double()
 
  Counteru = 0 : Countero = 0 : Limitu = 0 : Limito = 0
  If Factor < 1 Or values.Length < 12 Then Return Nothing
 
  ' Median der Datenreihe ermitteln
  Dim median As Double = Medianval(values)
  If Double.IsNaN(median) Then Return Nothing
 
  ' Berechnung der Abweichungen vom Median
  Dim diffu As New List(Of Double)
  Dim diffo As New List(Of Double), mz, cmp As Integer
  For i As Integer = 0 To values.Count - 1
    cmp = values(i).CompareTo(median)
    If cmp = 0 Then
      ' Medianwerte abwechselnd zuordnen
      mz += 1
      If mz Mod 2 = 0 Then cmp = -1 Else cmp = 1
    End If
 
    If cmp = 1 Then
      diffo.Add(values(i) - median)
    Else
      diffu.Add(median - values(i))
    End If
  Next i
 
  ' Ermittlung des Bereichs zulässiger Werte 
  Limitu = median - (Medianval(diffu.ToArray) * Factor)
  Limito = median + (Medianval(diffo.ToArray) * Factor)
 
  ' Extreme Abweichungen ermitteln und im Rückgabe-Array markieren
  Dim ivalues(values.Length - 1) As Double
  For i As Integer = 0 To values.Length - 1
    If values(i) < Limitu Then
      ivalues(i) = Double.NaN 'zu kleiner Wert: ungültig
      Counteru += 1
    ElseIf values(i) > Limito Then
      ivalues(i) = Double.NaN 'zu großer Wert: ungültig
      Countero += 1
    Else
      ivalues(i) = values(i) 'zulässiger Wert
    End If
  Next i
  Return ivalues
End Function
''' <summary>Bestimmung des Medians einer Datenreihe</summary>
''' <param name="values">Array (N>3) mit Datenreihe (ohne NaN)</param>
''' <returns>Median (oder NaN)</returns>
Public Function Medianval(ByVal values() As Double) As Double
  If values Is Nothing Then Return Double.NaN
  If values.Length < 4 Then Return Double.NaN
 
  ' Liste erstellen und sortieren
  Dim vlst As New List(Of Double)(values)
  vlst.Sort()
 
  ' NaN im Array enthalten?
  If Double.IsNaN(vlst(0)) Then Return Double.NaN
 
  ' Median berechnen
  If vlst.Count Mod 2 = 1 Then
    Return vlst(vlst.Count \ 2)
  Else
    Return (vlst(vlst.Count \ 2 - 1) + vlst(vlst.Count \ 2)) / 2D
  End If
End Function

Dieser Tipp wurde bereits 7.043 mal aufgerufen.

Voriger Tipp   |   Zufälliger Tipp   |   Nächster Tipp

Über diesen Tipp im Forum diskutieren
Haben Sie Fragen oder Anregungen zu diesem Tipp, können Sie gerne mit anderen darüber in unserem Forum diskutieren.

Neue Diskussion eröffnen

nach obenzurück


Anzeige

Kauftipp Unser Dauerbrenner!Diesen und auch alle anderen Tipps & Tricks finden Sie auch auf unserer aktuellen vb@rchiv  Vol.6

Ein absolutes Muss - Geballtes Wissen aus mehr als 8 Jahren vb@rchiv!
- nahezu alle Tipps & Tricks und Workshops mit Beispielprojekten
- Symbol-Galerie mit mehr als 3.200 Icons im modernen Look
Weitere Infos - 4 Entwickler-Vollversionen (u.a. sevFTP für .NET), Online-Update-Funktion u.v.m.
 
   

Druckansicht Druckansicht Copyright ©2000-2018 vb@rchiv Dieter Otter
Alle Rechte vorbehalten.
Microsoft, Windows und Visual Basic sind entweder eingetragene Marken oder Marken der Microsoft Corporation in den USA und/oder anderen Ländern. Weitere auf dieser Homepage aufgeführten Produkt- und Firmennamen können geschützte Marken ihrer jeweiligen Inhaber sein.

Diese Seiten wurden optimiert für eine Bildschirmauflösung von mind. 1280x1024 Pixel