In Anomalie-Erkennung, ist die lokale Ausreißer Faktor ein Algorithmus von Markus M. Breunig, Hans-Peter Kriegel, Raymond T. Ng und Jörg Sander im Jahr 2000 vorgeschlagen, für die Suche nach anomalen Datenpunkte durch die Messung der lokalen Abweichung einer gegebenen Datenpunkt in Bezug auf seine Nachbarn.
LOF teilt einige Konzepte mit DBSCAN und Optik wie die Begriffe "Kernabstand" und "Erreichbarkeit Distanz", die für die lokale Dichteschätzung verwendet werden.
Grundgedanke
Wie der Titel angezeigt wird, wird der lokale Ausreißer Faktor auf einem Konzept einer lokalen Dichtegegebenen Lokalität von nächsten Nachbarn, deren Entfernung wird verwendet, um die Dichte zu schätzen gegebene Definition. Durch Vergleichen der lokalen Dichte eines Objekts zu den lokalen Dichten von seinen Nachbarn, kann man erkennen Regionen ähnlicher Dichte und Punkte, die eine wesentlich geringere Dichte als ihre Nachbarn. Diese gelten als Ausreißer.
Die lokale Dichte wird durch die typische Abstand, bei dem ein Punkt von seinen Nachbarn "erreicht" werden geschätzt. Die Definition von "Erreichbarkeit Distanz" in LOF verwendet wird, ist eine zusätzliche Maßnahme, um stabilere Ergebnisse im Cluster zu erzeugen.
Formal
Sei die Entfernung des Objekts zu dem k-ten nächsten Nachbarn. Beachten Sie, dass die Menge der k nächsten Nachbarn enthält alle Objekte in dieser Entfernung, die im Falle eines "binden" kann mehr als k Objekte. Wir bezeichnen die Menge der k nächsten Nachbarn wie.
Dieser Abstand wird verwendet, um zu definieren, was die Erreichbarkeit Distanz genannt:
In Worten, die Erreichbarkeit Entfernung eines Objekts von der wahre Abstand der beiden Objekte, aber zumindest die von. Objekte, die in die k gehören nächsten Nachbarn werden als gleich weit entfernt zu sein. Der Grund für diese Entfernung ist, um stabilere Ergebnisse zu erhalten. Man beachte, dass dies nicht ein Abstand in der mathematischen Definition, denn es ist nicht symmetrisch.
Der lokale Erreichbarkeitsdichte eines Objekts definiert ist durch
Das ist der Kehrwert der durchschnittlichen Erreichbarkeits Abstand des Gegenstandes von seinem Nachbarn. Man beachte, dass es nicht die durchschnittliche Erreichbarkeit der Nachbarn aus, aber der Abstand, in dem er von seinen Nachbarn "erreicht" werden kann. Mit doppelten Punkten kann dieser Wert unendlich werden.
Die örtlichen Erreichbarkeit Dichten werden dann mit denen der Nachbarn mit Vergleich
Welches ist die durchschnittliche lokale Erreichbarkeitsdichte von den Nachbarn geteilt durch die Objekte besitzen lokale Erreichbarkeitsdichte. Ein Wert von etwa, dass das Objekt ist vergleichbar mit seinen Nachbarn. Unter einen Wert anzeigt, eine dichtere Region, während Werte deutlich größer als zeigen Ausreißer.
Vorteile
Durch die lokale Ansatz ist LOF Lage, Ausreißer in einem Datensatz, die nicht Ausreißer in einem anderen Bereich des Datensatzes wäre zu identifizieren. Zum Beispiel ein Punkt, an einer "kleinen" Entfernung zu einem sehr dichten Cluster ein Ausreißer ist, während ein Punkt innerhalb einer Sparse Cluster könnte ähnlichen Abständen zu ihren Nachbarn aufweisen.
Während die geometrische Intuition des LOF ist nur für niedrig-dimensionalen Vektorräumen anwendbar, kann der Algorithmus in jedem Kontext eine Unähnlichkeit Funktion definiert werden angewendet. Es wurde experimentell gezeigt worden, um in zahlreichen Setups sehr gut funktionieren, oft besser als die Konkurrenz, beispielsweise im Network Intrusion Detection.
Die LOF Gruppe von Verfahren kann leicht verallgemeinert werden, und dann auf verschiedene andere Probleme angewandt, wie zum Beispiel Erkennung von Ausreißern in geographischen Daten, Video-Streams oder die Urheber Netzwerken.
Nachteile und Erweiterungen
Die resultierenden Werte sind Quotientenwerten und schwer zu interpretieren. Ein Wert von 1 oder sogar weniger zeigt eine klare inlier, aber es gibt keine klare Regel für, wenn ein Punkt ist ein Ausreißer. In einem Datensatz kann ein Wert von 1.1 bereits ein Ausreißer sein, in einem anderen Datensatz und Parametrierung ein Wert von 2 könnte immer noch ein inlier sein. Diese Unterschiede können sich auch innerhalb eines Datensatzes treten aufgrund der Lokalität des Verfahrens. Es gibt Erweiterungen von LOF, die in diesen Aspekten zu über LOF zu verbessern versuchen:
- Feature-Schrumpfbeutel für Ausreißererkennung läuft LOF auf mehreren Projektionen und kombiniert die Ergebnisse für eine verbesserte Erkennung Qualitäten in hohem Maße. Dies ist das erste Ensemble-Learning-Ansatz, um den Nachweis Ausreißer für andere Varianten siehe ref.
- Lokale Ausreißer Probability ist ein Verfahren von LOF aber mit kostengünstigen lokalen Statistiken weniger empfindlich auf die Wahl der Parameter k zu werden abgeleitet. Darüber hinaus werden die erhaltenen Werte in einen Wertebereich skaliert.
- Dolmetschen und Unifying Ausreißerstände schlägt eine Normalisierung der LOF Ausreißer Partituren auf das Intervall mit Hilfe statistischer Skalierung um die Benutzerfreundlichkeit zu erhöhen und eine verbesserte Version der Schleife Ideen zu sehen.
- Zur Bewertung Ausreißer Rankings und Ausreißerstände schlägt Methoden zur Messung der Ähnlichkeit und der Vielfalt der Methoden für den Aufbau advanced Ausreißererkennung Ensembles mit LOF Varianten und andere Algorithmen und die Verbesserung auf der Feature-Bagging Ansatz oben diskutiert.
- Lokale Ausreißererkennung dacht: eine allgemeine Sicht auf Ortes mit Anwendungen auf räumliche, Video- und Netzwerkausreißererkennung erörtert die allgemeine Muster in verschiedenen lokalen Ausreißererkennungsmethoden und abstrahiert von diesem in einen allgemeinen Rahmen. Dieser Rahmen wird dann beispielsweise angewendet zum Erkennen von Ausreißern in geografischen Daten, Video-Streams und Autor Netzwerken.
Kommentare - 0