Friday, 20 October 2017

Loess Vs Gleitender Durchschnitt


Mike, zuerst installiere R (falls noch nicht vorhanden), lauf R und installiere das TeachingDemos Paket (genau wie hängt von deinem System ab), lade das Paket mit der Bibliothek (TeachingDemos) und drücke loess. demo, um die Hilfeseite zu sehen Wie man es ausführen, können Sie scrollen, um den Boden, wo das Beispiel sind und kopieren und fügen Sie diesen Code auf R39s Befehlszeile, um die Beispiele zu sehen, dann mit Ihren eigenen Daten weiter zu erforschen. Ndash Greg Snow Mar 23 12 at 17:15 Hier ist eine einfache, aber detaillierte Antwort. Ein lineares Modell passt zu einer Beziehung über alle Datenpunkte. Dieses Modell kann erste Ordnung (eine andere Bedeutung von linearem) oder Polynom sein, um der Krümmung Rechnung zu tragen, oder mit Splines, um verschiedene Regionen mit einem anderen regulierenden Modell zu berücksichtigen. Eine LOESS-Passung ist eine lokal bewegte gewichtete Regression, die auf den ursprünglichen Datenpunkten basiert. Whats that mean A LOESS fit gibt die ursprünglichen X - und Y-Werte sowie einen Satz von Output-X-Werten ein, für die neue Y-Werte berechnet werden (in der Regel werden die gleichen X-Werte für beide, aber oft weniger X-Werte für passende XY-Paare verwendet Wegen der erhöhten Rechenleistung). Für jeden Ausgabe-X-Wert wird ein Teil der Eingangsdaten verwendet, um einen Fit zu berechnen. Der Teil der Daten, im allgemeinen 25 bis 100, aber typischerweise 33 oder 50, ist lokal, was bedeutet, daß es derjenige Teil der ursprünglichen Daten ist, der jedem bestimmten Ausgangswert X am nächsten liegt. Es ist eine bewegliche Passform, da jeder Ausgang X-Wert eine andere Teilmenge der Originaldaten mit unterschiedlichen Gewichten erfordert (siehe nächster Absatz). Diese Untermenge von Eingangsdatenpunkten wird verwendet, um eine gewichtete Regression durchzuführen, wobei Punkte am nächsten zu dem Ausgang X-Wert mit größerem Gewicht sind. Diese Regression ist in der Regel erster Ordnung zweiter Ordnung oder höher möglich, erfordert jedoch eine höhere Rechenleistung. Der Y-Wert dieser gewichteten Regression, der an dem Ausgang X berechnet wird, wird als der Modell-Y-Wert für diesen X-Wert verwendet. Die Regression wird an jedem Ausgabe-X-Wert neu berechnet, um einen vollständigen Satz von Ausgabe-Y-Werten zu erzeugen. Ein einfaches Glätten Durchschnitt kann als eine lokale lineare Regression mit einem rechteckigen Kernel interpretiert werden. Ein rechtwinkliger Kernel weist jedem Punkt, der in seine Kernelunterstützung (Lesefenster) fällt, gleiche Gewichtungen (Lese-Wichtigkeit) zu. Wenn Sie denken, dass diese Annahme Ihre Modellierungsannahmen adäquat kapselt, dann haben Sie keinen Grund, keinen einfachen gleitenden Durchschnitt für Glättung auszuwählen. Wenn Sie denken, diese Annahme ist ein wenig übertrieben. mitlesen. Es sei angenommen, dass wir die Daten (yi, ti) betrachten, aber tatsächlich ist das, was los ist, yi y (ti) epsiloni, wobei y eine etwas ungerade, aber glatte parametrische Form und epsilon sim N (0, sigma2) hat. Durch Glättung versuchen wir, y zu schätzen. Wir könnten vorgehen und passen ein Modell über alle Daten so etwas wie: y beta0 beta1 t epsilon (oder ein höheres Polynom), aber wir vermuten, dass dies zu restriktiv ist. Wir haben das implizite Verständnis, dass Daten in der Nähe eines Zeitpunktes t für den Wert y (t) relevanter sind als die Daten weiter weg von t. So entscheiden wir, ein Fenster um t zu bauen, sagen wir t-b, tb, wobei b eine Bandbreite ist. Wenn wir nun davon ausgehen, daß alle Punkte in t-b, tb gleichermaßen wichtig sind, um y (t) zu schätzen, dann ist ein rechteckiger Kernel, für den alle Punkte gleich gewichtet sind, für uns perfekt. Aber vielleicht denken wir. Innerhalb des Fensters einige zentrale Punkte mehr und wir versuchen einen anderen Kernel) (zB Dreieck oder Epanechnikov), die zentrale Punkte eine höhere Bedeutung zuweist. Oder eigentlich sind wir nicht wirklich sicher über die Annahme eines Fensters zu beginnen, so dass wir passen einen Kernel (zB Gaussian), die unendliche Unterstützung hat. (B ist stets durch Kreuzvalidierung zu schätzen). Lokale lineare Regression gibt die Fähigkeit zu testen und tatsächlich alle diese Annahmen zu unseren endgültigen Schätzungen für y enthalten. Schließlich möchte ich darauf hinweisen, dass Lowessloess eine lokal gewichtete lineare Regression verwendet, um Daten zu glätten, aber sie sind nur ein Typ der lokalen Polynommethoden (zB der NadarayaWatson-Schätzer, einer der frühesten Schätzer dieser Art), der in der semi-parametrischen Regression verwendet wird. Andere Modelle (z. B. Rauhigkeits-Strafverfahren, wie Spline-Glättung) sind auch erhältlich unter A. C. Davison Statistical Models. Kap. 10.7 für eine kurze Einführung. Beantwortet Apr 3 16 at 3: 01LOESS ist eine von vielen modernen Modellierungsmethoden, die auf klassischen Methoden, wie lineare und nichtlineare Regression der kleinsten Quadrate aufbauen. Moderne Regressionsmethoden wurden entwickelt, um Situationen zu begegnen, in denen die klassischen Verfahren nicht gut funktionieren oder nicht ohne unnötige Arbeit effektiv angewendet werden können. LOESS kombiniert einen Großteil der Einfachheit der linearen Regression der kleinsten Quadrate mit der Flexibilität der nichtlinearen Regression. Dies geschieht durch die Anpassung einfacher Modelle an lokalisierte Teilmengen der Daten, um eine Funktion aufzubauen, die den deterministischen Teil der Variation in den Daten beschreibt. Punkt für Punkt. In der Tat ist eine der Hauptattraktionen dieses Verfahrens, dass der Datenanalytiker nicht benötigt wird, um eine globale Funktion irgendeiner Form zu spezifizieren, um ein Modell an die Daten anzupassen, nur um Segmente der Daten anzupassen. Der Kompromiss für diese Merkmale ist eine erhöhte Berechnung. Weil es so rechenintensiv ist, wäre LOESS in der Ära praktisch unmöglich gewesen, wenn die Regression der kleinsten Quadrate entwickelt wurde. Die meisten anderen modernen Methoden der Prozessmodellierung sind in dieser Hinsicht ähnlich wie LOESS. Diese Methoden wurden bewusst entwickelt, um unsere derzeitige Rechenfähigkeit in vollem Umfang nutzen, um Ziele zu erreichen, die nicht leicht durch traditionelle Ansätze erreicht werden. Definition eines LOESS-Modells LOESS, ursprünglich von Cleveland (1979) vorgeschlagen und weiterentwickelt von Cleveland und Devlin (1988). Spezifisch ein Verfahren, das (etwas) deskriptiv als lokal gewichtete polynomielle Regression bekannt ist. An jedem Punkt in dem Datensatz wird ein Polynom mit niedrigem Grad zu einer Teilmenge der Daten angepasst, wobei er Erläuterungsvariablenwerte nahe dem Punkt, dessen Antwort geschätzt wird, aufweisen. Das Polynom wird mit gewichteten kleinsten Quadraten angepasst, was mehr Punkten in der Nähe des Punktes ergibt, dessen Reaktion geschätzt wird, und weniger Gewicht zu Punkten weiter weg. Der Wert der Regressionsfunktion für den Punkt wird dann durch Auswertung des lokalen Polynoms unter Verwendung der erläuternden Variablenwerte für diesen Datenpunkt erhalten. Der LOESS-Fit ist abgeschlossen, nachdem Regressionsfunktionswerte für jeden der (n) Datenpunkte berechnet worden sind. Viele Details dieses Verfahrens, wie der Grad des Polynommodells und die Gewichte, sind flexibel. Die Auswahlmöglichkeiten für jeden Teil der Methode und typische Vorgaben werden im Folgenden kurz erläutert. Lokalisierte Untermengen von Daten Die Untermengen von Daten, die für jede gewichtete Kleinstquadrat-Anpassung in LOESS verwendet werden, werden durch einen nächsten Nachbar-Algorithmus bestimmt. Eine benutzerdefinierte Eingabe in die Prozedur, die als Bandbreiten - oder Glättungsparameter bezeichnet wird, bestimmt, wie viel der Daten verwendet wird, um jedes lokale Polynom anzupassen. Der Glättungsparameter (q) ist eine Zahl zwischen ((d1) n) und (1), wobei (d) der Grad des lokalen Polynoms ist. Der Wert von (q) ist der Anteil der in jedem Fit verwendeten Daten. Die Untermenge der Daten, die in jeder gewichteten Kleinste-Quadrate-Anpassung verwendet werden, umfasst die (nq) (gerundet auf die nächstgrößeren Integer) Punkte, deren erläuternde Variablenwerte dem Punkt am nächsten liegen, an dem die Antwort geschätzt wird. (Q) heißt der Glättungsparameter, da er die Flexibilität der LOESS-Regressionsfunktion steuert. Große Werte von (q) erzeugen die glattesten Funktionen, die am wenigsten in Reaktion auf Schwankungen der Daten wackeln. Je kleiner (q) ist, desto näher ist die Regressionsfunktion den Daten. Ein zu kleiner Wert des Glättungsparameters zu verwenden, ist jedoch nicht wünschenswert, da die Regressionsfunktion schließlich beginnen wird, den Zufallsfehler in den Daten zu erfassen. Nützliche Werte des Glättungsparameters liegen typischerweise im Bereich von 0,25 bis 0,5 für die meisten LOESS-Anwendungen. Grad der lokalen Polynome Die lokalen Polynome, die zu jeder Untermenge der Daten passen, sind fast immer von einem ersten oder zweiten Grad, der entweder lokal linear (im Geraden-Sinn) oder lokal quadratisch ist. Bei Verwendung eines Nullgradpolynoms wird LOESS in einen gewichteten gleitenden Durchschnitt verschoben. Ein solches einfaches lokales Modell könnte für einige Situationen gut funktionieren, kann aber nicht immer die zugrundeliegende Funktion gut genug approximieren. Polynome höherer Ordnung würden in der Theorie funktionieren, aber Modelle liefern, die nicht wirklich im Geist von LOESS sind. LOESS basiert auf den Ideen, dass jede Funktion in einem kleinen Umfeld durch ein niederwertiges Polynom gut angenähert werden kann und dass einfache Modelle problemlos an Daten angepasst werden können. Hochgradige Polynome neigen dazu, die Daten in jeder Untermenge zu überladen und sind numerisch instabil, was genaue Berechnungen schwierig macht. Wie oben erwähnt, gibt die Gewichtungsfunktion die am meisten von dem Punkt der Schätzung am nächsten gelegenen Datenpunkte und die geringste Gewichtung zu den am weitesten entfernten Datenpunkten. Die Verwendung der Gewichte beruht auf der Idee, dass Punkte, die nahe zu einander in dem erläuternden variablen Raum liegen, eher aufeinander bezogen werden können als auf Punkte, die weiter voneinander entfernt sind. Nach dieser Logik beeinflussen Punkte, die dem lokalen Modell am besten folgen, die lokalen Modellparameter-Schätzungen am meisten. Punkte, die weniger wahrscheinlich sind, tatsächlich mit dem lokalen Modell übereinzustimmen, haben weniger Einfluss auf die lokalen Modellparameterschätzungen. Die traditionelle Gewichtsfunktion, die für LOESS verwendet wird, ist die Tri-Cube-Gewichtsfunktion, w (x) links (1 - x3) 3 mbox

No comments:

Post a Comment