David, Ja, MapReduce soll auf einer großen Datenmenge arbeiten. Und die Idee ist, dass im Allgemeinen die Karte und reduzieren Funktionen sollte nicht kümmern, wie viele Mapper oder wie viele Reduzierer gibt es, die nur Optimierung ist. Wenn Sie sorgfältig über den Algorithmus ich gepostet denken, können Sie sehen, dass es doesn39t Angelegenheit, welche Mapper bekommt, welche Teile der Daten. Jeder Eingabesatz ist für jede reduzierte Operation verfügbar, die es benötigt. Ndash Joe K 18. September um 22:30 Im besten Fall meines Verständnisses gleitende Durchschnitt ist nicht schön Karten MapReduce-Paradigma, da seine Berechnung im Wesentlichen Schiebefenster über sortierte Daten ist, während MR Verarbeitung von nicht geschnittenen Bereichen von sortierten Daten. Lösung, die ich sehe, ist wie folgt: a) Um benutzerdefinierte Partitionierer zu implementieren, um zwei verschiedene Partitionen in zwei Ausführungen zu machen. In jedem Lauf erhalten Ihre Reduzierer verschiedene Bereiche der Daten und berechnen gleitenden Durchschnitt, wo passend, werde ich versuchen zu illustrieren: Im ersten Lauf Daten für Reduzierer sollte: R1: Q1, Q2, Q3, Q4 R2: Q5, Q6, Q7, Q8 . Hier werden Sie gleitenden Durchschnitt für einige Qs cacluate. Im nächsten Lauf sollten Ihre Reduzierer Daten wie erhalten: R1: Q1. Q6 R2: Q6. Q10 R3: Q10..Q14 Und caclulate den Rest der gleitenden Durchschnitte. Dann müssen Sie Ergebnisse zu aggregieren. Idee der benutzerdefinierten Partitionierer, dass es zwei Modi der Operation haben wird - jedes Mal in gleiche Bereiche, aber mit einigen Verschiebung. In einem Pseudocode sieht es so aus. Partition (keySHIFT) (MAXKEYnumOfPartitions) Dabei gilt: SHIFT wird aus der Konfiguration übernommen. MAXKEY-Maximalwert der Taste. Ich nehme zur Vereinfachung an, dass sie mit Null beginnen. RecordReader, IMHO ist keine Lösung, da es auf bestimmte Split beschränkt ist und kann nicht über Splits Grenze gleiten. Eine weitere Lösung wäre, um benutzerdefinierte Logik der Aufteilung der Eingangsdaten (es ist Teil der InputFormat) zu implementieren. Es kann getan werden, um 2 verschiedene Folien, ähnlich wie die Partitionierung zu tun. Beantwortet Sep 17 12 at 8: 59Zeitreihenanalyse: Saisonale Anpassungsmethoden Wie funktionieren X11 Stil Methoden Wie sind einige Pakete für saisonale Anpassung verwendet X11 X11ARIMA X12ARIMA SEATSTRAMO DEMETRA Was sind die Techniken, die von der ABS, um mit saisonalen Anpassung Wie behandelt SEASABS Arbeit Wie andere statistische Agenturen beschäftigen sich mit saisonalen Anpassung WIE DO X11 STYLE METHODEN WORK Filter basierte Methoden der saisonalen Anpassung werden oft als X11-Stil Methoden bekannt. Diese basieren auf dem im Jahre 1931 von Fredrick R. Macaulay, dem National Bureau of Economic Research in den USA, beschriebenen Verfahren. Das Verfahren besteht aus folgenden Schritten: 1) Schätzen Sie den Trend durch einen gleitenden Durchschnitt 2) Entfernen Sie die Tendenz verlassen die saisonalen und unregelmäßigen Komponenten 3) Schätzen Sie die saisonale Komponente mit gleitenden Durchschnitten, um die irregulars glätten. Saisonalität kann in der Regel nicht identifiziert werden, bis der Trend bekannt ist, aber eine gute Schätzung des Trends kann nicht gemacht werden, bis die Serie saisonbereinigt wurde. Daher verwendet X11 einen iterativen Ansatz, um die Komponenten einer Zeitreihe abzuschätzen. Als Standard nimmt sie ein multiplikatives Modell an. Zur Veranschaulichung der grundlegenden Schritte in X11 beteiligt, betrachten die Zerlegung einer monatlichen Zeitreihe unter einem multiplikativen Modell. Schritt 1: Erste Schätzung des Trends Ein symmetrischer 13 Term (2x12) gleitender Durchschnitt wird auf eine ursprüngliche monatliche Zeitreihe O t angewendet. Um eine anfängliche Schätzung des Trends T t zu erzeugen. Der Trend wird dann aus der ursprünglichen Serie entfernt, um eine Schätzung der saisonalen und unregelmäßigen Komponenten zu geben. Sechs Werte an jedem Ende der Serie gehen als Ergebnis des Endpunktproblems verloren - es werden nur symmetrische Filter verwendet. Schritt 2: Vorläufige Schätzung der Saisonkomponente Eine vorläufige Schätzung der Saisonkomponente kann dann gefunden werden, indem ein gewichteter 5-Term-Bewegungsdurchschnitt (S3x3) zur S t. I t-Reihe für jeden Monat getrennt angewendet wird. Obwohl dieses Filter die Standardeinstellung innerhalb von X11 ist, verwendet das ABS 7 stattdessen gleitende Mittelwerte (S 3x5). Die Saisonkomponenten sind so angepasst, dass sie sich in etwa 12 Monaten addieren, sodass sie durchschnittlich 1 betragen, um sicherzustellen, dass die saisonale Komponente das Niveau der Serie nicht ändert (keinen Einfluss auf den Trend). Die fehlenden Werte am Ende der Saisonkomponente werden durch die Wiederholung des Vorjahreswertes ersetzt. Schritt 3: Vorläufige Schätzung der angepassten Daten Eine Annäherung der saisonbereinigten Reihe wird gefunden, indem man die Schätzung des Saisonalters vom vorherigen Schritt in die ursprüngliche Reihe aufteilt: Schritt 4: Eine bessere Schätzung der Tendenz A 9, 13 oder 23 Term Je nach Volatilität der Serie (eine volatilere Reihe erfordert einen längeren gleitenden Durchschnitt) wird der gleitende Durchschnitt von Henderson auf die saisonbereinigten Werte angewendet, um eine verbesserte Schätzung des Trends zu erzielen. Die resultierende Trendreihe wird in die ursprüngliche Serie unterteilt, um eine zweite Schätzung der saisonalen und unregelmäßigen Komponenten zu geben. Asymmetrische Filter werden an den Enden der Reihe verwendet, daher gibt es keine fehlenden Werte wie in Schritt 1. Schritt 5: Abschließende Abschätzung der saisonalen Komponente Schritt 2 wird wiederholt, um eine endgültige Schätzung der saisonalen Komponente zu erhalten. Schritt 6: Endgültige Schätzung der angepassten Daten Eine endgültige saisonbereinigte Reihe wird gefunden, indem die zweite Schätzung des Saisonalters vom vorherigen Schritt in die ursprüngliche Reihe geteilt wird: Schritt 7: Abschließende Abschätzung der Tendenz A 9, 13 oder 23 von Henderson Mittelwert wird auf die endgültige Schätzung der saisonbereinigten Serie angewendet, die für Extremwerte korrigiert wurde. Dies ergibt eine verbesserte und abschließende Abschätzung des Trends. In mehr fortgeschrittenen Versionen von X11 (wie X12ARIMA und SEASABS) kann jede ungerade Länge Henderson gleitender Durchschnitt verwendet werden. Schritt 8: Endgültige Schätzung der irregulären Komponente Die Irreguläre können dann geschätzt werden, indem die Trendschätzungen in die saisonbereinigten Daten aufgeteilt werden. Offensichtlich werden diese Schritte davon abhängen, welches Modell (multiplikativ, additiv und pseudo-additiv) innerhalb von X11 ausgewählt wird. Es gibt auch kleine Unterschiede in den Schritten in X11 zwischen verschiedenen Versionen. Ein zusätzlicher Schritt bei der Schätzung der saisonalen Faktoren ist die Verbesserung der Robustheit des Mittelungsprozesses durch Modifikation der SI-Werte für Extreme. Für weitere Informationen über die wichtigsten Schritte, siehe Abschnitt 7.2 des Informationspapiers: Ein Einführungskurs zur Zeitreihenanalyse - Elektronische Lieferung. WAS SIND EINIGE PAKETE, DIE DURCHZUFÜHREN SEASONAL ANPASSUNG Die am häufigsten verwendeten saisonale Anpassung Pakete sind die in der X11 Familie. X11 wurde vom US-Büro der Volkszählung entwickelt und begann seinen Betrieb in den Vereinigten Staaten im Jahr 1965. Es wurde bald von vielen statistischen Agenturen auf der ganzen Welt, einschließlich der ABS übernommen. Es wurde in eine Reihe von handelsüblichen Softwarepaketen wie SAS und STATISTICA integriert. Es nutzt Filter zu saisonalen Anpassung von Daten und schätzen die Komponenten einer Zeitreihe. Das X11-Verfahren beinhaltet das Anwenden symmetrischer gleitender Mittelwerte auf eine Zeitreihe, um den Trend, jahreszeitliche und irreguläre Komponenten abzuschätzen. Jedoch am Ende der Reihe, gibt es unzureichende Daten verfügbar, um symmetrische Gewichte 8211 das 8216end-point8217 Problem zu verwenden. Folglich werden entweder asymmetrische Gewichte verwendet, oder die Reihenfolgen müssen extrapoliert werden. Die X11ARIMA-Methode, die von Statistics Canada 1980 entwickelt und im Jahr 1988 auf X11ARIMA88 aktualisiert wurde, verwendet Box Jenkins AutoRegressive Integrated Moving Average (ARIMA) Modelle zur Verlängerung einer Zeitreihe. Im Wesentlichen reduziert die Verwendung von ARIMA-Modellierung auf der Original-Serie reduzieren Revisionen in der saisonbereinigten Serie, so dass die Wirkung des Endpunkts Problem reduziert wird. X11ARIMA88 unterscheidet sich auch von der ursprünglichen X11-Methode bei der Behandlung von Extremwerten. Sie kann durch Kontaktaufnahme mit Statistics Canada bezogen werden. In den späten 19908217s, veröffentlicht die US-Volkszählung Bureau X12ARIMA. Es verwendet regARIMA-Modelle (Regressionsmodelle mit ARIMA-Fehlern), um es dem Anwender zu ermöglichen, die Serie mit Prognosen zu erweitern und die Reihe für Ausreißer - und Kalendereffekte vorzujustieren, bevor saisonale Anpassungen stattfinden. X12ARIMA erhalten Sie vom Bureau ist es kostenlos erhältlich und kann von census. govsrdwwwx12a heruntergeladen werden. Die von Victor Gomez und Augustn Maravall entwickelte Software SEATS (Signalextraktion in der ARIMA Zeitreihe) ist ein Programm, das die Trend-, Saison - und unregelmäßigen Komponenten einer Zeitreihe mit Hilfe von Signaltrennungstechniken für ARIMA-Modelle schätzt und prognostiziert. TRAMO (Zeitreihenregression mit ARIMA-Störungen, fehlende Beobachtungen und Ausreißer) ist ein Begleitprogramm zur Schätzung und Prognose von Regressionsmodellen mit ARIMA-Fehlern und fehlenden Werten. Es wird verwendet, um eine Reihe vorjustieren, die dann saisonabhängig durch SEATS eingestellt wird. Um die beiden Programme kostenlos aus dem Internet herunterladen, wenden Sie sich an die Bank von Spanien. Bde. eshomee. htm Eurostat konzentriert sich auf zwei saisonale Anpassungsmethoden: TramoSeats und X12Arima. Versionen dieser Programme wurden in einer einzigen Schnittstelle implementiert, die als DEMETRAquot bezeichnet wird. Dies erleichtert die Anwendung dieser Techniken auf große Maßstäbe von Zeitreihen. DEMETRA enthält zwei Hauptmodule: eine saisonale Anpassung und Trendschätzung mit automatisierter Prozedur (z. B. für unerfahrene Anwender oder für große Zeitreihenreihen) und mit einem benutzerfreundlichen Verfahren zur detaillierten Analyse einzelner Zeitreihen. Es kann von forum. europa. eu. intircdsiseurosaminfodatademetra. htm heruntergeladen werden. WAS SIND DIE TECHNIKEN, DIE MIT DEM ABS MIT DEM ABSATZ MIT SEASONALER EINSTELLUNG ANGEFÜHRT WERDEN Das wichtigste Werkzeug, das im Australian Bureau of Statistics verwendet wird, ist SEASABS (SEASonal analysis, ABS standards). SEASABS ist ein saisonales Anpassungs-Softwarepaket mit einem Kernverarbeitungssystem auf der Basis von X11 und X12ARIMA. SEASABS ist ein wissensbasiertes System, das Zeitreihenanalysten dabei unterstützen kann, angemessene und korrekte Urteile in der Analyse einer Zeitreihe zu machen. SEASABS ist ein Teil des ABS Saisonbereinigungssystems. Weitere Komponenten sind das ABSDB (ABS Information Warehouse) und FAME (Forecasting, Analysis and Modeling Environment) zur Speicherung und Manipulation von Zeitreihendaten. SEASABS führt vier Hauptfunktionen durch: Datenrecherche Saisonale Reanalyse der Zeitreihe Untersuchung der Zeitreihen Erfassung von Zeitreihenwissen SEASABS ermöglicht sowohl die Experten - als auch die Client-Nutzung der X11-Methode (die durch das ABS deutlich verbessert wurde). Dies bedeutet, dass ein Benutzer keine detaillierten Kenntnisse über das X11-Paket benötigt, um eine Zeitreihe entsprechend saisonal anzupassen. Eine intelligente Benutzeroberfläche führt Benutzer durch den saisonalen Analyseprozess, wobei geeignete Wahlmöglichkeiten von Parametern und Anpassungsmethoden mit wenig oder keinerlei Notwendigkeit für den Benutzer erforderlich sind. Der grundlegende Iterationsvorgang, der in SEASABS involviert ist, ist: 1) Test und korrekte saisonale Pausen. 2) Testen und entfernen Sie große Spitzen in den Daten. 3) Testen Sie und korrigieren Sie Trendtrennungen. 4) Prüfung und Korrektur von Extremwerten für saisonale Anpassungszwecke. 5) Schätzen Sie jeden vorhandenen Handelstageffekt. 6) Korrekturen für bewegliche Feiertage einfügen oder ändern. 7) Überprüfen Sie die gleitenden Mittelwerte (Trendbewegungsdurchschnitte und dann saisonale gleitende Durchschnittswerte). 8) Führen Sie X11 aus. 9) Die Einstellung abschließen. SEASABS hält Aufzeichnungen der vorherigen Analyse einer Reihe, damit es X11 Diagnosen über Zeit vergleichen kann und weiß, welche Parameter zu der annehmbaren Justage an der letzten Analyse führten. Es identifiziert und korrigiert Trend - und Saisonbrüche sowie Extremwerte, fügt Handelstagfaktoren bei Bedarf ein und ermöglicht bewegliche Urlaubskorrekturen. SEASABS ist frei verfügbar zu anderen Regierungsorganisationen. Kontaktieren Sie time. series. analysisabs. gov. au für weitere Details. WIE ANDERE STATISTISCHE AGENTUREN MIT SEASONALER EINSTELLUNG STELLEN Statistiken Neuseeland nutzt X12-ARIMA, verwendet jedoch nicht die ARIMA-Fähigkeiten des Pakets. Office of National Statistics, Vereinigtes Königreich nutzt X11ARIMA88 Statistiken Kanada verwendet X11-ARIMA88 US-Büro der Volkszählung benutzt X12-ARIMA Eurostat verwendet SEATSTRAMO Diese Seite wurde erstmals veröffentlicht am 14. November 2005, zuletzt aktualisiert am 10. September 2008Basisalgorithmus von X-11 Das X-11-Zerlegungsverfahren Basiert auf einem fünfstufigen einfachen saisonalen Anpassungsalgorithmus. Gemäß diesem Algorithmus sollte der Benutzer eine Anfangsschätzung des Trendzyklus durch Anwenden eines gleitenden Durchschnitts auf die Rohdaten ableiten, um diese Schätzung von den Rohdaten zu subtrahieren, um eine anfängliche Schätzung des saisonal-unregelmäßigen (SI ) Und einen gleitenden Durchschnitt an die SIs für jeden Quartentyp einzeln anwenden, um anfängliche Schätzungen der saisonalen Komponente zu erhalten, subtrahieren die anfänglichen saisonalen Faktoren von den Rohdaten, um eine anfängliche Schätzung der saisonbereinigten Reihe (dh des Trendzyklus) zu erhalten Um eine zweite Schätzung des Trendzyklus zu erhalten, die zweite Schätzung des Trendzyklus von den Rohdaten subtrahieren, um eine zweite Schätzung der SIs zu erhalten, und einen gleitenden Durchschnitt für jeden Quartentyp einzeln anzuwenden, um zu erhalten Endgültige Schätzungen der saisonalen Komponente subtrahieren die saisonalen Faktoren aus den Rohdaten, um eine endgültige Schätzung der saisonbereinigten Reihen zu erhalten, und wenden einen Henderson-gleitenden Durchschnitt an, um eine abschließende Schätzung des Taktzyklus zu erhalten. Lesen Sie mehr darüber, wie dieser Algorithmus auf die X-11 Methode angewendet wird. Der Grundalgorithmus des X-11-Verfahrens besteht aus acht Schritten und entspricht der zweimaligen Verwendung des einfachen Algorithmus. Dieser grundlegende achtstufige Algorithmus wird in Teil B, C und D von X-11 verwendet. Es schätzt die Komponenten zweimal. Die Markierungen (1) und (2) werden verwendet, um sie voneinander zu unterscheiden. Die Beschreibung unten zeigt, wie der Algorithmus in Teil B läuft. Für die Teile C und D läuft er in ähnlicher Weise. Schritt 1: Schätzung des Trend-Zyklus durch 2x12 gleitenden Durchschnitt: Die erste Schätzung des Taktzyklus wird durch Anwendung des gleitenden Mittelwerts auf die ursprüngliche Zeitreihe erhalten: Der hier verwendete gleitende Durchschnitt ist ein 2 × 12 gleitender Durchschnitt der Koeffizienten Den zentralen Punkt einer linearen Tendenz wiedergibt, die konstante Saisonalität der Ordnung 12 eliminiert und die Varianz der unregelmäßigen Komponente minimiert. Der Ausgang (Trendzyklus) ist in Tabelle B2 gespeichert. Schritt 2: Schätzung der saisonal-irregulären Komponente: Die erste Schätzung der saisonal-irregulären Komponente wird durch Entfernen des Trendzyklus aus Zeitreihen erhalten: Die Ergebnisse sind in Tabelle B3 aufgeführt. Schritt 3: Schätzung der Saisonkomponente um 3x3 gleitenden Durchschnitt über jeden Monat: Die Schätzung erfolgt auf der Basis der saisonal-unregelmäßigen Komponente aus dem vorherigen Schritt korrigiert mit den Extremwerten. Der hier verwendete gleitende Durchschnitt ist ein 3 × 3 gleitender Durchschnitt über 5 Ausdrücke von Koeffizienten. Der Filter wird auf die saisonal-unregelmäßigen Verhältnisse für jede Periode separat über 5 Jahre angewendet. Dann werden die saisonalen Faktoren mit einem zentrierten 12-term gleitenden Durchschnitt normalisiert, so dass die saisonalen Effekte über den gesamten Zeitraum von 12 Monaten annähernd annulliert werden. Das Ergebnis dieses Schrittes wird in Tabelle B5 beibehalten. Schritt 4: Schätzung der saisonbereinigten Serie: Die Schätzung der saisonbereinigten Reihe erfolgt durch Abbau der ersten Schätzung der saisonalen Komponente (Tabelle B5) aus der Startreihe (Tabelle B1): Schritt 5: Schätzung des Trend-Zyklus durch 13-term Henderson gleitender Durchschnitt: Die zweite Schätzung des Trendzyklus (Tabelle B7) wird aus saisonbereinigter Reihe (Tabelle B6) mit 13-term-Henderson-Filter geglättet. Schritt 6: Schätzung der saisonal-irregulären Komponente: Eine Schätzung der saisonal-unregelmäßigen Komponente wird durch Subtraktion des Trendzyklus der ursprünglichen Zeitreihe erreicht. Die Ergebnisse werden in Tabelle B8 gespeichert. Schritt 7: Schätzung der Saisonkomponente um 3x5 gleitenden Durchschnitt über jeden Monat: Die zweite Schätzung der Saison-Unregelmäßigen Komponente wird durch Entfernen des Trendzyklus aus Zeitreihen erhalten: Der hier verwendete gleitende Durchschnitt ist ein sogenannter 3x5 gleitender Durchschnitt Über 7 Terme von Koeffizienten und behält lineare Trends. Die Koeffizienten werden dann so normiert, dass ihre Summe über den gesamten Zeitraum von 12 Monaten annähernd annulliert wird. Das Ergebnis dieses Schrittes wird in Tabelle B10 gespeichert. Schritt 8: Schätzung der saisonbereinigten Reihe: Die Schätzung der saisonbereinigten Reihe erfolgt durch Entfernen der zweiten Schätzung der saisonalen Komponente (Tabelle B10) aus der Ausgangsserie (Tabelle B1): Die Ausgabe dieses Schritts ist Tabelle B11. Die ganze Schwierigkeit liegt also in der Wahl der gleitenden Mittelwerte, die für die Schätzung des Trendzyklus in den Schritten 1 und 5 einerseits und für die Schätzung der Saisonkomponente in den Schritten 3 und 5 verwendet werden Erfordert der Trendzyklus die Auswahl des passenden Henderson-Filters.
No comments:
Post a Comment