Wednesday 4 January 2017

Moyenne Mobile Saisonnière Ajustement

Ajustement saisonnier L'ajustement saisonnier est une technique statistique qui tente de mesurer et de supprimer les influences de modèles saisonniers prévisibles pour révéler comment l'emploi et le chômage changent de mois en mois. Au cours d'une année, la taille de la population active et les niveaux d'emploi et de chômage subissent des fluctuations dues à des événements saisonniers, notamment des changements climatiques, des récoltes, des grands congés et des horaires scolaires. Puisque ces événements saisonniers suivent un modèle plus ou moins régulier chaque année, leur influence sur les tendances statistiques peut être éliminée en ajustant saisonnièrement les statistiques d'un mois à l'autre. Ces ajustements saisonniers facilitent l'observation de la tendance cyclique, de la tendance sous-jacente et d'autres mouvements non saisonniers de la série. Le programme LAUS utilise des modèles de séries chronologiques pour produire des estimations de l'emploi et du chômage pour les États et le District de Columbia, les régions et divisions de recensement, ainsi qu'une poignée de grandes zones sub-étatiques et leurs zones d'équilibre respectives. Ces modèles se décomposent en composantes tendances, cycliques et irrégulières. L'élément de tendance est ensuite lissé à l'aide d'un filtre en cascade Trend-Cycle. Les estimations corrigées des variations saisonnières qui en résultent sont analysées dans le communiqué de presse mensuel de l'emploi et du chômage régional et de l'État et publiées dans la base de données chronologiques de la BLS. Les estimations de l'emploi et du chômage pour les régions métropolitaines non modélisées et les divisions métropolitaines sont également corrigées des variations saisonnières chaque mois, selon une technique connue sous le nom de SEATS ou Extraction de signaux dans la série chronologique ARIMA (Auto Regressive Integrated Moving Average). Bien que ces données ne soient pas analysées dans le communiqué de presse sur l'emploi et le chômage dans la zone métropolitaine ou qu'elles soient chargées dans la base de données chronologiques de la BLS, elles sont disponibles dans les tableaux supplémentaires de bls. govlaumetrossa. htm. Mise en œuvre de l'ajustement saisonnier et du lissage exponentiel Il est facile d'effectuer des ajustements saisonniers et d'ajuster des modèles de lissage exponentiels à l'aide d'Excel. Les images et diagrammes d'écran ci-dessous sont tirés d'une feuille de calcul qui a été configurée pour illustrer l'ajustement saisonnier multiplicatif et le lissage exponentiel linéaire sur les données de ventes trimestrielles suivantes de Outboard Marine: Pour obtenir une copie du fichier de feuille de calcul lui-même, cliquez ici. La version de lissage linéaire exponentielle qui sera utilisée ici à des fins de démonstration est la version Brown8217s, simplement parce qu'elle peut être implémentée avec une seule colonne de formules et qu'il n'y a qu'une seule constante de lissage à optimiser. Habituellement, il est préférable d'utiliser la version Holt8217s qui dispose de constantes de lissage distinctes pour le niveau et la tendance. Le processus de prévision se déroule comme suit: (i) d'abord les données sont désaisonnalisées (ii) ensuite les prévisions sont générées pour les données désaisonnalisées par lissage exponentiel linéaire et (iii) enfin les prévisions désaisonnalisées sont quasiment saisonnalisées pour obtenir des prévisions pour la série originale . Le processus d'ajustement saisonnier est effectué dans les colonnes D à G. La première étape de l'ajustement saisonnier est de calculer une moyenne mobile centrée (effectuée ici dans la colonne D). Cela peut se faire en prenant la moyenne de deux moyennes sur une année qui sont compensées par une période l'une par rapport à l'autre. (Une combinaison de deux moyennes de décalage plutôt qu'une moyenne simple est nécessaire pour des fins de centrage lorsque le nombre de saisons est pair.) L'étape suivante consiste à calculer le rapport à la moyenne mobile - ie. Les données originales sont divisées par la moyenne mobile dans chaque période - ce qui est réalisé ici dans la colonne E. (Cette composante est également appelée quottrend-cyclequot du modèle, dans la mesure où les effets des tendances et des cycles économiques pourraient être considérés comme étant tout ce que Il est évident que les variations mensuelles qui ne sont pas dues à la saisonnalité pourraient être déterminées par de nombreux autres facteurs, mais la moyenne sur douze mois les lisse dans une large mesure. L'indice saisonnier estimé pour chaque saison est calculé en faisant la moyenne d'abord de tous les ratios pour cette saison particulière, qui est effectuée dans les cellules G3-G6 en utilisant une formule AVERAGEIF. Les ratios moyens sont alors redimensionnés de sorte qu'ils totalisent exactement 100 fois le nombre de périodes dans une saison, ou 400 dans ce cas, ce qui est fait dans les cellules H3-H6. Dans la colonne F, les formules VLOOKUP sont utilisées pour insérer la valeur d'indice saisonnier appropriée dans chaque ligne du tableau de données, en fonction du trimestre de l'année où il est représenté. La moyenne mobile centrée et les données désaisonnalisées se terminent comme suit: Notez que la moyenne mobile ressemble généralement à une version plus lisse de la série désaisonnalisée et qu'elle est plus courte aux deux extrémités. Une autre feuille de calcul dans le même fichier Excel montre l'application du modèle de lissage exponentiel linéaire aux données désaisonnalisées, commençant dans la colonne G. Une valeur pour la constante de lissage (alpha) est entrée au-dessus de la colonne de prévision (ici, dans la cellule H9) et Pour plus de commodité, on lui attribue le nom de la plage quotAlpha. quot (Le nom est attribué à l'aide de la commande quotInsertNameCreatequot). Le modèle LES est initialisé en définissant les deux premières prévisions égales à la première valeur réelle de la série désaisonnalisée. La formule utilisée ici pour la prévision des LES est la forme récursive à une seule équation du modèle Brown8217s: Cette formule est saisie dans la cellule correspondant à la troisième période (ici, cellule H15) et copiée à partir de là. On remarque que les prévisions ERP pour la période courante se réfèrent aux deux observations précédentes et aux deux erreurs de prévision précédentes, ainsi qu'à la valeur de alpha. Ainsi, la formule de prévision de la rangée 15 se réfère uniquement aux données qui étaient disponibles dans la rangée 14 et antérieures. (Bien sûr, si on voulait utiliser le lissage exponentiel linéaire plutôt que linéaire, nous pourrions remplacer la formule SES ici.) On pourrait aussi utiliser Holt8217s plutôt que le modèle LES de Brown8217, ce qui nécessiterait deux colonnes supplémentaires de formules pour calculer le niveau et la tendance Qui sont utilisés dans la prévision). Les erreurs sont calculées dans la colonne suivante (ici, colonne J) en soustrayant les prévisions des valeurs réelles. L'erreur quadratique moyenne est calculée comme étant la racine carrée de la variance des erreurs plus le carré de la moyenne. (Cela résulte de l'identité mathématique: VARIANCE MSE (erreurs) (MOYENNE (erreurs)) 2). Dans le calcul de la moyenne et de la variance des erreurs dans cette formule, les deux premières périodes sont exclues parce que le modèle ne commence effectivement à prévoir que La troisième période (ligne 15 sur le tableur). La valeur optimale de alpha peut être trouvée soit en changeant manuellement alpha jusqu'à ce que le RMSE minimum soit trouvé, soit vous pouvez utiliser le quotSolverquot pour effectuer une minimisation exacte. La valeur de alpha que le Solver a trouvée est affichée ici (alpha0.471). C'est généralement une bonne idée de tracer les erreurs du modèle (en unités transformées) et aussi de calculer et de tracer leurs autocorrélations à des décalages de jusqu'à une saison. Voici une courbe chronologique des erreurs (désaisonnalisées): Les autocorrélations d'erreur sont calculées à l'aide de la fonction CORREL () pour calculer les corrélations des erreurs avec elles-mêmes retardées par une ou plusieurs périodes - les détails sont indiqués dans le modèle de feuille de calcul . Voici une trame des autocorrélations des erreurs aux cinq premiers décalages: Les autocorrélations aux intervalles 1 à 3 sont très proches de zéro, mais la pointe au retard 4 (dont la valeur est 0,35) est légèrement gênante - elle suggère que la Le processus d'ajustement saisonnier n'a pas été complètement réussi. Cependant, il n'est en fait que marginalement significatif. 95 pour déterminer si les autocorrélations sont significativement différentes de zéro sont approximativement plus-ou-moins 2SQRT (n-k), où n est la taille de l'échantillon et k le retard. Ici n est 38 et k varie de 1 à 5, donc la racine carrée de - n-moins-k est d'environ 6 pour tous, et donc les limites pour tester la signification statistique des écarts à partir de zéro sont plus ou moins plus - Ou-moins 26 ou 0,33. Si vous modifiez la valeur de l'alpha à la main dans ce modèle Excel, vous pouvez observer l'effet sur la série temporelle et les diagrammes d'autocorrélation des erreurs, ainsi que sur l'erreur quadratique moyenne qui sera illustrée ci-dessous. Au bas de la feuille de calcul, la formule de prévision est quotbootstrappée à l'avenir en substituant simplement les prévisions aux valeurs réelles au point où les données réelles s'épuisent, c'est-à-dire. Où l'avenir commence. (En d'autres termes, dans chaque cellule où une future valeur de données se produirait, une référence de cellule est insérée qui pointe vers la prévision faite pour cette période.) Toutes les autres formules sont simplement copiées vers le bas depuis le dessus: Notez que les erreurs pour les prévisions de L'avenir sont tous calculés à zéro. Cela ne signifie pas que les erreurs réelles seront nulles, mais plutôt que cela reflète simplement le fait qu'à des fins de prédiction, nous supposons que les données futures seront égales aux prévisions en moyenne. Les prévisions des ERP résultant pour les données désaisonnalisées ressemblent à ceci: Avec cette valeur particulière de alpha, qui est optimale pour les prévisions à une période d'avance, la tendance projetée est légèrement à la hausse, reflétant la tendance locale qui a été observée au cours des 2 dernières années Ou plus. Pour d'autres valeurs d'alpha, une projection de tendance très différente pourrait être obtenue. C'est généralement une bonne idée de voir ce qui arrive à la projection de tendance à long terme lorsque alpha est varié, car la valeur qui est la meilleure pour la prévision à court terme ne sera pas nécessairement la meilleure valeur pour prédire l'avenir plus lointain. Par exemple, voici le résultat obtenu si la valeur de alpha est réglée manuellement à 0.25: La tendance à long terme projetée est maintenant négative plutôt que positive Avec une plus petite valeur d'alpha, le modèle place plus de poids sur les données plus anciennes Son estimation du niveau et de la tendance actuels et ses prévisions à long terme reflètent la tendance à la baisse observée au cours des cinq dernières années plutôt que la tendance à la hausse plus récente. Ce diagramme illustre également clairement comment le modèle avec une plus petite valeur d'alpha est plus lent à répondre aux points de quotturning dans les données et tend donc à faire une erreur du même signe pendant de nombreuses périodes d'affilée. Ses erreurs de prévision à 1 pas sont plus élevées en moyenne que celles obtenues avant (RMSE de 34,4 plutôt que 27,4) et fortement positivement autocorrélées. L'autocorrélation lag-1 de 0,56 dépasse de beaucoup la valeur de 0,33 calculée ci-dessus pour un écart statistiquement significatif par rapport à zéro. Comme alternative à la réduction de la valeur de l'alpha afin d'introduire plus de conservatisme dans les prévisions à long terme, un facteur quottrend amortissant est parfois ajouté au modèle afin de faire la tendance projetée aplatir après quelques périodes. La dernière étape de la construction du modèle de prévision consiste à quantifier les prévisions ERP en les multipliant par les indices saisonniers appropriés. Ainsi, les prévisions saisonnières de la colonne I ne sont que le produit des indices saisonniers de la colonne F et des prévisions des prévisions saisonnières corrigées des variations saisonnières dans la colonne H. Il est relativement facile de calculer les intervalles de confiance pour les prévisions à une étape de ce modèle: Calculer le RMSE (erreur quadratique moyenne équivaut à la racine carrée du MSE), puis calculer un intervalle de confiance pour la prévision désaisonnalisée en ajoutant et en soustrayant deux fois le RMSE. (En général, un intervalle de confiance de 95 pour une prévision à une période d'avance est approximativement égal à la prévision de point plus ou moins deux fois l'écart-type estimé des erreurs de prévision, en supposant que la distribution des erreurs est approximativement normale et que la taille de l'échantillon Est assez grand, disons, 20 ou plus. Ceci, le RMSE plutôt que l'écart type de l'échantillon des erreurs est la meilleure estimation de l'écart-type des erreurs de prévisions futures car il prend le biais ainsi que les variations aléatoires en compte.) Les limites de confiance Pour les prévisions corrigées des variations saisonnières sont ensuite recalées. Ainsi que les prévisions, en les multipliant par les indices saisonniers appropriés. Dans ce cas, le RMSE est égal à 27,4 et la prévision désaisonnalisée pour la première période future (décembre 93) est de 273,2. De sorte que l'intervalle de confiance corrigé des variations saisonnières est de 273,2-227,4 218,4 à 273,227,4 328,0. Multipliant ces limites par Decembers indice saisonnier de 68,61. Nous obtenons des limites de confiance inférieures et supérieures de 149,8 et 225,0 autour de la prévision ponctuelle de 187,4 déc-93. Les limites de confiance pour les prévisions plus d'une période à venir s'élargiront généralement à mesure que l'horizon de prévision augmente, en raison de l'incertitude concernant le niveau et la tendance ainsi que les facteurs saisonniers, mais il est difficile de les calculer en général par des méthodes analytiques. (La méthode appropriée pour calculer les limites de confiance pour la prévision des ERI est en utilisant la théorie ARIMA, mais l'incertitude dans les indices saisonniers est une autre question.) Si vous voulez un intervalle de confiance réaliste pour une prévision plus d'une période à venir, en prenant toutes les sources de , Il vaut mieux utiliser des méthodes empiriques: par exemple, pour obtenir un intervalle de confiance pour une prévision à deux étapes, vous pouvez créer une autre colonne sur le tableur pour calculer une prévision à deux étapes pour chaque période ( En amorçant la prévision en une étape). Calculez ensuite le RMSE des erreurs de prévision à 2 pas et utilisez ceci comme base pour un intervalle de confiance en 2 étapes.


No comments:

Post a Comment