Thursday 28 September 2017

Modelos de previsão de tempo séries como movimentação médias


Na prática, a média móvel fornecerá uma boa estimativa da média das séries temporais se a média for constante ou mudar lentamente. No caso de uma média constante, o maior valor de m dará as melhores estimativas da média subjacente. Um período de observação mais longo medirá os efeitos da variabilidade. A finalidade de fornecer um m menor é permitir que a previsão responda a uma mudança no processo subjacente. Para ilustrar, propomos um conjunto de dados que incorpora mudanças na média subjacente das séries temporais. A figura mostra a série de tempo usada para ilustração juntamente com a demanda média a partir da qual a série foi gerada. A média começa como uma constante em 10. Começando no tempo 21, ele aumenta em uma unidade em cada período até atingir o valor de 20 no tempo 30. Então ele se torna constante novamente. Os dados são simulados adicionando à média um ruído aleatório de uma distribuição Normal com média zero e desvio padrão 3. Os resultados da simulação são arredondados para o inteiro mais próximo. A tabela mostra as observações simuladas usadas para o exemplo. Quando usamos a tabela, devemos lembrar que a qualquer momento, apenas os dados passados ​​são conhecidos. As estimativas do parâmetro do modelo,, para três valores diferentes de m são mostradas juntamente com a média das séries temporais na figura abaixo. A figura mostra a estimativa média móvel da média em cada momento e não a previsão. As previsões mudariam as curvas de média móvel para a direita por períodos. Uma conclusão é imediatamente aparente a partir da figura. Para as três estimativas, a média móvel está aquém da tendência linear, com o atraso aumentando com m. O atraso é a distância entre o modelo ea estimativa na dimensão temporal. Devido ao atraso, a média móvel subestima as observações à medida que a média está aumentando. O viés do estimador é a diferença em um tempo específico no valor médio do modelo eo valor médio predito pela média móvel. O viés quando a média está aumentando é negativo. Para uma média decrescente, o viés é positivo. O atraso no tempo eo viés introduzido na estimativa são funções de m. Quanto maior o valor de m. Maior será a magnitude do atraso e do viés. Para uma série continuamente crescente com tendência a. Os valores de lag e viés do estimador da média são dados nas equações abaixo. As curvas de exemplo não correspondem a essas equações porque o modelo de exemplo não está aumentando continuamente, em vez disso, ele começa como uma constante, muda para uma tendência e, em seguida, torna-se constante novamente. Também as curvas de exemplo são afetadas pelo ruído. A previsão média móvel de períodos no futuro é representada deslocando as curvas para a direita. O atraso e o viés aumentam proporcionalmente. As equações abaixo indicam o atraso e o viés de um período de previsão para o futuro quando comparado aos parâmetros do modelo. Novamente, estas fórmulas são para uma série de tempo com uma tendência linear constante. Não devemos nos surpreender com esse resultado. O estimador da média móvel é baseado no pressuposto de uma média constante, eo exemplo tem uma tendência linear na média durante uma porção do período de estudo. Como as séries de tempo real raramente obedecerão exatamente aos pressupostos de qualquer modelo, devemos estar preparados para tais resultados. Podemos também concluir a partir da figura que a variabilidade do ruído tem o maior efeito para m menor. A estimativa é muito mais volátil para a média móvel de 5 do que a média móvel de 20. Temos os desejos conflitantes de aumentar m para reduzir o efeito da variabilidade devido ao ruído e diminuir m para fazer a previsão mais sensível às mudanças Em média. O erro é a diferença entre os dados reais e o valor previsto. Se a série temporal é verdadeiramente um valor constante, o valor esperado do erro é zero ea variância do erro é composta por um termo que é uma função de e um segundo termo que é a variância do ruído,. O primeiro termo é a variância da média estimada com uma amostra de m observações, assumindo que os dados provêm de uma população com média constante. Este termo é minimizado tornando m o maior possível. Um grande m faz com que a previsão não responda a uma mudança nas séries temporais subjacentes. Para tornar a previsão responsiva às mudanças, queremos que m seja o menor possível (1), mas isso aumenta a variância do erro. A previsão prática requer um valor intermediário. Previsão com o Excel O suplemento de Previsão implementa as fórmulas de média móvel. O exemplo abaixo mostra a análise fornecida pelo add-in para os dados da amostra na coluna B. As primeiras 10 observações são indexadas -9 a 0. Em comparação com a tabela acima, os índices de período são deslocados por -10. As primeiras dez observações fornecem os valores de inicialização para a estimativa e são usadas para calcular a média móvel para o período 0. A coluna MA (10) (C) mostra as médias móveis calculadas. O parâmetro de média móvel m está na célula C3. A coluna Fore (1) (D) mostra uma previsão para um período no futuro. O intervalo de previsão está na célula D3. Quando o intervalo de previsão é alterado para um número maior, os números na coluna Fore são deslocados para baixo. A coluna Err (1) (E) mostra a diferença entre a observação e a previsão. Por exemplo, a observação no tempo 1 é 6. O valor previsto a partir da média móvel no tempo 0 é 11.1. O erro é então -5.1. O desvio padrão eo desvio médio médio (MAD) são calculados nas células E6 e E7, respectivamente. Médias de movimentação Médias de movimento Com conjuntos de dados convencionais, o valor médio é frequentemente o primeiro, e um dos mais úteis, estatísticas de resumo a calcular. Quando os dados estão na forma de uma série temporal, a média da série é uma medida útil, mas não reflete a natureza dinâmica dos dados. Os valores médios calculados em períodos em curto, anteriores ao período atual ou centrados no período atual, são freqüentemente mais úteis. Como esses valores médios variam ou se movem, à medida que o período atual se move a partir do tempo t 2, t 3, etc., eles são conhecidos como médias móveis (Mas). Uma média móvel simples é (tipicamente) a média não ponderada de k valores anteriores. Uma média móvel exponencialmente ponderada é essencialmente a mesma que uma média móvel simples, mas com contribuições para a média ponderada pela sua proximidade com o tempo atual. Como não existe uma, mas toda uma série de médias móveis para qualquer série, o conjunto de Mas pode ser plotado em gráficos, analisado como uma série e usado na modelagem e previsão. Uma gama de modelos pode ser construída usando médias móveis, e estes são conhecidos como modelos MA. Se tais modelos forem combinados com modelos autorregressivos (AR), os modelos compostos resultantes são conhecidos como modelos ARMA ou ARIMA (o I é para integrado). Médias móveis simples Uma vez que uma série temporal pode ser considerada como um conjunto de valores, t 1,2,3,4, n a média destes valores pode ser calculada. Se assumimos que n é bastante grande, e selecionamos um inteiro k que é muito menor que n. Podemos calcular um conjunto de médias de bloco, ou médias móveis simples (de ordem k): Cada medida representa a média dos valores de dados sobre um intervalo de k observações. Observe que o primeiro MA possível de ordem k gt0 é aquele para t k. De forma mais geral, podemos descartar o subíndice extra nas expressões acima e escrever: Isto indica que a média estimada no tempo t é a média simples do valor observado no instante t e os intervalos de tempo anteriores k-1. Se forem aplicados pesos que diminuam a contribuição de observações que estão mais distantes no tempo, a média móvel é dita ser suavizada exponencialmente. As médias móveis são frequentemente utilizadas como uma forma de previsão, pelo que o valor estimado para uma série no tempo t 1, S t 1. É tomado como o MA para o período até e incluindo o tempo t. por exemplo. A estimativa de hoje é baseada em uma média de valores anteriores registrados até e inclusive ontem (para dados diários). As médias móveis simples podem ser vistas como uma forma de suavização. No exemplo ilustrado abaixo, o conjunto de dados sobre poluição atmosférica mostrado na introdução deste tópico foi aumentado por uma linha de média móvel de 7 dias, mostrada aqui em vermelho. Como pode ser visto, a linha de MA suaviza os picos e depressões nos dados e pode ser muito útil na identificação de tendências. A fórmula de cálculo de referência padrão significa que os primeiros pontos de dados k-1 não têm valor de MA, mas depois disso os cálculos se estendem até o ponto de dados final da série. Uma razão para calcular médias móveis simples da maneira descrita é que ela permite que os valores sejam calculados para todos os intervalos de tempo desde o tempo tk até o presente, e Como uma nova medição é obtida para o tempo t 1, o MA para o tempo t 1 pode ser adicionado ao conjunto já calculado. Isso fornece um procedimento simples para conjuntos de dados dinâmicos. No entanto, existem alguns problemas com esta abordagem. É razoável argumentar que o valor médio nos últimos 3 períodos, digamos, deve ser localizado no tempo t -1, não no tempo t. E para um MA sobre um número par de períodos, talvez ele deve ser localizado no ponto médio entre dois intervalos de tempo. Uma solução para esse problema é usar cálculos centralizados de MA, nos quais o MA no tempo t é a média de um conjunto simétrico de valores em torno de t. Apesar de seus méritos óbvios, esta abordagem não é geralmente usada porque exige que os dados estejam disponíveis para eventos futuros, o que pode não ser o caso. Nos casos em que a análise é inteiramente de uma série existente, o uso de Mas centralizado pode ser preferível. As médias móveis simples podem ser consideradas como uma forma de suavização, removendo alguns componentes de alta freqüência de uma série de tempo e destacando (mas não removendo) as tendências de forma semelhante à noção geral de filtragem digital. De fato, as médias móveis são uma forma de filtro linear. É possível aplicar um cálculo da média móvel a uma série que já tenha sido suavizada, isto é, suavizar ou filtrar uma série já suavizada. Por exemplo, com uma média móvel de ordem 2, podemos considerá-la como sendo calculada usando pesos, então a MA em x 2 0,5 x 1 0,5 x 2. Da mesma forma, a MA em x 3 0,5 x 2 0,5 x 3. Se nós Aplicar um segundo nível de suavização ou filtragem, temos 0,5 x 2 0,5 x 3 0,5 (0,5 x 1 0,5 x 2) 0,5 (0,5 x 2 0,5 x 3) 0,25 x 1 0,5 x 2 0,25 x 3 ou seja, a filtragem de 2 estádios Processo (ou convolução) produziu uma média móvel simétrica ponderada variável, com pesos. Várias circunvoluções podem produzir médias móveis ponderadas bastante complexas, algumas das quais foram encontradas de uso particular em campos especializados, como nos cálculos de seguros de vida. As médias móveis podem ser usadas para remover efeitos periódicos se computadas com o comprimento da periodicidade como um conhecido. Por exemplo, com os dados mensais as variações sazonais podem frequentemente ser removidas (se este for o objetivo) aplicando uma média móvel simétrica de 12 meses com todos os meses ponderados igualmente, exceto o primeiro eo último que são ponderados por 12. Isto é porque haverá Ser de 13 meses no modelo simétrico (tempo atual, t. - 6 meses). O total é dividido por 12. Procedimentos semelhantes podem ser adotados para qualquer periodicidade bem definida. Médias móveis exponencialmente ponderadas (EWMA) Com a fórmula da média móvel simples: todas as observações são igualmente ponderadas. Se chamássemos esses pesos iguais, alfa t. Cada um dos k pesos seria igual a 1 k. Então a soma dos pesos seria 1, ea fórmula seria: Já vimos que múltiplas aplicações desse processo resultam em pesos variando. Com médias móveis ponderadas exponencialmente, a contribuição para o valor médio das observações que são mais removidas no tempo é deliberada reduzida, enfatizando os eventos mais recentes (locais). Essencialmente um parâmetro de suavização, 0lt alfa lt1, é introduzido, ea fórmula revisada para: Uma versão simétrica desta fórmula seria da forma: Se os pesos no modelo simétrico são selecionados como os termos dos termos da expansão binomial, (1212) 2q. Eles somarão a 1, e quando q se tornar grande, aproximar-se-á da distribuição Normal. Esta é uma forma de ponderação do kernel, com o Binomial agindo como a função do kernel. A convolução de dois estágios descrita na subseção anterior é precisamente esta disposição, com q 1, produzindo os pesos. Em suavização exponencial é necessário usar um conjunto de pesos que somam 1 e que reduzem em tamanho geometricamente. Os pesos usados ​​são tipicamente da forma: Para mostrar que esses pesos somam 1, considere a expansão de 1 como uma série. Podemos escrever e expandir a expressão entre parênteses usando a fórmula binomial (1-x) p. Onde x (1-) e p -1, o que dá: Isso então fornece uma forma de média móvel ponderada da forma: Esta soma pode ser escrita como uma relação de recorrência: o que simplifica muito a computação e evita o problema de que o regime de ponderação Deve ser estritamente infinito para os pesos a somar a 1 (para pequenos valores de alfa, isso normalmente não é o caso). A notação utilizada por diferentes autores varia. Alguns usam a letra S para indicar que a fórmula é essencialmente uma variável suavizada e escrevem: enquanto a literatura da teoria de controle usa freqüentemente Z em vez de S para os valores exponencialmente ponderados ou suavizados (ver, por exemplo, Lucas e Saccucci, 1990, LUC1 , Eo site do NIST para mais detalhes e exemplos trabalhados). As fórmulas citadas acima derivam do trabalho de Roberts (1959, ROB1), mas Hunter (1986, HUN1) usa uma expressão da forma: que pode ser mais apropriada para uso em alguns procedimentos de controle. Com alfa 1, a estimativa média é simplesmente o seu valor medido (ou o valor do item de dados anterior). Com 0,5 a estimativa é a média móvel simples das medições atuais e anteriores. Nos modelos de previsão, o valor, S t. É freqüentemente usado como estimativa ou valor de previsão para o próximo período de tempo, ou seja, como a estimativa para x no tempo t 1. Assim, temos: Isto mostra que o valor da previsão no tempo t 1 é uma combinação da média móvel exponencialmente ponderada anterior Mais um componente que representa o erro de previsão ponderado, epsilon. No tempo t. Supondo que uma série temporal é dada e uma previsão é necessária, um valor para alfa é necessário. Isto pode ser estimado a partir dos dados existentes, avaliando a soma dos erros de predição quadrados obtidos com valores variáveis ​​de alfa para cada t 2,3. Definindo a primeira estimativa como o primeiro valor de dados observado, x 1. Em aplicações de controle, o valor de alfa é importante na medida em que é usado na determinação dos limites de controle superior e inferior, e afeta o comprimento médio de execução (ARL) esperado Antes que esses limites de controle sejam quebrados (sob o pressuposto de que as séries temporais representam um conjunto de variáveis ​​independentes, aleatoriamente distribuídas, com variância comum). Nestas circunstâncias, a variância da estatística de controlo é (Lucas e Saccucci, 1990): Os limites de controlo são usualmente definidos como múltiplos fixos desta variância assintótica, e. - 3 vezes o desvio padrão. Se alfa 0,25, por exemplo, e os dados sendo monitorados forem assumidos como tendo uma distribuição Normal, N (0,1), quando em controle, os limites de controle serão - 1,134 e o processo atingirá um ou outro limite em 500 passos na média. Lucas e Saccucci (1990 LUC1) derivam os ARLs para uma ampla gama de valores alfa e sob várias suposições usando procedimentos de Cadeia de Markov. Eles tabulam os resultados, incluindo o fornecimento de ARLs quando a média do processo de controle foi deslocada por algum múltiplo do desvio padrão. Por exemplo, com um deslocamento 0,5 com alfa 0,25 o ARL é menos de 50 etapas de tempo. As abordagens descritas acima são conhecidas como suavização exponencial única. Uma vez que os procedimentos são aplicados uma vez à série temporal e, em seguida, análises ou processos de controlo são realizados no conjunto de dados suavizado resultante. Se o conjunto de dados incluir uma tendência e / ou componentes sazonais, a suavização exponencial de dois ou três estágios pode ser aplicada como um meio de remover (explicitamente modelar) esses efeitos (veja a seção sobre Previsão abaixo eo exemplo trabalhado pelo NIST). CHA1 Chatfield C (1975) A Análise da Série de Tempos: Teoria e Prática. Chapman e Hall, Londres HUN1 Hunter J S (1986) A média móvel exponencialmente ponderada. J of Quality Technology, 18, 203-210 LUC1 Lucas J M, Saccucci M S (1990) Esquemas de controlo da média móvel ponderada exponencialmente: propriedades e melhoramentos. Technometrics, 32 (1), 1-12 ROB1 Roberts S W (1959) Testes de gráficos de controle baseados em médias móveis geométricas. Technometrics, 1, 239-250Time Series Analysis and Forecasting Muitos tipos de dados são coletados ao longo do tempo. Os preços das ações, os volumes de vendas, as taxas de juros e as medições de qualidade são exemplos típicos. Devido à natureza sequencial dos dados, são necessárias técnicas estatísticas especiais que dão conta da natureza dinâmica dos dados. Os produtos Statpoint Technologies fornecem vários procedimentos para lidar com dados de séries temporais: Gráficos de execução dos serviços da Web do Statgraphics O procedimento Gráfico de execução traça dados contidos em uma única coluna numérica. Presume-se que os dados são de natureza seqüencial, consistindo de indivíduos (uma medida tomada em cada período de tempo) ou subgrupos (grupos de medidas em cada período de tempo). Os testes são realizados nos dados para determinar se eles representam uma série aleatória, ou se há evidência de mistura, agrupamento, oscilação ou tendência. Métodos descritivos Caracterizar uma série de tempo envolve estimar não somente um desvio médio e padrão mas também as correlações entre observações separadas no tempo. Ferramentas como a função de autocorrelação são importantes para exibir a maneira pela qual o passado continua a afetar o futuro. Outras ferramentas, como o periodograma, são úteis quando os dados contêm oscilações em freqüências específicas. Quando uma série de tempo contém uma grande quantidade de ruído, pode ser difícil visualizar qualquer tendência subjacente. Vários alisadores lineares e não lineares podem ser usados ​​para separar o sinal do ruído. Decomposição sazonal Quando os dados contêm um forte efeito sazonal, muitas vezes é útil separar a sazonalidade dos outros componentes da série temporal. Isso permite estimar os padrões sazonais e gerar dados ajustados sazonalmente. Previsão (modelo especificado pelo usuário) Um objetivo comum da análise de séries temporais é extrapolar comportamentos passados ​​para o futuro. Os procedimentos de previsão STATGRAPHICS incluem passeios aleatórios, médias móveis, modelos de tendência, suavização exponencial linear, quadrática e sazonal e modelos de séries temporais paramétricos ARIMA. Os usuários podem comparar vários modelos por retenção de amostras no final da série temporal para fins de validação. Previsão (Seleção Automática de Modelos) Se desejado, os usuários podem optar por deixar o STATGRAPHICS selecionar um modelo de previsão para eles, comparando vários modelos e escolhendo automaticamente o modelo que maximiza um critério de informações especificado. Os critérios disponíveis baseiam-se no erro médio de previsão quadrática, penalizado pelo número de parâmetros do modelo que devem ser estimados a partir dos dados. Um uso comum deste procedimento no Seis Sigma é selecionar um modelo ARIMA no qual se baseia um gráfico de controle ARIMA, que ao contrário da maioria dos gráficos de controle não assume a independência entre as medidas sucessivas. Em tais casos, o analista pode optar por considerar apenas modelos da forma ARMA (p, p-1), que a teoria sugere pode caracterizar muitos processos dinâmicos.

No comments:

Post a Comment