Análise de Regressão

Os métodos estatísticos usados no estudo entre duas variáveis foram empregados pela primeira vez por Sir Francis Galton (1822- 1911). Galton estava interessado em estudar a relação entre a altura de um pai com a altura do filho. O discípulo de Galton, Karl Pearson (1857-1936), analisou a relação entre a altura de pai e filho para 1078 pares de indivíduos.

Em regressão linear simples, a análise dos dados bivariados envolve a medição de duas variáveis para cada elemento da amostra.

A análise de regressão não pode ser interpretada como um procedimento para estabelecer uma relação de causa e efeito entre variáveis. Pode apenas indicar como ou até que ponto as variáveis estão associadas umas com as outras. Qualquer conclusão sobre causa e efeito dever ser baseada no julgamento do conhecimento ou dos conhecimentos individuais da aplicação.

O método de mínimos quadrados fornece uma equação de regressão estimada que minimize a soma de desvios quadráticos entre os valores observados da variável dependente y e os valores estimados dessa variável. O critério dos mínimos quadrados escolhe a equação que fornece a melhor aproximação.

Ao desenvolver equações de regressão calculadas dos mínimos quadrados e ao computar o coeficiente de determinação, não fizemos nenhuma suposição probabilística e nenhuma estatística de teste para o significado da relação entre x e y. Valores maiores do coeficiente de determinação implicam que a linha de mínimos quadrados fornece o melhor ajuste aos dados: isto é, as observações são agrupadas de forma mais próxima ao redor da linha dos mínimos quadrados. Mas, usando apenas o coeficiente de determinação R2 , não podemos concluir se a relação entre x e y é estatisticamente significante. Tal conclusão deve ser baseada em considerações que envolvem o tamanho da amostra e propriedades das distribuições de amostragem apropriadas dos estimadores dos mínimos quadrados.

Na prática, para dados típicos encontrados em ciências sociais, valores de R2 tão baixos quanto 0,25 são geralmente considerados de utilidade. Para dados em ciências físicas, encontram-se valores de R2 de 0,60 ou maiores; de fato, em alguns casos, pode-se encontrar valores de R2 maiores que 0.90 aplicados a negócios, os valores de R2 variam enormemente, dependendo das características únicas da cada aplicação.

A análise de resíduos é o primeiro método que os profissionais da Estatística usam para verificar se suposições associadas com um modelo de regressão são válidas. Mesmo se nenhuma violação for encontrada, não significa necessariamente que o modelo fornecerá boas previsões. Entretanto, se além disso os testes estatísticos corroboram a conclusão de significância e o coeficiente de determinação é grande, deveríamos ser capazes de desenvolver boas estimativas usando a equação de regressão estimada.

Usamos plotagens residuais para validar as suposições de um modelo de regressão. A ação corretiva associada quando suposições são violadas devem ser baseadas em um bom julgamento. Se a análise residual indica que uma ou mais suposições são questionáveis, mas não necessariamente inválidas, o usuário deve ter cuidado ao interpretar os resultados da regressão.

E XEMPLO 1

O laboratório central de sensistometria da Polaroid deseja investigar a relação entre velociade do filme e a idade de um Polaroid de alcance estendido. Para isso selecionou filmes com idades (tempo de fabricação) entre um e treze meses. Nesse caso a variável resposta é a mudança na velocidade do filme e a variável explicativa (independente) é a idade do filme em meses.

y = Mudança na velocidade do filme

x = idade do filme em meses

= -19,8 – 7,6x

A análise de regressão foi utilizada para deduzir uma equação relacionando duas variáveis: mudança na velocidade do filme pela sua idade. Essa equação mostra que a diminuição média na velocidade do filme é de 7,6 unidades por mês. A informação obtida por essa análise, quando somada aos padrões de uso e compra dos consumidores, permite à Polaroid a fazer ajustes na produção que ajudam a companhia a produzir filmes com o nível de performance exigido pelo consumidor.