terça-feira, 28 de abril de 2015



O termo regressão foi utilizado pela primeira vez por Galton, por volta de 1885, quando investigava relações entre características antropométricas de sucessivas gerações. Ele observou, que os filhos apresentavam as mesmas características dos seus pais, porém em uma intensidade menor.
Por exemplo: pais com estatura baixa têm filhos de estatura baixa, mas, em média, a estatura destes é maior. O mesmo ocorre, mas em direção contrária, para pais com estatura alta. Este fenômeno, da altura dos filhos moveu-se em direção a altura média de todos os homens, ele denominou de regressão. A regressão linear é chamada "linear" porque se considera que a relação da resposta às variáveis é uma função linear de alguns parâmetros. Os modelos de regressão que não são uma função linear dos parâmetros se chamam modelos de regressão não-linear.



Regressão Linear

 
A regressão linear simples constitui uma tentativa de estabelecer uma equação matemática linear (linha reta) que descreva o  relacionamento entre duas variáveis.
Para se compreender melhor o que se deseja mostrar, vamos iniciar o conteúdo com um exemplo aplicado na área administrativa.
Neste caso, apresentamos uma tabela que relaciona o numero de clientes, com vendas totais efetuadas por um determinada loja no período de 20 semanas.




O objetivo
É prever as vendas futuras com base na quantidade de clientes estimados para a próxima semana.
Neste caso, nossa variável independente é o cliente (x). E a dependente é vendas (y). Isso quer dizer que: Vendas depende de cliente. E por outro lado clientes não dependem de vendas   .





Visualmente, o que podemos perceber é que, a medida que a quantidade de clientes aumentam, as vendas também aumentam.
Então precisamos agora, determinar uma forma de prever essa quantidade de vendas e de alguma forma relacioná-la com a quantidade de clientes.
Uma das premissas assumida de quando fazemos uma analise de regressão é a de que estamos assumindo que a amostra apresentada é representativa de uma população.
 

Para A analise de Regressão, é desejável a construção de um gráfico Bidimensional denominado, Diagrama de Dispersão. Cada valor é marcado em função das coordenadas X e Y.

Coeficiente de Correlação de Pearson


Um indicador da a força de uma relação Linear entre duas variáveis intervalares é o coeficiente de correlação ou Coeficiente de Pearson.

 




           Regressão Linear (a reta de regressão)


Olhando para o diagrama de dispersão podemos ter uma idéia de uma relação entre duas variáveis.
O modelo de regressão pode ser representado como




Principais características:
- O coeficiente angular da reta é dado pela tangente da reta e se denomina “β”.
-          A cota da reta em determinado ponto é o coeficiente linear denominado “α”, que é o valor de Y quando X=0.
- εi representa uma variável aleatória que descreve o erro de Y para cada observação i.
Para um único valor de Xi poderão ocorrer um ou mais valores de Yi mostrados.
Por exemplo, para x = 929 temos y=9,46 e y= 8,95. Há apenas um Yi projetado para cada valor, porem há observações que não são pontos da reta.
Para cada valor xi há uma diferença  entre o valor da amostra Yi e o valor projetado Yi. Essa diferença é denominado desvio di.

 



O Método dos Mínimos Quadrados é uma técnica de otimização matemática que procura encontrar o melhor ajuste para um conjunto de dados tentando minimizar a soma dos quadrados das diferenças entre o valor estimado e os dados observados (tais diferenças são chamadas resíduos).É a forma de estimação mais amplamente utilizada na econometria. Consiste em um estimador que minimiza a soma dos quadrados dos resíduos da regressão, de forma a maximizar o grau de ajuste do modelo aos dados observados.
Um requisito para o método dos mínimos quadrados é que o fator imprevisível (erro) seja distribuído aleatoriamente, essa distribuição seja normal e independente. O Teorema Gauss-Markov garante (embora indiretamente) que o estimador de mínimos quadrados é o estimador não-enviesado de mínima variância linear na variável resposta. Outro requisito é que o modelo é linear nos parâmetros, ou seja, as variáveis apresentam uma relação linear entre si. Caso contrário, deveria ser usado um modelo de regressão não-linear.
Queremos estimar valores que determinada variável . Para isso, consideramos os valores de outra variável  que acreditamos ter poder de explicação sobre  conforme a fórmula:

 
Também temos uma base de dados com  valores observados de  e de . Perceba que, usando a base de dados,  e  são vetores, ou seja, representam uma lista de valores, um para cada observação da base de dados. O método dos mínimos quadrados ajuda a encontrar as estimativas de  e . Como o nome diz, serão somente estimativas desses parâmetros, porque o valor real dos parâmetros são desconhecidos. Portanto, ao fazer a estimativa, mudamos a notação de algumas variáveis:

  
A ideia por trás dessa técnica é que, minimizando a soma do quadrado dos resíduos, encontraremos  e  que trarão a menor diferença entre a previsão de  e o  realmente observado.

 
 




Nenhum comentário:

Postar um comentário