O termo regressão foi utilizado pela primeira vez por
Galton, por volta de 1885, quando investigava relações entre características
antropométricas de sucessivas gerações. Ele observou, que os filhos
apresentavam as mesmas características dos seus pais, porém em uma intensidade
menor.
Por exemplo: pais com estatura baixa têm filhos de
estatura baixa, mas, em média, a estatura destes é maior. O mesmo ocorre, mas
em direção contrária, para pais com estatura alta. Este fenômeno, da altura dos
filhos moveu-se em direção a altura média de todos os homens, ele denominou de
regressão. A regressão linear é chamada "linear" porque se
considera que a relação da resposta às variáveis é uma função linear de alguns
parâmetros. Os modelos de regressão que não são uma função linear dos
parâmetros se chamam modelos de regressão não-linear.
Regressão Linear
A regressão linear simples constitui uma tentativa de estabelecer
uma equação matemática linear (linha reta) que descreva o relacionamento entre duas variáveis.
Para se compreender melhor o que se deseja mostrar, vamos
iniciar o conteúdo com um exemplo aplicado na área administrativa.
Neste caso, apresentamos uma
tabela que relaciona o numero de clientes, com vendas totais efetuadas por um determinada
loja no período de 20 semanas.
O
objetivo
É prever as vendas futuras com base na
quantidade de clientes estimados para a próxima semana.
Neste caso, nossa variável independente é o cliente (x). E a dependente é vendas (y). Isso quer dizer que: Vendas
depende de cliente. E por outro lado clientes não dependem de vendas
.
Visualmente, o que podemos
perceber é que, a medida que a quantidade de clientes aumentam, as vendas
também aumentam.
Então precisamos agora,
determinar uma forma de prever essa quantidade de vendas e de alguma forma
relacioná-la com a quantidade de clientes.
Uma das premissas assumida de quando fazemos uma analise
de regressão é a de que estamos assumindo que a amostra apresentada é
representativa de uma população.
Para A analise de Regressão, é desejável
a construção de um gráfico Bidimensional denominado, Diagrama de Dispersão.
Cada valor é marcado em função das coordenadas X e Y.
Coeficiente de Correlação de Pearson
Um indicador da a força de uma relação
Linear entre duas variáveis intervalares é o coeficiente de correlação ou
Coeficiente de Pearson.
Regressão Linear (a reta de regressão)
Olhando para o diagrama de
dispersão podemos ter uma idéia de uma relação entre duas variáveis.
O
modelo de regressão pode ser representado como
Principais características:
- O coeficiente angular da
reta é dado pela tangente da reta e se denomina “β”.
-
A cota da reta em determinado ponto é o
coeficiente linear denominado “α”,
que é o valor de Y quando X=0.
- εi representa uma
variável aleatória que descreve o erro de Y para cada observação i.
Para um único valor de Xi
poderão ocorrer um ou mais valores de Yi mostrados.
Por exemplo, para x = 929
temos y=9,46 e y= 8,95. Há apenas um Yi projetado para cada valor, porem há
observações que não são pontos da reta.
Para cada valor xi há uma
diferença entre o valor da amostra Yi e
o valor projetado Yi. Essa diferença é denominado desvio di.
O Método dos Mínimos
Quadrados é uma técnica de otimização matemática que procura encontrar o melhor
ajuste para um conjunto de dados tentando minimizar a soma dos quadrados das
diferenças entre o valor estimado e os dados observados (tais diferenças são
chamadas resíduos).É a forma de estimação mais amplamente utilizada na
econometria. Consiste em um estimador que minimiza a soma dos quadrados dos
resíduos da regressão, de forma a maximizar o grau de ajuste do modelo aos
dados observados.
Um requisito para o método
dos mínimos quadrados é que o fator imprevisível (erro) seja distribuído
aleatoriamente, essa distribuição seja normal e independente. O Teorema
Gauss-Markov garante (embora indiretamente) que o estimador de mínimos
quadrados é o estimador não-enviesado de mínima variância linear na variável
resposta. Outro requisito é que o modelo é linear nos parâmetros, ou seja, as
variáveis apresentam uma relação linear entre si. Caso contrário, deveria ser
usado um modelo de regressão não-linear.
Queremos estimar valores que determinada variável
. Para isso, consideramos os valores de outra variável
que acreditamos ter
poder de explicação sobre
conforme a fórmula:
Também temos uma base de dados com
valores observados de
e de
. Perceba que, usando a base de dados,
e
são vetores, ou seja,
representam uma lista de valores, um para cada observação da base de dados. O
método dos mínimos quadrados ajuda a encontrar as estimativas de
e
. Como o nome diz, serão somente estimativas desses
parâmetros, porque o valor real dos parâmetros são desconhecidos. Portanto, ao
fazer a estimativa, mudamos a notação de algumas variáveis:
A ideia por trás dessa técnica é que, minimizando a
soma do quadrado dos resíduos, encontraremos
e
que trarão a menor
diferença entre a previsão de
e o
realmente observado.
Nenhum comentário:
Postar um comentário