O R é uma linguagem e ambiente para análise estatística e produção de gráficos, um projeto GNU semelhante a linguagem S, foi desenvolvido pelos estatísticos Ross Ihaka e Robert Gentleman na década de 90 quando precisavam utilizar programas pagos em seus projetos.
R2. R 2 representa a porcentagem de variação na resposta que é explicada pelo modelo. Ele é calculado como 1 menos a razão da soma dos quadrados dos erros (que é a variação que não é explicada pelo modelo) para a soma total dos quadrados (que é a variação total no modelo).
Entretanto, o valor do coeficiente de determinação depende do número de observações (n), tendendo a crescer quando n diminui. Se n=2, tem-se sempre R2=1. O R2 deve ser usado com precaução, pois é sempre possível torná-lo maior pela adição de um número suficiente de termos ao modelo.
Quanto maior for o valor absoluto do coeficiente, mais forte é a relação entre as variáveis. Para a correlação de Pearson, um valor absoluto de 1 indica uma relação linear perfeita. A correlação perto de 0 indica que não há relação linear entre as variáveis. O sinal de cada coeficiente indica a direção da relação.
O R-quadrado ajustado é uma versão modificada do R-quadrado que foi ajustada para o número de preditores no modelo. O R-quadrado ajustado aumenta somente se o novo termo melhorar o modelo mais do que seria esperado pelo acaso. Ele diminui quando um preditor melhora o modelo menos do que o esperado por acaso.
Como eu interpreto os valores-P na Análise de regressão linear? O valor-p para cada termo testa a hipótese nula de que o coeficiente é igual a zero (sem efeito). Um valor-p baixo (< 0,05) indica que você pode rejeitar a hipótese nula.
Na regressão linear simples, a relação entre duas variáveis pode ser representada por uma linha reta, criando uma relação direta de causa e efeito. Assim, será possível prever os valores de uma variável dependente com base nos resultados da variável independente, como ocorre num gráfico de uma equação de primeiro grau.
Para montar a equação é necessário pegar o valor do intercepto e da inclinação: y = 0,3586 + 0,7043x. Além disso, por meio do teste de Shapiro Wilk (W) é possível atestar a normalidade dos dados (p = 0,33) e através da inspeção visual dos resíduos verifica-se que os mesmos distribuem-se de forma igual.
Usando o R: A função que realiza o ajuste da reta ou modelo de regressão linear no R é a lm(). No R, dados em tabelas são objetos do tipo data frame, nos quais cada coluna corresponde a uma variável e cada linha corresponde a uma observação.
Estas técnicas diferem em termos de tipo de variáveis dependentes e independentes e distribuição.
A solução proposta, regressão quadrática (RQ), possibilita, ainda segundo o autor, testar a forma da função que a diferença de pontuação pretende representar, ao invés de assumi-la como uma função linear.
Gráfico 4: Relação não linear Se uma relação entre duas variáveis não é linear, a taxa de aumento ou diminuição pode mudar como uma mudança de variáveis, causando um "padrão curvo" nos dados.
Muitas vezes pensamos em uma relação entre duas variáveis como uma linha reta. Ou seja, se você aumentar a preditora em 1 unidade, a resposta sempre aumentará em X unidades. Entretanto, nem todos os dados têm uma relação linear e seu modelo deve se ajustar às curvas presentes nos dados.