Os testes paramétricos típicos só podem avaliar dados contínuos e os resultados podem ser significativamente afetados por outliers. Em contrapartida, alguns testes não paramétricos podem manusear dados ordinais, dados ordenados e não serem seriamente afetados por outliers.
Em outras palavras, a análise de variância é utilizada quando se quer decidir se as diferenças amostrais observadas são reais (causadas por diferenças significativas nas populações observadas) ou casuais (decorrentes da mera variabilidade amostral).
Quais dados devem ser utilizados para expressar um conjunto de dados não paramétrico? ... a) Média e desvio-padrão, porque são informações melhores e mais completas, já que consideram todos os dados do conjunto de dados.
Para amostras de dimens˜ao superior ou igual a 30 aconselha-se o teste de Kolmogorov-Smirnov com a correcç˜ao de Lilliefors; para amostras de dimens˜ao mais reduzida é mais indicado o teste de Shapiro-Wilk.
é usada para testar a hipótese nula que a função de distribuição acumulada Fx é igual a alguma função de distribuição, sob hipótese, S(x), ou seja, {H0:F(x)=S(x)H1:F(x)≠S(x).
O objetivo da normalização é alterar os valores das colunas numéricas no conjunto de dados para uma escala comum, sem distorcer as diferenças nos intervalos de valores. Para o aprendizado de máquina, nem todos os conjuntos de dados requerem normalização.
A função STANDARDIZE retorna o valor padronizado “z” de uma distribuição caracterizada por uma média e um desvio padrão. A função pede o seguinte: STANDARDIZE(x, mean, standard_dev) [PADRONIZAÇAO(x, media, desv_padrão)]: · x é o valor que se deseja padronizar que, nesse exemplo, são as notas dos professores.