Como interpretar o boxplot? O boxplot nos fornece uma análise visual da posição, dispersão, simetria, caudas e valores discrepantes (outliers) do conjunto de dados. Posição – Em relação à posição dos dados, observa-se a linha central do retângulo (a mediana ou segundo quartil).
O boxplot pode ser utilizado para se estudar várias características do conjunto de dados. Por exemplo, para determinar a simetria dos dados basta observar se a média é igual (ou próxima) à mediana, pois, nesse caso, os dados são simétricos.
OBSERVAÇÃO. Quanto mais uniforme forem os valores, mais próximo de zero estará o desvio padrão. Quando todos valores são iguais o desvio padrão é zero. Assim a amostra é perfeitamente uniforme.
Já normalizar tem como objetivo colocar as variáveis dentro do intervalo de 0 e 1, caso tenha resultado negativo -1 e 1. Se a distribuição não é Gaussiana ou o desvio padrão é muito pequeno, normalizar os dados é uma escolha a ser tomada.
O objetivo da normalização é alterar os valores das colunas numéricas no conjunto de dados para uma escala comum, sem distorcer as diferenças nos intervalos de valores. Para o aprendizado de máquina, nem todos os conjuntos de dados requerem normalização.
Normalização de banco de dados é um conjunto de regras que visa, principalmente, a organização de um projeto de banco de dados para reduzir a redundância de dados, aumentar a integridade de dados e o desempenho.
Se analisarmos uma tupla e não encontrarmos um atributo não chave dependente de outro atributo não chave, podemos dizer que a entidade em questão está na terceira forma normal - contanto que esta não vá de encontro as especificações da primeira e da segunda forma normal.
Uma tabela está na Segunda Forma Normal 2FN se ela estiver na 1FN e todos os atributos não chave forem totalmente dependentes da chave primária (dependente de toda a chave e não apenas de parte dela). Se o nome do produto já existe na tabela produtos, então não é necessário que ele exista na tabela de produtos.