Para construí-lo, há várias maneiras, mas o início dá-se pelo cálculo do primeiro quartil, a mediana e o terceiro quartil. A linha inferior, é o primeiro quartil, ou limite dos 25% dos dados. A linha média é a mediana e a linha superior é o terceiro quartil.
Quartis são os três valores — o 1 o quartil a 25% (Q1), o segundo quartil a 50% (Q2 ou mediana) e o terceiro quartil a 75% (Q3)— que dividem uma amostra de dados ordenados em quatro partes iguais. O terceiro quartil é o 75 o percentil e indica que 75% dos dados são menores ou iguais a este valor.
A análise de dados é um processo de inspeção, limpeza, transformação e modelagem de dados com o objetivo de descobrir informações úteis, informar conclusões e apoiar a tomada de decisões.
Existem muitas ferramentas que nos auxiliam no tratamento de outliers. Se o conjunto de dados possui muitos valores anômalos, ferramentas que usam média e variância podem não funcionar bem. Para esses casos o RobustScaler pode ser uma ótima alternativa.
Removendo linhas Sabemos que podemos utilizar o método drop() para retirar uma linha.
Método para excluir linha no valor da coluna em Pandas dataframe. O método drop aceita um único ou lista de nomes de colunas e apaga as linhas ou colunas. Para linhas definimos o parâmetro axis=0 e para coluna definimos axis=1 (por padrão axis é 0 ).
Excluir uma linha, coluna ou célula de uma tabela
Navegue até a Página Inicial – Classificar e Filtrar – Filtro, ou pressione as teclas de atalho Shift + Ctrl + L. Após isso selecione uma coluna, clique no filtro suspenso, desmarque todos os valores com exceção de (Vazias) e clique em “Ok”. Agora é só deletar as linhas vazias conforme o método anterior.