Uma forma de detectar outliers é através da faixa interquartil (FIQ), que é a diferença entre o terceiro e o primeiro quartil. Uma regra muito utilizada é que um outlier está no intervalo menor que 1.
outlier n. estranho sm. Ex. "ator", "menino", etc.
A análise de dados é um processo de inspeção, limpeza, transformação e modelagem de dados com o objetivo de descobrir informações úteis, informar conclusões e apoiar a tomada de decisões.
Uma ótima forma de identificar Outliers é plotando um gráfico de BoxPlot dos valores.
Existem muitas ferramentas que nos auxiliam no tratamento de outliers. Se o conjunto de dados possui muitos valores anômalos, ferramentas que usam média e variância podem não funcionar bem. Para esses casos o RobustScaler pode ser uma ótima alternativa.
Removendo linhas Sabemos que podemos utilizar o método drop() para retirar uma linha.
Método para excluir linha no valor da coluna em Pandas dataframe. O método drop aceita um único ou lista de nomes de colunas e apaga as linhas ou colunas. Para linhas definimos o parâmetro axis=0 e para coluna definimos axis=1 (por padrão axis é 0 ).
Excluir uma linha, coluna ou célula de uma tabela
Também podemos usar o Pandas Chaining para filtrar pandas dataframe filtro por valor de coluna. Neste método, utilizamos o método pandas. DataFrame. eq() para a coluna DataFrame cujos valores devem ser verificados para comparar a igualdade dos elementos em DataFrame.
Para criar um dataframe com o pandas, primeiro nós temos que importar o pandas.
Como adicionar uma nova coluna ao DataFrame existente com valor padrão em Pandas. Podemos utilizar métodos assign() e insert() de objetos DataFrame para adicionar uma nova coluna ao DataFrame existente com valores padrão. Também podemos atribuir diretamente um valor padrão à coluna de DataFrame a ser criada.
Você pode renomear as colunas usando dois métodos.
Python para Ciência de Dados – Dataframes – Parte 1
Ocultando as Colunas não utilizadas:
Navegue até a Página Inicial – Classificar e Filtrar – Filtro, ou pressione as teclas de atalho Shift + Ctrl + L. Após isso selecione uma coluna, clique no filtro suspenso, desmarque todos os valores com exceção de (Vazias) e clique em “Ok”. Agora é só deletar as linhas vazias conforme o método anterior.