Atualizado em
Outlier: Entenda o que é e como ele afeta dados estatísticos
A estatística é uma ferramenta poderosa para desvendar segredos nos dados. Com ela, podemos identificar tendências, padrões e mesmo causas e efeitos. No entanto, há um conceito importante que é frequentemente negligenciado: o outlier. É uma parte fundamental da análise estatística, mas até pouco tempo atrás, era um desconhecido para muitos. Nesse artigo, vamos entender o que é um outlier, como ele afeta os dados estatísticos e por que é tão importante compreendê-lo.
Nós, os estatísticos, sabemos que a análise de dados é fundamentada no pressuposto de que os dados em questão são representativos da população a que se refere. Mas, e quando esses dados apresentam valores extremos que não se ajustam às tendências estatísticas? Isso é exatamente o que acontece com um outlier. Devemos aceitá-lo como um erro ou reconhecê-lo como uma oportunidade de conhecimento?
O que é um outlier?
Um outlier (em inglês, out-lier, ou seja, fora da linha) é um valor de um conjunto de dados que se desvia significativamente da média ou da medida de dispersão do conjunto. Em outras palavras, é um valor que está muito longe dos demais, ou seja, ele "cai fora" da norma. Esses valores extremos podem ter impactos significativos na análise de estatística, especialmente quando se trata de entender as características da população em estudo.
Imagine que você está analisando a altura da população de uma cidade. Você colheu 100 dados e calcula a média da altura, que é de 1,70 metros. No entanto, ao analisar esses dados, você nota que um indivíduo tem uma altura de 2,30 metros, que é mais de 40% acima da média. Aqui, o outlier está evidente e pode prejudicar a análise estatística como um todo, pois ele está inflando a média e criando uma imagem distorcida da população.
Agora que você entendeu o que é um outlier, vamos explorar como identificá-lo e o impacto que ele tem nos dados estatísticos.
Identificando Outliers
A identificação de outliers é Crucial para garantir que a análise estatística seja fidedigna. Existem várias maneiras de identificar outliers, e aqui estão algumas das principais:
- Método dos quintis: Essa técnica envolve descobrir os valores que estão fora do recorte superior e inferior (como mínimo e máximo) do 95% dos dados. Se os dados apresentam grandes variações, o método dos quintis pode não funcionar bem.
- Método da média e desvio padrão: Aqui, você calcula a média e desvio padrão dos dados e identifica os valores que estão mais de duas desvios padrão acima ou abaixo da média.
- Método visual: Examine os gráficos e dados de dispersão visualmente para identificar valores anormais.
Além disso, um outlier pode ser identificado pela análise de indicadores quantitativos, como:
- Quartil chave (Q1, Q3, IQR): o intervalo entre quartil superior (Q3) e quartil inferior (Q3).
- Média e desvio padrão: indicam a dispersão dos dados.
- Robustesssa: valores robustos para média e desvio padrão que são menos suscetíveis a valores extremos.
Impacto dos outliers nos dados estatísticos
Os outliers podem ter um grande impacto nos dados estatísticos. Aqui estão alguns exemplos:
- Falsificação da média: como mencionado anteriormente, os outliers podem inflar a média e criar uma imagem distorcida da população.
- Alteração da dispersão: os outliers podem aumentar a dispersão dos dados, tornando difícil identificar a relação entre as variáveis.
- Sobrestimulação ou subestimulação do modelo estatístico: os outliers podem influenciar os resultados do modelo estatístico e conduzir a interpretações erroneas.
Tratamento dos outliers
O que fazer com os outliers? Existem várias abordagens ao tratar os outliers:
- Remoção dos dados: remover os dados de outlier completamente. Esta abordagem é simples, mas elimina possíveis informações úteis nos dados a serem analisados.
- Estimativa do modelo: usar apenas os dados dentro de uma determinada inclusão. Nesse caso, o outlier não afeta o modelo do efeito.
- Aplicar um filtro e gerar uma media com uma abordagem robusta (como a medias de harmônica e exponencial, por exemplo)
- Transformação dos dados: transformar os dados de forma a minimizar o impacto dos outliers.
- Inclusão dos outliers na análise: por exemplo, determinar uma região em que dados fora da norma sejam incluídos na análise.
- Modelagem específica para outliers: ou seja, fazer um modelo que passe as distribuições dos dados, como a distribuição em normal e Laplace.
De qualquer forma, é importante considerar as alternativas já mencionadas ao determinar uma abordagem eficaz para lidar com a influência de dados baseados em populações anormais durante o tratamento dos outliers ao determinar um poder maior de suas propriedades de tratamento dos dados.
Conclusão
Em resumo, os outliers são uma parte fundamental da análise estatística. Eles podem ser identificados usando várias técnicas e possuem um impacto significativo nos dados estatísticos. Existem várias abordagens para lidar com os outliers e, dependendo do contexto, pode ser necessário escolher a abordagem mais apropriada.
Lembre-se, o estatístico deve tratar os outliers com cuidado e considerar todas as alternativas ao decidir como lidar com eles. Uma abordagem crítica e rigorosa é fundamental para garantir a precisão e confiabilidade da análise estatística.
Freqüentemente Perguntadas - FAQ
Como posso tratar os outliers em minhas análises estatísticas?
- Você pode usar vários métodos, como: remover os dados de outlier, aplicar uma transformação nos dados, filtrar os outliers de de maneira que não interferem na distribuição dos demais dados, criar modelos de dados anormais etc.
Por que os outliers são importantes?
- Podem afetar a análise estatística: os outliers podem afetar a analise de dados em geral, e podem prejudicar a medição dos dados e na identificativa de padrões que podem ser apontados como causalidade (os outliers podem criar erros nas medições, o que pode limitar os critérios dos padrões existentes),.
Quais são as principais técnicas para identificar outliers?
- Elas varia de forma expressiva, como o uso de distribuição dos dados normal. Por sobre algumas das principais, temos:
- O uso de quartila-chaves
- O uso dos quintis (5% e 95% da distribuição de valores)
- O uso de pontos mais longes
Referências
[1] * Business Balls https://www.businessballs.com/statiscticsbasics/index.htm#normalscrap; (03-07-2022) [2] Wikipedia https://pt.wikipedia.org/wiki/Outlier [4] * * Investopediahttps://www.investopedia.com/term/999/outlier.asp [0] Aguí Uma página excelente de referência está sob o nome, do estudo de dados Waffle house* que introduziu a cegueira estatística pela sua abordagem aos outliers até então ignorados https://www.federated.co/waffle-house/