Saber Tecnologias

Publicado em
Atualizado em

O que são outliers: Conceito e Aplicação em Estatística


Introdução


Nossa equipe está constantemente lidando com dados, às vezes mais do que nunca. De sensores em máquinas, quantidades de pessoas visitando um estabelecimento, até o número de likes em nossas redes sociais, os dados podem vir em muitas formas. E então, temos a nossa atividade de identificar padrões, que ao longo da nossa carreira, nos fez ver e usar apenas alguns valores discrepantes em nossos dados. Neste artigo, vamos explorar ao longo do texto, o que são outliers, conceitos e técnicas usadas na busca por esses "anormais".

Conceito de Outliers


Outlier é um termo técnico usado para se referir a um dado que se distancia significativamente dos demais na base de dados. Essa definição surge da palavra Inglêsa 'out’ (fora de) + "lier" (colar), sugerindo algo que não está preso pelas regras da empresa, utilizando para isso seus vários valores para compor nossos dados. De repente, eles vêm com estranhos resultados, os quais o sistema tenta rejeitar.

Esses dados que nunca encaixam nem nos nossos modelos se adaptarão muito bem em nossas técnicas de Machine Learning, até mesmo em conceitos de estatística simples, para fins de regressão, por exemplo, sendo portanto um valor médio calculado. E alguns dados não se colam muito dentro nossa curva de distribuição. Quer dizer que muitos deles vão desorganizar as nossas curvas gráficas que por seus recursos de display serão úteis para outras análises detalhadas.

Alguns grupos os chamam por outliers. O estatístico John Tukey, por exemplo, em 1969 em [1], introduziu-o em seu livro “Exploratory Data Analysis”. Outis é uma palavra Inglês. Assim, ele ficou por ser o colar afastado.

Tipos de Outliers

Essa classe é composta por dois subgrupos principais de outliers: casuais e sistemáticos.

Outliers Casuais


O primeiro grupo é composto por dados que simplesmente ocorrem devido ao acaso. São denominados de anomalias. Eles podem ser facilmente identificados com o uso de dados faltantes e se enquadram na definição mencionado acima. Então, ainda existem muitos outliers casos que apenas acaso usamos para produzir os nossos modelos.

Nós devemos ter alguns casos fora da estrutura, até porque nos dados serão usados em projetos de carreira: é um jogo dinâmico, portanto precisamos estar preparados, inclusive para quando eles emergem fora do nosso mundo de tecnologia.

Outliers Sistemáticos


Por fim, há os outliers sistemáticos, que são frequentes em um conjunto de dados. Eles podem ser identificados a partir de dados faltantes ou apenas por sua regularidade em se repetir, eles são dados que você sente que o sistema de previsão está seguindo parâmetros ruins para eles serem corrigidos para que permaneçam com padrões. Sua origem é determinística.

Logo, o problema dos outliers não se trata de se estabelecer em como achar um outlier. Nem pensar que nossa função de inteligência artificial a fazer essa identificação precisa olhar em cada momento na sua vida para isso. Mas é verdade que são saudáveis em nossas ideias de como ajustar nossa curva.

Identificando Outliers


Mas, como podemos identificar outliers em nossos conjuntos de dados? Existem várias técnicas que podem ajudar a identificar essas anomalias. Vamos citar algumas:

Metodo de Box-Whisker


O método de Box-Whisker é uma ferramenta gráfica que pode ser usada para detectar outliers. Uma das formas de usá-lo é exibindo os valores ao longo da área de tolerância e verificando se existem valores que se enquadrem em outliers. Observamos o quadril no histograma do nosso dataset para identificar padrões.

Você também pode fazer o mesmo na sua linha temporal para ver quando surgem os outliers usando as várias linhas do seu histograma que temos usados tão felizmente ao longo dos anos.

Algoritmos de Regressão


Os algoritmos de regressão são métodos que podem ser usados para prever resultados com base em dados históricos. Ao usar esses algoritmos, podemos ver se os dados que estão sendo prevenidos são ou não outliers.

Aplicação de Outliers


Os outliers podem ser usados em muitos contextos diferentes. Aqui estão algumas aplicações de outliers:

Regressão


A regressão é uma das técnicas mais comuns que podem ser usadas quando pretendemos prever resultados com base em alguns dados históricos. Nela existem vários métodos como daqui um simples até alguns métodos como:

  • Liner (reta simples do ajuste) : aquele que fornece uma só lógica de ajuste linear em um gráfico com um único valor que representa a média.

  • Polynomio (ajuste polinomial com termos) *aproximação por reta * ajusta os dados com uma dada técnica

Então, um modelo de ajuste não confia na média para fazer ajustes em nossas bases de dados onde surgem os outliers.

Classificação


A classificação é uma técnica que pode ser usada quando tentamos determinar a probabilidade de um evento ocorrer.

Outliers em Machine Learning


Os outliers podem afetar a performance dos modelos de aprendizado de máquina. Entre eles, os outliers podem levar a uma variação de qualidade dos mesmos em um contexto mais amplo.

Interações


Aqui estão nossas considerações sobre o uso de outliers em contextos de Machine Learning, tanto com técnica de clustering quanto na classificação até casos de outliers onde o sistema fica mais fácil de ser usado: as interações das regra para a classificação podem levar a uma boa afirmação de códigos que fazem uso no sistema para ajustar mais de um outlier acima do padrão que até o nosso sistema está sendo usado, usando menos uso dos algoritmos e uma espécie de algoritmo para Machine Learning.

Conclusão


Em resumo, os outliers são dados que se destacam da norma de um conjunto de dados. Existem várias técnicas que podem ser usadas para detectar essas anomalias.

Entre elas, estão o Box-Whisker e os algoritmos de regressão. O uso de outliers pode ser beneficiado em várias aplicações, como regressão e classificação. Além disso, os outliers podem afetar negativamente a performance dos modelos de aprendizado de máquina.

Resposta à Perguntas Frequentes


Q: O que é um outlier?

A: O que é um outlier, ou seja, um dado que se distancia significativamente dos demais na base de dados

Q: Qual é a principal diferença entre um outlier e um dado típico?

A: a única diferença é que aquele valor da variável, se encaixar na distribuição da amostra.

Q: Existem técnicas que podem ser usadas para detectar outliers?

A: Sim, é através de técnicas como o Box-Whisker e os algoritmos de regressão.

Q: Por que os outliers são importantes?

A: Eles podem ser usados para identificar padrões ou tendências não observadas e ajudar a criar modelos mais precisos.

Referências


[1] Tukey, J. W. (1962). Exploratory data analysis. Addison-Wesley.

[2] Hawkins, D. (1980). Topics in applied multivariate analysis. Cambridge University Press.

[3] Barnett, V., & Lewis, T. (1978). Outliers in statistical data. John Wiley & Sons.


Autor: Saber Tecnologias

O Saber Tecnologias é um portal dedicado a explorar o universo da tecnologia de forma acessível, curiosa e informativa. Aqui, você encontra conteúdos sobre inovações, descobertas científicas, curiosidades tecnológicas e explicações simples sobre temas complexos do mundo digital. Nosso objetivo é tornar o conhecimento mais próximo do dia a dia das pessoas, despertando o interesse por tudo que envolve ciência, tecnologia e o futuro.