Por quê é precipitado definir outliers em análise exploratória. Afinal o que é um outiler?

Em minha última aula de Estatística inferencial, um colega de sala fez a seguinte pergunta: 

Professor, tem algum tratamento especial para evitar que a função de verossimilhança não tenha outliers?

E o professor Wagner explicou de forma lucida: 

Não, não tem nada. Porque o outlier é um problema além do modelo. O quê que é um outlier? É um ponto em que a probabilidade de você encontra-lo dado o modelo que você está assumindo é muito pequena. Então normalmente a presença de um outlier indica pra você que o teu modelo não é bom suficiente ou que você tem problemas nos dados.

E é muito importante também pensar que só existe a noção de outlier por que existe a noção de modelos, dessa forma não faz sentido você procurar outliers na análise exploratória. Porquê o outiler é algo que teu modelo não conseguiu explicar e isso pode ser motivado novamente ou pelo modelo que está muito simples ou realmente você tem um problema na base de dados.

Agora para você afirmar isto você precisa ter um modelo primeiro. O pessoal faz muito o uso de box-plot em analise exploratória e o R não foi feliz na representação gráfica para deste gráfico.

Box-Plot
Box-Plot. Fonte: Wikipédia.

Existe um consenso que os pontos exibidos além dos limite de mínimo e máximo sejam outliers. Mas eles ainda não são outliers, porque isso é natural pode acontecer. Como você pode dizer que um ponto é outlier se você não tem nenhum modelo ainda? E esse gráfico é só uma representação de estatística descritiva?

Se você por exemplo tem uma distribuição assimétrica, se você usa um modelo gama, você consegue muito bem modelar pontos que visualmente em analise descritiva são outliers 

Modelo Gama
Modelo Gama. Fonte: Wikipédia.

Você só consegue falar algo sobre outliers, depois que você tiver um modelo ajustado, onde você já viu o que este modelo é capaz de acomodar e então você pode afirmar que para esse particular modelo esse ponto aqui é um ponto atípico.

Comentários

Postagens mais visitadas deste blog

5 ferramentas online de IA que você pode usar em 2023

Procurar por funções de verossimilhanças em modelos estatístico é só uma decomposição para voltar a algo que já estava ali?

O que é clusterização e como ela pode ser utilizada