Por quê é precipitado definir outliers em análise exploratória. Afinal o que é um outiler?
Em minha última aula de Estatística inferencial, um colega de sala fez a seguinte pergunta:
Professor, tem algum tratamento especial para evitar que a função de verossimilhança não tenha outliers?
E o professor Wagner explicou de forma lucida:
Não, não tem nada. Porque o outlier é um problema além do modelo. O quê que é um outlier? É um ponto em que a probabilidade de você encontra-lo dado o modelo que você está assumindo é muito pequena. Então normalmente a presença de um outlier indica pra você que o teu modelo não é bom suficiente ou que você tem problemas nos dados.
E é muito importante também pensar que só existe a noção de outlier por que existe a noção de modelos, dessa forma não faz sentido você procurar outliers na análise exploratória. Porquê o outiler é algo que teu modelo não conseguiu explicar e isso pode ser motivado novamente ou pelo modelo que está muito simples ou realmente você tem um problema na base de dados.
Agora para você afirmar isto você precisa ter um modelo primeiro. O pessoal faz muito o uso de box-plot em analise exploratória e o R não foi feliz na representação gráfica para deste gráfico.
| Box-Plot. Fonte: Wikipédia. |
Existe um consenso que os pontos exibidos além dos limite de mínimo e máximo sejam outliers. Mas eles ainda não são outliers, porque isso é natural pode acontecer. Como você pode dizer que um ponto é outlier se você não tem nenhum modelo ainda? E esse gráfico é só uma representação de estatística descritiva?
Se você por exemplo tem uma distribuição assimétrica, se você usa um modelo gama, você consegue muito bem modelar pontos que visualmente em analise descritiva são outliers
| Modelo Gama. Fonte: Wikipédia. |
Você só consegue falar algo sobre outliers, depois que você tiver um modelo ajustado, onde você já viu o que este modelo é capaz de acomodar e então você pode afirmar que para esse particular modelo esse ponto aqui é um ponto atípico.
Comentários
Postar um comentário