Qual a diferença entre Pré-processamento e Engenharia de características de uma base de dados?

No campo da ciência de dados, o pré-processamento é o processo de preparar e limpar os dados para serem usados em uma análise ou modelagem. Ele é uma etapa importante no fluxo de trabalho de ciência de dados, pois os dados geralmente precisam ser tratados antes de serem usados para treinar um modelo de aprendizado de máquina ou realizar uma análise estatística. O pré-processamento pode incluir tarefas como remoção de valores ausentes, limpeza de dados, transformação de variáveis e normalização.

A engenharia de características da base, também conhecida como seleção de características, é o processo de selecionar e transformar as variáveis de entrada (chamadas de "características") a serem usadas em um modelo de aprendizado de máquina. A seleção de características pode ser usada para aumentar a precisão do modelo, reduzir o tempo de treinamento ou ajudar a entender a relação entre as características e a saída. Existem muitas técnicas diferentes para seleção de características, como a seleção de características baseadas em filtragem, wrapper e embutidas. A seleção de características pode ser feita antes ou depois do pré-processamento, dependendo do problema.

Alguns exemplos de engenharia de características são:

  • Feature Scaling: Escalonar as variáveis para que elas estejam na mesma ordem de grandeza, para que todas tenham o mesmo peso no modelo.
  • One-Hot Encoding: Transformar variáveis categóricas em variáveis binárias
  • Extratos de momentos: Calcular estatísticas como média e desvio padrão de um conjunto de dados, como forma de representar sua distribuição
  • PCA: Análise de componentes principais, com o objetivo de encontrar relações entre as variáveis.

Em resumo, o pré-processamento e a engenharia de características são etapas importantes no processo de ciência de dados, pois ajudam a garantir que os dados estejam em boa forma para serem usados em uma análise ou modelagem.

Comentários

Postagens mais visitadas deste blog

5 ferramentas online de IA que você pode usar em 2023

Procurar por funções de verossimilhanças em modelos estatístico é só uma decomposição para voltar a algo que já estava ali?

O que é clusterização e como ela pode ser utilizada