Apéndice A — Preprocesamiento Recomendado

El tipo de preprocesamiento necesario depende del tipo de modelo que se ajuste. Por ejemplo, los modelos que utilizan funciones de distancia o productos escalares deben tener todos sus predictores en la misma escala para que la distancia se mida adecuadamente.

Para obtener más información sobre cada uno de estos modelos y otros que podrían estar disponibles, consulte https://www.tidymodels.org/find/parsnip/.

Este Apéndice proporciona recomendaciones para los niveles básicos de preprocesamiento que se necesitan para diversas funciones del modelo. En Tabla A.1, los métodos de preprocesamiento se clasifican como:

La información en Tabla A.1 no es exhaustiva y depende en cierta medida de la implementación. Por ejemplo, como se indica debajo de la tabla, es posible que algunos modelos no requieran una operación de preprocesamiento particular, pero la implementación puede requerirla. En la tabla, ✔ indica que el método es necesario para el modelo y × indica que no. El símbolo ◌ significa que la técnica puede ayudar al modelo, pero no es necesario.

Tabla A.1: Métodos de preprocesamiento para diferentes modelos.
model dummy zv impute decorrelate normalize transform
C5_rules() × × × × × ×
bag_mars() × ×
bag_tree() × × × ◌¹ × ×
bart() × × × ◌¹ × ×
boost_tree() ײ ✔² ◌¹ × ×
cubist_rules() × × × × × ×
decision_tree() × × × ◌¹ × ×
discrim_flexible() × ×
discrim_linear() ×
discrim_regularized() ×
gen_additive_mod() ×
linear_reg() ×
logistic_reg() ×
mars() × ×
mlp()
multinom_reg() ײ
naive_Bayes() × ◌¹ × ×
nearest_neighbor()
pls() ×
poisson_reg() ×
rand_forest() × ✔² ◌¹ × ×
rule_fit() × ◌¹ ×
svm_*()

Notas a pie de página:

  1. Es posible que la descorrelación de predictores no ayude a mejorar el rendimiento. Sin embargo, menos predictores correlacionados pueden mejorar la estimación de las puntuaciones de importancia de la varianza (ver Fig. 11.4 de Kuhn y Johnson (2020)). Básicamente, la selección de predictores altamente correlacionados es casi aleatoria.
  2. El preprocesamiento necesario para estos modelos depende de la implementación. Específicamente: