Capítulo 6 Conceptos generales

El objetivo de la Ciencia de Datos es preparar, analizar y aprender “algo” de los datos. Si se dispone de una variable output⁸ y otras input⁹ el aprendizaje se denomina supervisado, si sólo hay inputs el aprendizaje es no supervisado.

Dentro aprendizaje supervisado podemos distinguir la predicción, cuando la variable output es cuantitativa, de la clasificación donde la la variable output es discreta/categórica (ej. \(0/1\)).¹⁰ Por su parte, el análisis no supervisado busca relaciones y estructura dentro de los datos (ej. distinguir clusters/grupos de clientes para promociones publicitarias).

6.1 Estimacion

Supongamos que se quiere estudiar la relación entre el gasto en publicidad a través de diversos canales como televisión, radio, diarios (inputs) y las ventas en distintos mercados (output).

\[\begin{equation} \tag{6.1} Y = f(X) + \epsilon \end{equation}\]

donde \(f\) es una función desconocida de \((X_1, X_2, X_3)\) y \(\epsilon\) es un término de error aleatorio independiente de \(X\) con media igual a \(0\). En la ecuación (6.1), \(f\) representa la información sistemática que \(X\) proporciona sobre \(Y\).

En esencia, el aprendizaje estadístico se refiere a un conjunto de enfoques para estimar \(f\).

6.2 Prediccion

Supongamos que se dispone de datos de variables independientes pero no de la variable dependiente, en ese caso, dado que el error en promedio es \(0\) podríamos predecir \(Y\) utilizando:

\[\begin{equation} \tag{6.2} \hat{Y} = \hat{f}(X) \end{equation}\]

donde \(\hat{f}\) representa nuestra estimación de \(f\) y \(\hat{Y}\) representa la predicción de \(Y\). En este contexto, \(\hat{f}\) a menudo se trata como una caja negra, en el sentido que no importa la forma exacta de \(\hat{f}\), siempre que produzca predicciones precisas de \(Y\).

La precisión con la que \(\hat{Y}\) se acerca a \(Y\) depende de dos cantidades, el error reducible y el irreducible. En general, \(\hat{f}\) no será una estimación perfecta de \(f\), y esta inexactitud introducirá un error que es reducible porque potencialmente podemos mejorar la precisión de \(\hat{f}\) usando la técnica de aprendizaje estadístico más apropiada para estimar \(f\). Sin embargo, si fuera posible estimar \(f\) exactamente de manera que la respuesta estimada \(\hat{Y} = f(X)\), nuestra predicción todavía tendría algún error dado que \(Y\) también es función de \(\epsilon\), que por definición, no se puede predecir usando \(X\). Por lo tanto, la variabilidad asociada con \(\epsilon\) también afecta la precisión de nuestras predicciones. Esto se conoce como el error irreducible, porque no importa qué tan bien estimemos \(f\), no puede reducir el error introducido por \(\epsilon\).

El término de error \(\epsilon\) puede contener variables no observables que son útiles para predecir \(Y\), por lo tanto, \(f\) no puede usarlos para su predicción. A partir de las ecuaciones (6.1) y (6.2) puede expresarse:

\[\begin{align} \tag{6.3} E(Y - \hat{Y})^2 & = E[f(X) + \epsilon - \hat{f}(X)]^2 \\ & = \underbrace{[f(X) - \hat{f}(X)]^2}_{\text{Reducible}} + \underbrace{Var(\epsilon)}_{\text{Irreducible}} \end{align}\]

donde de \(E(Y − \hat{Y})^2\) representa el promedio, o valor esperado, de la diferencia entre el valor predicho y el valor real de \(Y\) elevado al cuadrado (diferencia por exceso y defecto ponderan igual), y \(Var(\epsilon)\) representa la varianza asociada al término de error \(\epsilon\).

El foco de este curso está en las técnicas para estimar \(f\) con el objetivo de minimizar el error reducible. Es importante tener en cuenta que la error irreducible siempre proporcionará un límite superior en la precisión de nuestra predicción de \(Y\) que en la práctica casi siempre es desconocido.¹¹

6.3 Inferencia

En este caso el interés está en comprender la asociación entre \(Y\) y \(X_1,..., X_p\). Se busca estimar \(f\), pero el objetivo no es necesariamente hacer predicciones sobre \(Y\). Ahora \(\hat{f}\) no puede ser tratada como una caja negra, porque se necesita conocer su forma exacta. Así se busca determinar (entre otras cosas):

Qué variables se deben incluir en el modelo
Cómo es la relación entre el la variable explicada y cada predictor
Si la relación se puede aproximar con un modelo lineal o uno más complejo

6.4 Metodos parametricos

Se realiza en dos etapas:

Asumir una forma funcional (modelo, por ejemplo lineal)

\[\begin{equation} \tag{6.4} Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + ... + \beta_p X_p \end{equation}\]

Estimar los parámetros (método, por ejemplo Mínimos Cuadrados Ordinarios -MCO-)

Si bien el problema se reduce a estimar \(p + 1\) parámetros, la desventaja es que la forma funcional elegida puede diferir de la verdadera \(f\).

6.5 Metodos no parametricos

No realizan supuestos sobre la forma funcional de \(f\) sino que tratan de buscar una estimación que se acerque lo más posible a los datos sin ser ni demasiado tosco ni demasiado ondulado.

Este enfoque puede tener una gran ventaja sobre los métodos paramétricos: al evitar el supuesto de una forma funcional particular para \(f\), tiene el potencial para adaptarse con precisión a una gama más amplia de posibles formas para \(f\). Cualquier enfoque paramétrico tiene la posibilidad de que la forma funcional utilizada para estimar \(f\) sea muy diferente de la verdadera \(f\), en cuyo caso el resultado del modelo no se ajustará bien a los datos. El costo es que se necesitan más datos para estimar.

6.6 Evaluacion de la precision del modelo

Ningún método domina al resto sobre todas las bases de datos posibles. En un set de datos en particular, un método específico puede funcionar mejor, pero algún otro método lo puede superar con otra base de datos. Por lo tanto, en cada caso se debe decidir qué método produce los mejores resultados.

6.6.1 Calidad del ajuste

Para evaluar el desempeño de un método de aprendizaje estadístico en una base de datos dada, se necesita alguna forma de medir qué tan bien sus predicciones coinciden con los datos observados. Es decir, se necesita cuantificar el grado en el cual el valor pronosticado para una observación dada está cerca de el verdadero valor de respuesta para esa observación. En el escenario de regresión, la medida más utilizada es el error medio cuadrático (\(EMC\)):

\[\begin{equation} \tag{6.5} EMC = \frac{1}{n} \sum_{i=1}^{n}(y_i - \hat{f}(x_i))^2 \end{equation}\]

donde \(\hat{f}(x_i)\) es la predicción que hace \(\hat{f}\) sobre la observación \(i\). El \(EMC\) será pequeño si las respuestas predichas están muy cerca de las respuestas verdaderas y será grande si para algunas observaciones difieren demasiado.

El \(EMC\) en (6.5) se calcula usando los datos de entrenamiento (training) que se usaron para estimar el modelo, por lo que debería denominarse con mayor precisión \(EMC\) de entrenamiento. Pero en general, no nos interesa realmente qué tan bien funciona el método sobre los datos de entrenamiento. Más bien, estamos interesados en la precisión de las predicciones que obtenemos cuando aplicamos nuestro método a los datos de test que no fueron visto antes (datos no utilizados para entrenar el modelo). Es decir, se busca elegir el método que produzca el menor \(EMC\) en la muestra de test.

\[\begin{equation} \tag{6.6} Prom(y_0 - \hat{f}(x_0))^2 \end{equation}\]

el error de predicción cuadrático promedio para estas observaciones de test \((y_0, x_0)\).

¿Qué sucede si se elige en base al \(EMC\) de training (6.5)? No hay garantía de que el método con el \(EMC\) de entrenamiento más bajo también tenga el \(EMC\) de test más bajo.

El panel de la izquierda de la Figura 6.1 muestra la verdadera \(f\) dada por la curva negra. Las curvas naranja, azul y verde ilustran tres posibles estimaciones de \(f\) obtenidas utilizando métodos con distintos niveles de flexibilidad. La línea naranja es el ajuste de regresión lineal, que es relativamente inflexible. Las curvas azul y verde se produjeron usando splines con diferentes niveles de suavidad. Es claro que a medida que aumenta el nivel de flexibilidad, las curvas se ajustan mejor a los datos observados. La curva verde es la más flexible y coincide muy bien con los datos; sin embargo, se observa que se ajusta mal a la verdadera \(f\) (en negro) porque es demasiado ondulada. Cambiando el nivel de flexibilidad del spline se pueden producir ajustes diferentes para estos datos.

En el panel de la derecha de la Figura 6.1 la curva gris muestra el \(EMC\) de entrenamiento en función de la flexibilidad, o más formalmente los grados de libertad (resume la flexibilidad de una curva), para una serie de splines. Los cuadrados naranja, azul y verde indican los \(EMC\) asociados con las curvas correspondientes en el panel izquierdo. El \(EMC\) de entrenamiento disminuye monótonamente a medida que aumenta la flexibilidad. Dado que la verdadera \(f\) es no lineal, el ajuste lineal naranja no es lo suficientemente flexible para estimar bien \(f\). La curva verde tiene el \(EMC\) de entrenamiento más bajo de los tres métodos, ya que corresponde a la más flexible de las tres curvas.

En este ejemplo, se conoce la verdadera función \(f\), por lo que también se puede calcular el \(EMC\) de test (en general \(f\) es desconocida, por lo que esto no es posible). El \(EMC\) de test se muestra usando la curva roja en el panel derecho de la Figura 6.1. Como con el \(EMC\) de entrenamiento, el \(EMC\) de test disminuye inicialmente a medida que el nivel de flexibilidad aumenta. Sin embargo, en algún momento el \(EMC\) de test se nivela y luego empieza a aumentar. En consecuencia, las curvas naranja y verde tienen un \(EMC\) de test alto. La curva azul minimiza el \(EMC\) de test, dado que visualmente parece estimar mejor \(f\) en el panel izquierdo. La línea discontinua horizontal indica \(Var(\epsilon)\), el error irreducible en la ecuación de \(E(Y - \hat{Y})^2\), que corresponde al menor alcanzable por el \(EMC\) de test entre todos los métodos posibles. Por lo tanto, el suavizado de spline representado por la curva azul está cerca del óptimo.

En el panel de la derecha de la Figura 6.1, a medida que la flexibilidad del método de aprendizaje aumenta, se observa una disminución monótona en el \(EMC\) de entrenamiento y una forma de U en el \(EMC\) de test. Esta es una propiedad fundamental de aprendizaje estadístico que se mantiene independientemente de la base de datos particular en cuestión e independientemente del método estadístico que se utilice.

Cuando un método dado produce un \(EMC\) de entrenamiento pequeño pero un \(EMC\) de test grande, se dice que está haciendo overfitting/sobreajustando los datos. Esto sucede porque nuestro aprendizaje estadístico está trabajando demasiado para encontrar patrones en los datos de entrenamiento, y puede estar detectando algunos patrones que son causados por casualidad en lugar de por las verdaderas propiedades de la función desconocida \(f\). Overfitting se refiere específicamente al caso en el que un modelo menos flexible podría haber producido un menor error de predicción en test.

Figura 6.1: Datos en curva y ECM

La Figura 6.2 proporciona otro ejemplo en el que la verdadera \(f\) es aproximadamente lineal por lo que este tipo de modelos obtienen el menor \(EMC\) en test (curva roja en el panel derecho de la Figura 6.2).

Figura 6.2: Datos lineales y EMC

6.6.2 Trade-off Sesgo-Varianza

La Figura 6.3 muestra el trade-off Sesgo - Varianza intuitivamente.

Figura 6.3: Estimacion y EMC

Fuente: Scott Fortmann-Roe

La forma de U observada en las curvas \(EMC\) de test es el resultado de dos propiedades que compiten en los métodos de aprendizaje estadístico. El \(EMC\) de test esperado, para un valor dado \(x_0\), puede descomponerse en la suma de tres cantidades fundamentales: la varianza de \(\hat{f}(x_0)\), el sesgo al cuadrado de \(\hat{f}(x_0)\) y la varianza del error \(\epsilon\).

\[\begin{equation} \tag{6.7} E(y_0 - \hat{f}(x_0))^2 = \text{Var}(\hat{f}(x_0)) + [\text{Sesgo}(\hat{f}(x_0))]^2 + \text{Var}(\epsilon) \end{equation}\]

donde \(E(y_0 - \hat{f}(x_0))^2\) el valor esperado del \(EMC\) de test en \(x_0\). Para minimizar el error de test esperado, se necesita seleccionar un método de aprendizaje estadístico que logre simultáneamente baja varianza y bajo sesgo.

La varianza se refiere al valor en que \(\hat{f}\) cambiaría si se estimara utilizando una base de datos de entrenamiento diferente. Sesgo se refiere al error que se introduce al aproximar un problema de la vida real, que puede ser extremadamente complicado, por un modelo mucho más simple. Como regla general, a medida que se utilizan métodos más flexibles, la varianza aumenta y el sesgo disminuye. La tasa relativa de cambio de estas dos cantidades determina si el \(EMC\) de test aumenta o disminuye.

Los dos paneles de la Figura 6.4 ilustran la Ecuación (6.7) para los ejemplos en Figuras 6.1 y 6.2. En cada caso, la curva sólida azul representa el cuadrado del sesgo, para diferentes niveles de flexibilidad, mientras que la curva naranja corresponde a la varianza. La línea discontinua horizontal representa \(Var(\epsilon)\), el error irreducible. Finalmente, la curva roja, corresponde al \(EMC\) de test, es la suma de estas tres cantidades.

Figura 6.4: Estimacion y EMC

6.6.3 Clasificacion

Muchos de los conceptos del contexto de regresión, como el trade-off sesgo-varianza, se transfieren al entorno de clasificación donde ahora \(y_i\) es cualitativa. El enfoque más común para cuantificar la precisión de la estimación \(\hat{f}\) es la tasa de error de entrenamiento, es decir, la proporción de errores que se cometen si aplicamos nuestra estimación \(\hat{f}\) a las observaciones de entrenamiento.

\[\begin{equation} \tag{6.8} \frac{1}{n} \sum_{i=1}^{n}I(y_i \neq \hat{y_i}) \end{equation}\]

Aquí \(\hat{y_i}\) es la etiqueta de clase predicha para la \(i\)-ésima observación usando \(\hat{f}\). Por lo tanto, \(I(y_i \neq \hat{y_i})\) es una variable indicadora que es igual a \(0\) si \(y_i = \hat{y_i}\) ó \(1\) si \(y_i \neq \hat{y_i}\), es decir, si la \(i\)-ésima observación fue clasificada correctamente o no por el método de clasificación.

La tasa de error de test asociada con un conjunto de observaciones de test de la forma \((x_0, y_0)\) está dada por:

\[\begin{equation} \tag{6.9} Prom(I(y_0 \neq \hat{y_0})) \end{equation}\]

donde \(\hat{y_0}\) es la etiqueta de clase predicha que resulta de aplicar el clasificador a la observación de test con predictor \(x_0\). Un buen clasificador es aquel para el cual el error de test (6.9) es el más pequeño.

6.6.3.1 Clasificador de Bayes

Es posible mostrar que bajo penalidad simétrica¹² la tasa de error de test postulada en (6.9) se minimiza, en promedio, por un clasificador muy simple que asigna cada observación a la clase más probable, dados sus valores predictores. En otras palabras, se debería asignar una observación de test con vector predictor \(x_0\) a la clase \(j\) para la cual (6.10) es mayor.

\[\begin{equation} \tag{6.10} Pr(Y = j \mid X = x_0) \end{equation}\]

Es decir, en un problema donde sólo hay dos categorías el clasificador de Bayes predice la clase \(1\) si \(Pr(Y = 1 \mid X = x_0)>0.5\) y la clase \(0\) en caso contrario.

6.6.4 Matriz de confusion

		Observado
		\(0\)	\(1\)
Predicción	\(0\)	\(VN\)	\(FN\)
(decisión)	\(1\)	\(FP\)	\(VP\)

\(VN\): Verdadero Negativo; \(FN\): Falso Negativo; \(FP\): Falso Positivo; \(VP\): Verdadero Positivo

Métricas para comparar modelos de clasificación. La precisión (accuracy) es la cantidad de predicciones correctas, la sensibilidad (sensitivity) es la proporción de verdaderos positivos y la especificidad (specificity) es la cantidad de \(VN\) identificados sobre el total de negativos.

\[\begin{align*} \text{Precisión} & = \frac{VP + VN}{VP + VN + FP + FN} \\ \text{Sensibilidad} & = \frac{VP}{VP + FN} \\ \text{Especificidad} & = \frac{VN}{VN + FP} \end{align*}\]

Problema de clases desbalanceadas

En el caso que existan clases desbalanceadas (ej. tasa de default = \(3\%\)) un predictor que indique todos ceros tendrá una Precisión del \(97\%\) (umbral base), una Especificidad del \(100\%\) pero una Sensibilidad del \(0\%\) (justamente lo que estamos tratando de averiguar).

6.6.5 Curva ROC

El nombre viene de receiver operating characteristics (comunicación). Si se modifica el umbral \(p_i > c\), cambian los resultados de la matriz de confusión. Por ejemplo, al estimar la probabilidad de default, para un banco podría resultar relativamente más costoso clasificar a un mal deudor como no default que a uno bueno como default. Entonces podría bajar el umbral \(p_i > 0,3\) (asimétrico) para clasificar casos positivos afectando la tasa de error.

Si se define: \[\begin{align*} TPR = & VP / P \\ FPR = & FP / N \end{align*}\]

La curva \(ROC\) representa la relación entre true positive rate (\(TPR\)) o Sensibilidad y false positive rate (\(FPR\)) o, expresado de otra manera, \((1 - \text{Especificidad)}\) para todos los valores posibles de \(c \in [0, 1]\). La curva \(ROC\) compara la proporción de verdaderos positivos con (el complemento de) la proporción de verdaderos negativos, es decir, mide la pureza alcanzada en cada categoría. De esta forma, permite medir capacidad predictiva y comparar modelos.

Figura 6.5: Curva ROC

Casos extremos

\(c = 1\) todos clasificados como negativos ; \(tpr = 0\), \(fpr = 0\)
\(c = 0\) todos clasificados como positivos ; \(tpr = 1\), \(fpr = 1\)

Figura 6.6: Curva ROC puntos importantes

\(AUC\) (o \(AUROC\)): área bajo la curva \(ROC\). Cuán parecida es la curva \(ROC\) a la ideal, es decir cuanto \(AUC\) está más cerca de \(1\) mejor es el clasificador. Por su parte, un clasificador aleatorio debe tener un \(AUC = 0,5\) (línea de \(45^\circ\)).

6.7 Resampling Methods

Los métodos de remuestreo implican extraer muestras repetidamente de una base de datos de entrenamiento y re-estimar un modelo sobre cada muestra con el fin de obtener información adicional sobre el modelo estimado originalmente.

Cross validation se puede utilizar para estimar el error en test asociado con un método de aprendizaje estadístico dado para evaluar su desempeño (model assessment), o para seleccionar el nivel de flexibilidad apropiado (model selection). Bootstrap se utiliza en varios contextos comúnmente para proporcionar una medida de precisión de la estimación de un parámetro o de un método de aprendizaje estadístico dado.

6.7.1 Cross Validation

Recordar la diferencia entre la tasa de error de test y la tasa de error de entrenamiento. El error de test es el error promedio que resulta de usar un método de aprendizaje estadístico para predecir la respuesta en una nueva observación, es decir, que no fue utilizada en el entrenamiento del método.

Modelos complejos predicen bien dentro de la muestra pero mal fuera de la misma (overfit) y nuestro interés está puesto en esta última.

Objetivo: buscar el nivel de complejidad óptimo para predecir fuera de la muestra. Entonces, cross validation es una técnica para estimar el \(EMC\) de test utilizando los datos de entrenamiento.

Definición de pérdida:

Regresión = \((Y - \hat{Y})^2\)
Clasificación = \(1(Y \neq \hat{Y})\)

k-Fold cross-validation

Dividir la muestra en \(K\) partes al azar.
Tomar \(K - 1\) partes y estimar en modelo.
Calcular el error de predicción para los datos no utilizados.
Repetir para \(k = 2,...,K\)

Figura 6.7: K-Fold cross-validation

La estimación por cross-validation del error de predicción es:

\[\begin{equation} \tag{6.11} CV(\hat{f}) = \frac{1}{N}L(Y_i - \hat{Y}_{-k}(x_i)) \end{equation}\]

donde \(\hat{Y}_{-k}(x_i)\) es la predicción hecha cuando la observación no fue usada para estimar. Cada observación se utiliza en dos roles: entrenamiento y test. De esta forma se estima el modelo \(K\) veces para construir el error de pronóstico.

Cross-validation para elección de modelos: Si \(\alpha\) representa la complejidad de un modelo (por ejemplo el grado de un polinomio).

\[\begin{equation} \tag{6.12} CV(\hat{f}, \alpha) = \frac{1}{N}L(Y_i - \hat{Y}_{-k}(x_i, \alpha)) \end{equation}\]

Computar \(CV(\hat{f}, \alpha)\) para distintos valores de \(\alpha\) y elegir el modelo que minimiza el error.¹³

6.7.2 Bootstrap

Bootstrap es una herramienta estadística que se puede utilizar para cuantificar la incertidumbre asociada con un estimador o un método de aprendizaje estadístico.

Dado \(Y_1, Y_2,...,Y_n\) iid \(Y \sim (\mu, \sigma^2)\)

Se quiere estimar la varianza de la media muestral \(V(\overline{Y}) = \frac{\sigma^2}{n}\)

Formula: \(\frac{\hat{\sigma}^2}{n}\)

\[\begin{equation} \tag{6.13} \hat{\sigma}^2 = \frac{1}{n} \sum_{i=1}^{n}(Y_i-\overline{Y})^2 \end{equation}\]

Método sin fórmula

De los \(N\) datos originales \(y_1, y_2,...,y_N\):

Tomar una muestra con remplazo de tamaño \(n\) (una observación puede entrar más de una vez y otra puede no entrar nunca).
Computar la media muestral de esta muestra.
Repetir \(B\) veces. Al terminar tendremos \(B\) estimaciones de la media.
Calcular la varianza de las \(B\) medias.

En términos generales

Dado \(Y_i\) con \(i = 1,...,n\) y \(\theta\) es una magnitud de interés

Tomar una muestra con remplazo de tamaño \(n\) (muestra bootstrap).
Computar \(\hat{\theta}_j\), con \(j = 1,...,B\).
Repetir \(B\) veces.
Calcular:

\[\begin{equation} \tag{6.14} \hat{V}(\hat{\theta})_B = \frac{1}{B} \sum_{j=1}^{B}(\hat{\theta}_j - \overline{\hat{\theta}})^2 \end{equation}\]

Ejemplo:

set.seed(1234)
poblacion = rnorm(1000)

# Bootstrap con muestras de 300 y 10000 repeticiones:
muestra_boot = c()
for (i in 1:10000) {
  muestra = sample(poblacion, 300, replace=TRUE)
  muestra_boot = c(muestra_boot, mean(muestra))
}  

# Media calculada con MUESTRA BOOTSTRAP
simulated_mean = mean(muestra_boot)

# Varianza de la MUESTRA BOOTSTRAP
simulated_var = sd(muestra_boot)^2

# Comparemos medias:
mean(poblacion); simulated_mean

## [1] -0.0265972

## [1] -0.02612666

# Comparemos varianza:
sd(poblacion)^2; simulated_var*300

## [1] 0.9946825

## [1] 0.9938018

6.8 Resumen

Como señala (Boehmke y Greenwell 2020) abordar correctamente el análisis de machine learning significa utilizar estratégicamente los datos en procesos de aprendizaje y validación, preprocesar correctamente las variables explicativas y la variable de respuesta, ajustar los hiperparámetros y evaluar la performance del modelo.

La Figura 6.8 muestra gráficamente este proceso.

Figura 6.8: Proceso general de ML

Bibliografia

Boehmke, Bradley, y Brandon Greenwell. 2020. Hands-On Machine Learning with R. Taylor & Francis Group. https://bradleyboehmke.github.io/HOML/.

También variable dependiente o variable explicada.↩︎
También variables independientes o variables explicativas.↩︎
En general el interés no esta puesto en realizar inferencia/análisis condicional.↩︎
Volveremos sobre este tema en el Capítulo 7.↩︎
¿Útil para probabilidad de default?↩︎
Luego de seleccionar el modelo se estima con la muestra completa.↩︎