Evaluar un modelo no se trata solo de ver si funciona, sino de entender cómo y dónde falla. Una vez que el modelo genera predicciones sobre el conjunto de prueba (test), utilizamos métricas de desempeño para cuantificar su precisión y capacidad de generalización.
Regresión: Midiendo el error continuo
En problemas de regresión, buscamos predecir un valor numérico. Las métricas aquí miden la distancia entre el valor real y la predicción.
| Métrica | Definición |
|---|---|
| MSE (Error Cuadrático Medio) | Promedio de los errores elevados al cuadrado. |
| RMSE (Raíz del MSE) | La raíz cuadrada del MSE. |
| MAE (Error Absoluto Medio) | Promedio de las diferencias absolutas (sin cuadrados) |
| R2 (Coeficiente de Determinación) | Indica qué porcentaje de la variación de los datos explica el modelo. |
Métricas de regresión.
Para MSE, RMSE y MAE queremos que sean lo más pequeños posible, idealmente 0. Estas métricas miden la distancia entre lo que el modelo predijo y el valor real.
Y el R2 queremos que sea lo más grande posible, lo más cercano a 1. Nos dice que tanto porcentaje el modelo explica de los datos.
Clasificación: Midiendo la calidad de la decisión
En clasificación, no medimos distancias, sino frecuencia de aciertos y errores dependiendo de la categoría.
| Métrica | Pregunta clave |
|---|---|
| Accuracy | ¿Qué tan seguido acierta en general? |
| Precision | ¿Qué tan confiable es cuando dice "Positivo"? |
| Recall | ¿Qué tan bueno es encontrando todos los "Positivos"? |
| F1-Score | ¿Qué tan bien equilibra Precision y Recall? |
| ROC AUC | ¿Qué tan hábil es diferenciando una clase de otra? |
Métricas de clasificación.
Evalúa siempre tu modelo con múltiples métricas simultáneamente. El mejor modelo no es el que tiene el número más alto, sino el que mejor resuelve el problema para el cual fue diseñado.