dev-resources.site
for different kinds of informations.
Evaluaci贸n de rendimiento de un modelo de machine learning
Motivaci贸n
Es importante evaluar un modelo para determinar el rendimiento de sus predicciones en nuevos datos. Dado que las futuras predicciones retornaran un valor aun desconocido, se debe evaluar con m茅tricas el rendimiento de un modelo en un conjunto de datos de los cuales conocemos la respuesta. Utilizaremos esta evaluaci贸n de rendimiento para decidir si el modelo es enviado o no a un ambiente de producci贸n.
Introducci贸n
Una herramienta muy 煤til para realizar la evaluaci贸n de rendimiento de un modelo es la matris de confusi贸n, que presentare a continuaci贸n.
Ahora vamos describir el significado de cada cuadrante dentro de la matris:
- True positives (TP): Es el caso en el que el clasificador predijo verdadero y es la respuesta correcta (Por ejemplo predecir que un paciente tiene una enfermedad)
- True negatives (TN): Es el caso en el que el clasificador predijo falso y es la respuesta correcta (Por ejemplo predecir que un paciente no tiene una enfermedad)
- False positives (FP) (Type I error): Es el caso en el que el clasificador predijo verdadero, pero no es la respuesta correcta (El paciente no tiene la enfermedad)
- False negatives (FN) (Type II error): Es el caso en el que el clasificador predijo como falso, pero no es la respuesta correcta (El paciente tiene la enfermedad)
En los casos revisados con anterioridad el error Tipo II es el mas grave. El paciente puede creer que esta sano cuando realmente no lo esta y no tomara ninguna acci贸n respectiva. En el caso del error Tipo I el paciente se someter谩 a mas ex谩menes y descubrir谩 que la predicci贸n del modelo fue un error y que realmente esta sano.
Indicadores clave de rendimiento (KPI)
- Exactitud (Accuracy): (TP + TN) / (TP + TN + FP + FN)
- Taza de error (Misclassification rate): (FP + FN) / (TP + TN + FP + FN)
- Precisi贸n: TP/ (TP+FP) (Cuando el modelo predice Verdadero, 驴Con que frecuencia lo hace bien?)
- Exhaustividad (Recall): TP/ (TP+FN) (Cuando la predicci贸n fue realmente verdadera 驴Con que frecuencia el clasificador acert贸? )
Precisi贸n vs Exhaustividad (Recall):
Ahora vamos a ver un ejemplo para entender el objetivo de precisi贸n y exhaustividad:
Informaci贸n del dataset a evaluar:
- 100 es el total de pacientes
- 91 pacientes est谩n sanos
- 9 pacientes tienen c谩ncer
Despues de entrenar nuestro modelo y hacer predicciones con el dataset de prueba, construimos la siguiente matris de confusi贸n.
Esto significa que:
- TP: El modelo predijo correctamente que 1 persona esta enferma
- TN: El modelo predijo correctamente que 90 personas no est谩n enfermas
- FP: El modelo predijo incorrectamente que 1 persona esta enferma
- FN: El modelo predijo incorrectamente que 8 personas est谩n sanas
Ahora vamos a calcular las m茅tricas:
- Exactitud = (TP+TN) / (TP + TN + FP + FN) = (1 + 90) / (1 + 1 + 8 + 90 ) = 0.91 -> 91%
- Presicion = TP / (TP + FP) = 1 / (1 + 1) = 0.5 -> 50%
- Exhaustividad = = TP / (TP + FN) = 1 / (1 + 8) = 1/9 -> 11%
De las m茅tricas de rendimiento extraemos que:
- La exactitud es generalmente enga帽osa y no es suficiente para evaluar el rendimiento de un clasificador.
- La exhaustividad (recall) es un KPI importante en situaciones en las que:
- El conjunto de datos est谩 muy desequilibrado; casos en los que los pacientes con c谩ncer son mucho menor a comparaci贸n con los pacientes sanos.
Precisi贸n
En el ejemplo tenemos: TP / (TP + FP) = 1 / (1 + 1) = 50%
- La precisi贸n es una medida de Positivos Correctos, en el ejemplo, el modelo predijo que dos pacientes eran positivos (tiene c谩ncer), pero s贸lo uno de los dos era correcto.
- La precisi贸n es una m茅trica importante cuando los falsos positivos son importantes (cu谩ntas veces un modelo dice que hay algo cuando realmente no hay nada alli)
Exhaustividad (Recall)
En el ejemplo tenemos: TP / (TP + FN) = 1 / (1 + 8) = 11%
- La exhaustividad tambi茅n se denomina tasa de verdaderos positivos o sensibilidad.
- En este ejemplo, se tuvo 9 pacientes con c谩ncer pero el modelo solo detect贸 1 de ellos
- Esta m茅trica es importante cuando nos preocupamos por los falsos negativos
- Otro buen ejemplo del uso de la m茅trica seria la detecci贸n de fraudes
F1 SCORE
F1 Score = (2 * (presicion * recall) ) / (presicion + recall)
o tambi茅n
F1 Score = (2 * TP) / (2 * TP + FP + FN)
- F1 Score es una medida general de la precisi贸n de un modelo que combina precisi贸n y exhaustividad(recall). Es la media arm贸nica de precisi贸n y exhaustividad.
驴Cu谩l es la diferencia entre F1 Score y exactitud?
En conjuntos de datos desequilibrados, si tenemos una gran cantidad de verdaderos negativos (pacientes sanos), la exactitud podr铆a ser enga帽osa. Por lo tanto, la puntuaci贸n F1 podr铆a ser un mejor KPI para usar, ya que proporciona un equilibrio entre exhaustividad (Recall) y precisi贸n en presencia de conjuntos de datos desequilibrados.
Conclusi贸n
Todas estas m茅tricas de rendimientos nos ayudaran a determinar que tan bueno es el trabajo de nuestro modelo. Es importante entender los resultados del modelo para saber si podemos enviarlo a un ambiente productivo o iterar con un nuevo conjunto de datos o usar otro algoritmo de entrenamiento.
Featured ones: