Parámetros e hiperparámetros

Como hemos explicado anteriormente, los parámetros son lo que caracteriza a nuestro modelo, no son fijados ni predeterminados manualmente por el científico de datos sino que son el resultado del aprendizaje de la máquina, del proceso de ajustar el modelo a nuestros datos de entrenamiento. De su calidad depende la capacidad de nuestro modelo de resolver un problema y, predecir o segmentar correctamente una nueva entrada. Uno de los métodos más usados para estimarlos es el descenso por gradiente, un algoritmo de optimización que veremos en detalle al explicar la regresión lineal (durante la estimación de sus coeficientes), los modelo SVM (durante la estimación de los vectores soporte) o las redes neuronales (durante la estimación de los pesos de la red).

Los hiperparámetros son los valores que los científicos de datos asignamos a la configuración del modelo durante el proceso de entrenamiento, Algunos ejemplos son el tamaño del conjunto de entrenamiento (un 70% es recomendable pero no iempre se puede utilizar este tamaño). el número de iteraciones realizadas durante la fase de entrenamiento y otros coeficientes específicos del modelo. Como no se conocen a priori, inicialmente hay que utilizar unos valores genéricos o basarse en lo realizado en proyectos similares anteriores o actuar según la experiencia. Ajustar los hiperparámetros es una tarea crucial con impacto en el rendimiento tfinal del modelo. Como veremos en el punto 2 el conjunto de datos se dividirá en tres partes: entrenamiento, validación y test. De esta manera, podremos utilizar cl conjunto de validación, un conjunto de datos independiente, para evaluar y elegir los hiperparámetros óptimos. El objetivo final es mantener el conjunto de test separado de todo cl proceso de estimación, tanto de parámetros como de hiperparámetros.

Una de las técnicas más sencillas para optimizar los hiperparámetros es la búsqueda en cuadrícula. Ésta consiste en definir un rango de valores para cada hiperparámetro y escoger aquella combinación entre todas las posibles que resulten en el mejor rendimiento del modelo. Pero las múltiples opciones pueden alargar este proceso más de lo necesario. Por eso utilizamos altemativas como la búsqueda aleatoría que consiste en probar combinaciones aleatorias de hiperparámetros. la búsqueda basada cn métodos bayesianos (más compleja) o los algoritmos evolutivos, como los algoritmos genéticos. Estas 1écnicas no son exhaustivas, pero son más rápidas en encontrar los hiperparámetros óptimos. Además, la búsqueda basada en métodos bayesianos nos permite aproximar la distribución de probabilidad de los hiperparámetros óptimos, lo que nos ayuda a comprender cómo afecta cada uno de ellos al rendimiento del modelo. En el caso de los algoritmos evolutivos, son muy eftetivos cuando los hiperparámetros tienen una gran cantidad de interaeciones complejas entre ellos.

1. Anexos

2. Enlaces internos

3. Enlaces externos