Modelos destilados, la tendencia para 2024 en AI generativa

Los modelos de lenguaje con miles de millones de parámetros pre-entrenados en millones de documentos nos han cambiado la vida. Estamos como locos preguntando a ChatGPT o Bard o a otros y recibiendo respuestas que son más que correctas, y lo son cada vez más.

Más allá de las preguntas respuestas en conversaciones con bots, más allá de la generación de textos para marketing o de documentación, estos modelos son muy útiles para el etiquetado de datos.

Por ejemplo:

puedes etiquetar los comentarios de tus clientes en función de su sentimiento
puedes etiquetar los documentos de tu empresa en función de su contenido,
puedes clasificar los productos de tu tienda en función de su descripción.
puedes clasificar las quejas de tus clientes en función de su contenido.

Etiquetar datos mola, te ayuda a organizar, te ayuda a ser más rápido en tu interacción con los usuarios, te ayuda a tomar decisiones.

Etiquetar datos es una tarea que puede ser muy tediosa y que puede ser muy cara si la haces con personas. Pero etiquetar datos con un LLM (GPT-X) tiene algunos peros:

Los modelos con miles de millones de parámetros no caben en cualquier servidor y son caros si los llamas vía API.
Depende de para qué los LLM puede ser lentos en interacciones en tiempo real.

¿Qué es un modelo destilado?

Un modelo destilado es un modelo que ha sido entrenado para ser más pequeño y rápido que el modelo original, pero que mantiene la mayor parte de su rendimiento.

Osea, puedes “generar” un modelo que te sirva para etiquetar las quejas de tus clientes que:

Funcione tan bién como un Large LM con sus prompts bien trabajados y probados.
Sea más pequeño y mucho más rápido.

Y cómo funciona ésto:

Utilizas un modelo grande como profesor y un modelo pequeño como alumno. El profesor le enseña al alumno y el alumno aprende a hacer lo que el profesor hace. El estudiante puede ser un modelo fundacional o una red neuronal convencional o algo como BERT, uno de los modelos iniciales de Google, y que se publicó basándose en el trabajo del artículo “Attention is All You Need” de Vaswani et al. en 2017.

En el caso de BERT su simplicidad es su ventaja, y al contrario que los LLMs tipo GPT-4 que necesitan sistemas distribuidos con GPUs para funcionar, BERT puede funcionar en un portátil. Se puede entrenar en un portátil. Además BERT funciona muy bien en tareas de clasificación de texto y en tareas de etiquetado de datos.

¿Por qué es importante?

Pues porque te da libertad de adaparte un motor a las necesidades de tu negocio y te da libertad de no depender de un proveedor de servicios que te cobra por cada petición que haces.

En al caso de que quieras automatizar la clasificación de las quejas de tus clientes:

Recopilas el montón de quejas que tienes.
Las etiquetas con un modelo grande, trabajando bien en los prompts y en cómo quieres la salida.
Entrenas un modelo pequeño con las etiquetas que has obtenido.
Pones el modelo pequeño a trabajar en tu sistema.

Cada cierto tiempo, reentrenas el modelo, o lo supervisas con un humano, o haces las dos cosas.

Ahorras en:

Etiquetado Manual
Costes de infraestructura
Costes de servicios de terceros

Problemas que te puedes encontrar

Falta de datos: Si no tienes suficientes datos para entrenar el modelo pequeño, no va a funcionar bien.
Si no funciona bien el modelo grande, que es el profesor, el modelo pequeño tampoco.
La privacidad de los datos de tus clientes. Tienes que respetarla.

El fundador y CEO de Hugging Face, Clément Delangue, dice que los modelos destilados son el futuro de la IA generativa, y parece cabal lo que dice ¿no?

My prediction: in 2024, most companies will realize that smaller, cheaper, more specialized models make more sense for 99% of AI use-cases. The current market & usage is fooled by companies sponsoring the cost of training and running big models behind APIs (especially with cloud incentives).