Etiquetado de Datos, la clave para una IA útil y eficiente
Tienes datos, tienes IAs que entrenar, pero no tienes etiquetas: No tienes ná.
Por ejemplo, puedes tener tienes archivos con las peticiones de los clientes a tu servicio de soporte, pero no tienes:
- Etiquetas de los temas tratados en las llamadas para saber a qué departamento dirigirlas.
- Etiquetas de las emociones de los clientes para saber si están contentos o enfadados.
- Si se ha resuelto el problema o no.
Una IA que de verdad ayude al negocio a menudo no es viable por el tiempo y el coste necesarios para etiquetar manualmente los datos, ya sea por expertos internos o por crowdsourcing* La forma más rápida de solucionar este problema es creando funciones de etiquetado de datos que puedan capturar el conocimiento de los expertos y aplicarlo automáticamente a gran escala.
A pesar de la complejidad de los algoritmos de IA y Machine Learning, el verdadero protagonista es el etiquetado de datos con la más alta calidad.
Cuando nuestros clientes nos preguntan “qué IA necesito”, primero trabajamos los datos y luego ya veremos qué IA o algoritmo es el más adecuado.
En qué consiste el etiquetado de datos
Es el proceso con el que identificamos y clasificamos los datos de ejemplo para que los algoritmos de ML puedan aprender de ellos* Osea que le damos a las IA en contexto para que aprendan y puedan hacer predicciones sobre datos que no han visto antes.
Según el tipo de dato con que trabajemos podemos estar hablando de:
-
Etiquetado de texto: Clasificación de texto, extracción de entidades, análisis de sentimiento*
-
Por ejemplo, si estamos trabajando con correos electrónicos, podemos etiquetarlos según el tema, la urgencia, el tono, etc.
-
Por ejemplo, identificar si el titular de una noticia nos manipula o no.
-
Etiquetado de imágenes: Clasificación de imágenes, detección de objetos, segmentación de imágenes.
-
Por ejemplo, si estamos trabajando con imágenes de satélite, podemos etiquetarlas según el tipo de terreno, la presencia de vegetación, la presencia de agua.
-
Por ejemplo, dada una imagen de un proyecto en construcción identificar si se están cumpliendo los plazos según su porcentaje de avance.
-
Etiquetado de audio: Transcripción de audio, análisis de sentimiento, clasificación de audio. Por ejemplo, si estamos trabajando con grabaciones de llamadas de clientes, podemos etiquetarlas según el tono de voz, la duración, el motivo de la llamada.
-
Etiquetado de vídeo: Clasificación de vídeo, detección de objetos, segmentación de vídeo.
-
Por ejemplo, si estamos trabajando con vídeos de cámaras de seguridad, podemos etiquetarlos según la presencia de personas, la presencia de vehículos, la presencia de objetos sospechosos.
-
Por ejemplo, etiquetar las personas que aparecen en un vídeo, y lo mimos con objetos, textos, marcas.
-
Etiquetado de series temporales: Predicción de series temporales, clasificación de series temporales.
-
Por ejemplo, si estamos trabajando con series temporales de ventas, podemos etiquetarlas según la tendencia, la estacionalidad, la presencia de outliers.
-
Por ejemplo, si tenemos los datos de movimiento de una pulsera en pacientes de Parkinson, podemos etiquetarlos según la intensidad sus movimientos, la duración de los episodios, la frecuencia de los episodios, relación con la toma de medicación.
Si vuelves a leer la lista anterior y piensas en hacerlo a mano sobre miles o millones de datos, verás que es un trabajo gigante y pesado.
En todos los casos citados, hemos hecho al menos un proyecto en taniwa, y en todos ellos la base del éxito ha sido el etiquetado de los datos.
Proceso de etiquetado de datos
Manual: Se realiza por expertos humanos que revisan y clasifican los datos uno a uno*
- Pros: Alta precisión / Detectas y clasificas bien los casos “raros”
- Contras: Lento / Caro / No escalable / Encontrar expertos puede ser complicado
Semiautomático: Se realiza por expertos humanos que revisan y corrigen las etiquetas generadas por algoritmos de IA*
- Pros: Más rápido / Más barato / Más escalable / Los humanos pueden corregir los errores de los algortimos.
- Contras: Menos preciso / Los humanos pueden seguir siendo un problema de escalabilidad.
Automático: Se realiza por algoritmos de IA que etiquetan los datos automáticamente*
- Pros: Rápido / Barato / Escalable / Puedes etiquetar millones de datos en poco tiempo.
- Contras: Menos preciso / Los algoritmos pueden no ser capaces de etiquetar bien los casos “raros”.
Tipo de etiquetado | Precisión | Velocidad | Coste | Escalabilidad | Casos raros |
---|---|---|---|---|---|
Manual | Alta | Lento | Alto | Baja | OK |
Semiautomático | Media | Rápido | Medio | Media | OK |
Automático | Baja | Rápido | Bajo | Alta | X |
Lo que queremos | Alta | Rápido | Bajo | Alta | OK |
Nuestro acercamiento al etiquetado de datos
Normalmente, en taniwa, trabajamos con un acercamiento semiautomático al etiquetado de datos, y usamos lo que se llama “weak supervision” o “supervisión débil” para entrenar los algoritmos de IA que etiquetan los datos automáticamente.
Claro está, estamos hablando de problemas de etiquetado masivo de datos, en los que un buen acercamiento puede hacerte pasar de meses a días en el etiquetado de los datos.
Los pasos generales son:
- Estudio de los datos: Entender los datos y las necesidades de etiquetado de cara al negocio.
- Definir las etiquetas: Qué queremos etiquetar y cómo lo vamos a hacer.
- Crear funciones de etiquetado: Funciones que etiquetan los datos automáticamente.
- Entrenar las funciones de etiquetado: Usar los datos etiquetados manualmente para entrenar las funciones de etiquetado.
- Etiquetar los datos: Etiquetar los datos automáticamente con las funciones de etiquetado.
- Revisar los datos: Revisar los datos etiquetados automáticamente y corregir los errores y volver al punto 3 de definición y mejora de las funciones de etiquado.
Las funciones de etiquetado pueden ser tan simples como una regla que etiqueta los correos electrónicos según la presencia de ciertas palabras clave, o tan complejas como un modelo de IA que etiqueta las imágenes según el contenido de las mismas. En el proyecto de etiquetado de titulares de noticias como clickbait o no, usamos:
- Reglas de palabras clave: Si aparece “sorprendente” o “increíble” es clickbait.
- Patrones de palabras: Si aparece “verbo + número + sustantivo” es clickbait.
- Modelos de IA: Si el modelo de IA dice que es clickbait, es clickbait.
Y además rastreamos fuentes de datos con titulares ya clasificados o descargamos noticias de sitios claramente manipuladores.
El proceso interativo de revisión y mejora de las funciones de etiquetado es clave para obtener etiquetas de alta calidad y ahorrar tiempo y dinero.
Conclusiones
El etiquetado de datos es la clave para una IA útil y eficiente. Es un proceso iterativo en el que vas mejorando la calidad de tu corpus.
Al final lo que vale “oro” es esa base de datos etiquetada que te permite entrenar tus modelos de IA.
Foto de Brett Jordan