Qué conceptos debería dominar un experto en datos e IA
En taniwa, somos expertos en el tratamiento de datos y la aplicación de modelos de IA para resolver problemas de negocio.
Pero lo mismo dicen cientos de empresas en el sector, así que mostrar qué nos diferencia es clave para trabajar con los clientes adecuados.
- No nos diferencia el discurso.
- Sí nos diferencia el conocimiento profundo de determinados conceptos.
- Sí nos diferencian los proyectos que hemos hecho y los resultados que hemos obtenido.
Trabajar con chatGPT, conectarse a un API de IA, o hacer un modelo de Machine Learning es algo que está al alcance de cualquiera. Tiene valor, hay qué saber, pero el trabajo fino para resolver problemas de negocio reales va a estar en los detalles.
Tienes que saber:
- Curar los datos. Aumentarlos si hace falta.
- Orientar la información a los objetivos del negocio.
- Diseñar procesos y arquitectura para que sean útiles para los usuarios.
- De herramientas y de conceptos que te permitan hacerlo. Y son muchos.
Sólo nos diferencian las referencias y el conocimiento profundo de los conceptos necesarios.
Qué conceptos debería dominar un experto en datos e IA
Esta es nuestra idea sobre qué debemos conocer para poder aportar y tirar más de un área u otra en función del proyecto.
Iceberg de conocimientos de un experto en datos e IA: ¿Dónde estás tú?Vamos de más ambiguo y más fácil hasta las bases que sustentan todo:
LLM Básico
Estamos hablando de una persona que sabe usar los asistentes como eso, como copilotos para la generación de textos, extractos, planes de trabajo, etc. Aquí debemos saber los límites de los LLM, dónde son certeros y dónde son útiles.
LLM Medio
Ser capaz de entrenar un modelo de lenguaje para que genere textos específicos, como respuestas a preguntas frecuentes, resúmenes de textos, etc. Aquí ya estamos hablando de un conocimiento más profundo de cómo funcionan los modelos de lenguaje y cómo se pueden entrenar. También de cómo combinar agentes y modelos de lenguaje para hacer sistemas más complejos.
LLM Avanzado:
Estamos hablando de modelos destilados, de cómo se pueden usar para hacer sistemas de recomendación, de cómo se pueden usar para hacer sistemas de generación de texto en tiempo real, de cómo se pueden usar para hacer sistemas de traducción. También finetuning de modelos de lenguaje para tareas específicas y de cómo aligerar los modelos para poder ejecutarlos sin arruinarse en el proceso.
Modelos Machine Learning
Entrenamiento de modelos de Machine Learning, ciclo de vida MLOps, modelos de lenguaje como BERT, Deep Learning, como diseñar pruebas calidad de los modelos de Machine Learning.
ML Supervisado/No Sup | Clustering | Regresiones | Apredizaje por Refuerzo Python | Kaggle
Machine Learning
Cómo funcionan los modelos supervisados, no supervisados, de clustering, de regresión y cuñal utilizar según el problema. Especial compresión de lo cómo funciona el aprendizaje por refuerzo y cómo sacarle partido.
Tratamiento de Imágenes
Clasificación de imágenes, detección de objetos, segmentación de imágenes. Cómo se pueden usar los modelos de Deep Learning para hacer estas tareas y cómo se pueden entrenar estos modelos. Proceso de “Augmetation” para mejorar los datos de entrenamiento.
Análisis de Datos
Mucho contenido:
- Estadística básica: Cómo se pueden analizar los datos para entender su distribución, tendencias y relaciones entre variables.
- Profiling de datos: Cómo se pueden analizar los datos para entender su estructura, contenido y relaciones entre los objetos de datos.
- Limpieza y curación de datos: Cómo se pueden limpiar los datos para eliminar errores y valores atípicos.
- Extracción de características: PCA (Análisis de Componentes Principales), LDA (Análisis Discriminante Lineal), t-SNE (t-distributed Stochastic Neighbor Embedding).
- Clustering de datos: K-means, DBSCAN, Agglomerative Clustering, UMAP.
- Regresión: Lineal, Logística, Polinómica, Ridge, Lasso.
Análisis de Series Temporales
Todo un mundo es sí mismo, con todo el IoT (o la bolsa) que viene, es un campo que va a crecer mucho en los próximos años. Aquí debemos saber cómo se pueden analizar los datos temporales para entender las tendencias, estacionalidades y relaciones entre variables. Detección de patrones.
Análisis de Texto
La base de las primeras capas de los modelos de lenguaje. Mucho textmining, NLP y cómo no, los Embeddings, que son la base de los modelos de lenguaje. Aquí debemos saber cómo se pueden analizar los datos de texto para entender su contenido, estructura y relaciones entre palabras.
La base de todo
- Archivos: CSV, JSON, XML, Parquet, Avro, ORC. Datalakes, Cloud Storage.
- SQL: Básico, avanzado, optimización de consultas.
- CBT: BigQuery, Redshift, Snowflake.
- noSQL: MongoDB, Cassandra, Redis, ElasticSearch.
- ETL: Airflow, Luigi, Prefect. Mucho python.
- Arquitectura: Data lakes, DWH, Data Marts, Data Warehousing, Data Mesh, los servicios de AWS, Azure, GCP y otros.
Conclusión:
Todo lo anterior lleva un tiempo y se aprende estudiando y con la práctica. No hay atajos y no hay soluciones mágicas. Bueno a veces sí, si el problema es sencillo.
Foto de una IA de por ahí