Curso de Modelos personalizados de IA: tu propio chatbot (Programa detallado)

Objetivo:

  • Identificar y explicar los componentes clave y la funcionalidad de los Modelos de Lenguaje de Gran Escala (LLMs) y la Recuperación de Información Generativa (RAG).
  • Evaluar ejemplos de aplicaciones RAG y describir cómo se integran con LLMs para mejorar la recuperación de información.
  • Aplicar técnicas de procesamiento para transformar datos no estructurados en formatos adecuados para el uso en LLMs.
  • Desarrollar habilidades para implementar y utilizar Sentence Transformers en la creación de bases de datos vectoriales para aplicaciones RAG.
  • Implementar y evaluar estrategias de búsqueda y recuperación utilizando consultas vectoriales y modelos LLM.
  • Implementar y desplegar modelos LLM en entornos locales y en la nube, utilizando herramientas avanzadas para facilitar el acceso y la interacción.
  • Utilizar frameworks de código abierto para desarrollar y desplegar aplicaciones RAG, demostrando comprensión y habilidad en la integración de estos componentes.

Dirigido a:

Profesionales y estudiantes de tecnologías de la información, ciencias de datos, inteligencia artificial y áreas afines que desean adquirir conocimientos fundamentales sobre los Modelos de Lenguaje de Gran Escala (LLMs) y su aplicación en la inteligencia artificial generativa. Es ideal para:

  • Desarrolladores de software y programadores interesados en inteligencia artificial.
  • Analistas de datos y científicos de datos que buscan mejorar sus habilidades en procesamiento y recuperación de información.
  • Ingenieros de sistemas y arquitectos de soluciones que desean implementar soluciones basadas en LLMs.
  • Estudiantes y académicos interesados en las aplicaciones prácticas de la inteligencia artificial generativa.

Requisitos:

  • Programación, preferiblemente en Python.
  • Fundamentos de inteligencia artificial y aprendizaje automático.
  • Conceptos básicos de manejo y procesamiento de datos.
  • Familiaridad con el entorno de desarrollo de software y herramientas de código abierto.

PROGRAMA DEL CURSO

1.- Conceptos básicos sobre LLMs y recuperación de datos

Objetivo

1. Identificar y explicar los componentes clave y la funcionalidad de los LLMs y RAG.

2. Evaluar ejemplos de aplicaciones RAG y describir cómo se integran con LLMs para mejorar la recuperación de información.

Contenido

  1. Conceptos básicos sobre modelos de lenguaje y recuperación de datos
    1. Componentes clave de los modelos de lenguaje grande (LLMs)
    2. ¿Por qué son tan revolucionarios los Transformers?
    3. Limitaciones de las redes neuronales clásicas
    4. La revolución de los Transformers
    5. ¿Y a efectos prácticos, qué necesito tener para operar mi propio LLM?
    6. Cargando un modelo de GPT2 en nuestro entorno de desarrollo
    7. Las matemáticas muy resumidas detrás de los Transformers (solo para fans verdaderos)
    8. Comparación de Transformers con CNNs y RNNs
    9. ¿Y cómo es posible que los LLMs parezcan razonar?
    10. Componentes clave de la recuperación de datos
    11. Resumen

2.- Procesamiento de datos no estructurados

Objetivo

Aplicar técnicas de procesamiento para transformar datos no estructurados en formatos adecuados para el uso en LLMs.

Contenido

  1. Procesamiento de datos no estructurados
    1. Definición de datos no estructurados
    2. Algunos tipos de datos no estructurados
    3. ¿Cómo se usan los datos no estructurados en RAG?
    4. Preprocesamiento de Texto
    5. Datos en ficheros
    6. Importancia de procesar datos no estructurados para LLMs
    7. ¿Qué es exactamente la indexación de datos?
    8. Procesamiento de datos multimedia
    9. Procesar videos (extraer audio, transcribirlo y generar embeddings)
    10. Resumen

3.- Embeddings y bases de datos vectoriales

Objetivo

Desarrollar habilidades para implementar y utilizar Sentence Transformers en la creación de bases de datos vectoriales para aplicaciones RAG

Contenido

  1. Opciones de almacenamiento para embeddings
    1. Bases de datos de vectores
    2. Almacenamiento en bases de datos relacionales y NoSQL
    3. Archivos binarios y almacenamiento en disco
    4. Bases de datos vectoriales
    5.  Almacenamiento de embeddings en bases de datos vectoriales
    6. Introducción a los Sentence Transformers
    7. Flujo general de integración de datos procesados en LLMs
    8. Resumen

4.- Crea tu chatbot con datos personalizados

Objetivo

Implementar y evaluar estrategias de búsqueda y recuperación utilizando consultas vectoriales y modelos LLM. Creación del Chatbot

Contenido

  1. Creación del chatbot personalizado
    1.  Siguientes pasos
    2. ¿Puedo alojar mi chatbot en Hugging Face?
    3. Alojando el chatbot en tu propio servidor
    4. Mantenimiento del chatbot
    5.  Evaluación de la recuperación de información
    6. Métricas relevantes
    7. Evaluando la efectividad del chatbot
    8. Resumen

5.- Despliegues de LLMs, plataformas y herramientas

Objetivo

Implementar y desplegar modelos LLM en entornos locales y en la nube, utilizando herramientas avanzadas para facilitar el acceso y la interacción.

Contenido

  1. Introducción a los despliegues de LLMs
    1. Beneficios del despliegue local versus en la nube
    2. Herramientas y entornos para despliegue local 
    3. Despliegue de LLMs en la nube
    4. Optimización y mantenimiento de despliegues
    5. Estrategias de actualización y mantenimiento de los modelos
    6. Discusión sobre desafíos y soluciones en el uso práctico de LLMs
    7. Resumen