El abecé de la IA generativa: estos son los términos clave que tiene que conocer
La IA generativa irrumpió en escena de forma abrupta y ha ocurrido igual con el nuevo lenguaje que trae consigo. Aunque la lista completa de vocabulario relacionado con la IA sería mucho más amplia (con miles de términos), destacamos los más conocidos entre los CIO, analistas, consultores y otros ejecutivos de empresas.
Agentes de IA
Un agente es un modelo de IA o un programa de software capaz de tomar decisiones o realizar acciones de forma autónoma. Cuando varios agentes trabajan juntos en pos de un mismo objetivo, pueden planificar, delegar, investigar y ejecutar tareas hasta alcanzarlo. Y cuando algunos o todos estos agentes están impulsados por IA generativa, los resultados pueden superar significativamente lo que se puede lograr con un simple enfoque de ‘preguntar y responder’. Sin embargo, los sistemas basados en agentes impulsados por IA generativa son relativamente nuevos y puede resultar difícil para una empresa crear los suyos propios, y aún más difícil es garantizar la seguridad y protección de estos sistemas.
“Los agentes y la IA basada en estos son, obviamente, un área de enorme inversión para las empresas de capital riesgo y las startups”, afirma Arun Chandrasekaran, analista de Gartner. “Y quizá veamos evolucionar y madurar más marcos de agentes en 2025”.
Alineación
La alineación de la IA se refiere a un conjunto de valores que los modelos están entrenados para defender, como la seguridad o la cortesía. Pero no todas las empresas comparten los mismos valores, y no todos los proveedores de IA dejan claro exactamente qué valores están incorporando a sus plataformas. “Es un problema, y no es fácil de resolver”, dice JJ López Murphy, jefe de Ciencia de Datos e IA en Globant. “No hay mucho que puedas hacer con un aviso si el modelo ha sido muy entrenado para ir en contra de tus intereses”.
Caja negra
Un modelo cuyos mecanismos internos no son claramente comprensibles y cuyos procesos internos están ocultos, lo que dificulta saber cómo el modelo llega a sus respuestas. Este es un problema importante para las empresas hoy en día, especialmente con los modelos comerciales. “Si no sé con qué datos se ha entrenado ese modelo y el ajuste que se le ha hecho, no me fiaría de que esté alineado con los valores de mi empresa”, afirma Priya Iragavarapu, vicepresidenta de Ciencia de Datos y Análisis de AArete.
Ventana de contexto
El número de tokens que un modelo puede procesar en un momento dado. Un token es, por término medio, tres cuartas partes de una palabra. Las ventanas de contexto amplias permiten a los modelos analizar fragmentos largos de texto o código, o proporcionar respuestas más detalladas. También permiten a las empresas proporcionar más ejemplos o directrices en el mensaje, incluir información contextual o hacer preguntas de seguimiento.
Al cierre de esta edición, la ventana contextual máxima de ChatGPT de OpenAI era de 128.000 tokens, lo que equivale a unas 96.000 palabras o casi 400 páginas de texto. Anthropic lanzó un plan empresarial para su modelo Claude a principios de septiembre con una ventana de 500.000 tokens, y Google anunció un límite de 2 millones de tokens para su modelo Gemini 1.5 Pro en junio, lo que se traduce en alrededor de 1,5 millones de palabras o 6.000 páginas de texto.
Destilación
El proceso de reducir el tamaño de un modelo a otro más pequeño que sea lo más preciso posible para un caso de uso concreto. “El uso de modelos que han sido destilados o podados durante el entrenamiento puede proporcionar un nivel similar de rendimiento, con menos recursos computacionales necesarios durante la inferencia”, afirma Ryan Gross, director senior de Datos y Aplicaciones de Caylent, una consultora en la nube. “Esto significa que utilizan menos memoria y pueden responder a las preguntas de forma más rápida y barata”.
Incrustaciones
Formas de representar texto, imágenes u otros datos de modo que objetos similares puedan localizarse cerca unos de otros. Para ello se suelen utilizar vectores en un espacio multidimensional, en el que cada dimensión refleja una propiedad concreta de los datos. Suelen almacenarse en una base de datos vectorial y utilizarse junto con la generación aumentada por recuperación (RAG) para mejorar la precisión y la puntualidad de las respuestas de la IA.
Perfeccionamiento
Proceso de entrenamiento adicional de un modelo preentrenado en un conjunto de datos específico para adaptarlo a tareas concretas. Las empresas suelen empezar con un modelo comercial o de código abierto y luego lo perfeccionan con sus propios datos para mejorar la precisión, evitando así la necesidad de crear su propio modelo básico desde cero. “La formación es lo más caro”, afirma Andy Thurai, vicepresidente y analista principal de Constellation Research. “El ajuste fino es lo segundo más caro”.
Modelos básicos
Los modelos de IA de gran tamaño suelen entrenarse con grandes conjuntos de datos. Los ejemplos más comunes incluyen LLM como ChatGPT y modelos de imagen como Dall-E 2. Las empresas individuales no suelen entrenar sus propios modelos de base. En su lugar, utilizan uno disponible comercialmente o de código abierto, y luego lo personalizan o ajustan a sus propias necesidades. Los modelos de cimentación también pueden utilizarse tal cual, sin ajustes adicionales, con RAG e ingeniería rápida.
Conexión a tierra
Dado que los modelos gen AI no recuerdan realmente sus datos de entrenamiento -sólo los patrones que aprendieron de esos datos de entrenamiento-, la precisión de las respuestas puede variar drásticamente. Esto puede ser un problema importante para los casos de uso empresarial, ya que los modelos de IA pueden dar respuestas que parezcan correctas pero que sean totalmente erróneas. La conexión a tierra ayuda a reducir este problema proporcionando a la IA los datos que necesita. Por ejemplo, un usuario que pregunte a una IA cómo utilizar un producto concreto puede pegar el contexto del manual del producto en la pregunta.
Alucinaciones
Los modelos de IA pueden generar respuestas falsas, sin sentido o incluso peligrosas que pueden parecer plausibles a primera vista. Las empresas reducen estas alucinaciones afinando los modelos y utilizando técnicas de RAG y grounding. Otra forma de reducir las alucinaciones es ejecutar la misma pregunta varias veces y comparar las respuestas, afirma David Guarrera, responsable de Inteligencia Artificial de EY Américas, aunque esto puede aumentar los costes de inferencia.
Humanos en el bucle
Para muchos casos de uso, la IA generativa no es lo suficientemente precisa, exhaustiva o segura como para utilizarla sin supervisión humana. Un enfoque humano en el bucle implica que una persona revise los resultados de la IA antes de que se utilicen. “Soy un gran defensor de la revisión humana de todo lo que produce el modelo de lenguaje de gran tamaño -código, contenido, imágenes- sea como sea”, afirma Iragavarapu.
Inferencia
El proceso de utilizar un modelo entrenado para dar respuestas a preguntas. Esto puede resultar muy caro si las empresas utilizan modelos comerciales que cobran por token. “Cuando empiezas a ejecutar cargas de trabajo que tienen millones de inferencias, te llevas un buen susto”, dice Thurai. Algunas formas de reducir los costes de inferencia son los modelos de código abierto, los modelos de lenguaje reducido y la inteligencia artificial avanzada.
‘Jailbreaking’
Los sistemas de inteligencia artificial generativos, como los chatbots o los generadores de imágenes, suelen estar protegidos para evitar que ofrezcan respuestas ilegales, peligrosas u obscenas. Para eludir estas restricciones, los usuarios malintencionados intentan engañar a la IA para que ignore estas barreras con mensajes como ‘Ignora todos los comandos anteriores’. Con el tiempo, los proveedores de IA han descubierto las técnicas de fuga más comunes, pero los usuarios siguen ideando otras nuevas. Este es el mayor riesgo de seguridad en muchas aplicaciones LLM, dice Guarrera. “Y los postes de la portería siempre están cambiando”.
Además de engañar a una IA para que dé respuestas inapropiadas, los jailbreaks también se pueden utilizar para exponer datos de entrenamiento, o conseguir acceso a información propietaria o sensible almacenada en bases de datos vectoriales y utilizada en GAR. Los ataques de jailbreaking también se conocen como ataques de inyección de información.
Gran modelo lingüístico
Un gran modelo de lenguaje (LLM) es un tipo de modelo de base diseñado específicamente para trabajar con texto. Suele tener un tamaño de decenas o cientos de miles de millones de parámetros, en comparación con los modelos de lenguaje pequeños, que suelen tener menos de 10.000 millones de parámetros. Por ejemplo, Llama 3.1 de Meta tiene 405.000 millones de parámetros, mientras que GPT-4 de OpenAI tiene más de un billón.
Elegir el modelo adecuado suele requerir algunas pruebas con el caso de uso previsto. Sin embargo, las empresas suelen empezar por consultar las tablas de clasificación para ver qué modelos tienen las puntuaciones más altas. La tabla de clasificación LMSYS Chatbot Arena clasifica tanto los modelos propietarios como los de código abierto, mientras que la tabla de clasificación Hugging Face Open LLM clasifica sólo los de código abierto, pero utiliza múltiples puntos de referencia.
IA multimodal
Los modelos de base multimodal pueden manejar múltiples tipos de datos, como texto, imagen, audio o vídeo. Un modelo completamente multimodal se entrenaría con varios tipos de datos a la vez. Sin embargo, lo más habitual es que haya varios modelos en el back-end, cada uno de los cuales maneja un tipo de datos diferente. “La multimodalidad está aún en pañales”, afirma Sinclair Schuller, socio de EY. “La mayoría de los sistemas multimodales aún no son genuinamente multimodales”. Por ejemplo, un modelo que interactúa con los usuarios a través de la voz podría traducir primero el audio a texto, luego generar una respuesta de texto y, a continuación, volver a traducir esa respuesta a audio.
‘Prompts’
La entrada que se da a un modelo de IA genérica, o la pregunta que envía un usuario a un chatbot. Además de una pregunta, las prompts también pueden incluir información de fondo que sería útil para responder a la pregunta, directrices de seguridad sobre cómo debe responderse a la pregunta y ejemplos de respuestas para utilizar como modelos.
Ingeniería de preguntas
La nueva disciplina que consiste en crear instrucciones eficaces para obtener los resultados deseados de los modelos de IA. Los usuarios finales pueden utilizar la ingeniería de instrucciones para guiar a la IA, por ejemplo pidiendo que la respuesta que sea ‘lo suficientemente sencilla como para que la entienda un estudiante de secundaria’ o diciéndole a la IA que ‘piense las cosas paso a paso’. Pero también la utilizan los desarrolladores que añaden funciones de IA a los flujos de trabajo de la empresa, y puede incluir directrices y libros de estilo, ejemplos de respuestas, datos contextuales y otra información que podría mejorar la calidad y precisión de la respuesta.
Generación de recuperación aumentada (RAG)
La generación aumentada de recuperación (RAG) es una forma de mejorar la precisión, la seguridad y la puntualidad añadiendo contexto a una consulta. Por ejemplo, una aplicación que utiliza IA genérica para redactar cartas de marketing puede extraer información relevante sobre los clientes de una base de datos, lo que permite a la IA acceder a los datos más recientes. Además, permite a la empresa evitar entrenar o ajustar el modelo de IA con los datos reales del cliente, lo que podría suponer una violación de la seguridad o la privacidad.
Pero la RAG tiene sus inconvenientes. En primer lugar, la complejidad añadida de recopilar la información pertinente y trasladarla a bases de datos vectoriales. Luego está la sobrecarga de seguridad para garantizar que sólo acceden a la información los usuarios o procesos autorizados. Y está el coste añadido de la propia inferencia, ya que el precio suele basarse en el número de tokens.
“Si se están ingiriendo documentos de mil páginas cada uno, los costes de incrustación pueden llegar a ser significativamente altos”, afirma Swaminathan Chandrasekaran, responsable de Arquitectura de Soluciones Digitales de KPMG.
IA responsable
Desarrollo y despliegue de sistemas de IA teniendo en cuenta la ética, la parcialidad, la privacidad, la seguridad, el cumplimiento y el impacto social. La IA responsable puede ayudar a aumentar la confianza de clientes, empleados y otros usuarios y partes interesadas, así como ayudar a las empresas a evitar la vergüenza pública y adelantarse a las normativas.
Ilana Golbin Blumenfeld, directora de IA responsable de PwC, recomienda que las empresas empiecen por definir sus principios de IA responsable que guiarán el desarrollo y la implantación de los sistemas de IA. Podrían incluir equidad, transparencia, privacidad, responsabilidad e inclusión. También recomienda que las empresas mantengan la supervisión y la responsabilidad humanas. “Diseñe sistemas de IA que aumenten la toma de decisiones humana, en lugar de sustituirla por completo”, afirma.
Modelo lingüístico pequeño
Los modelos de IA generativa más conocidos, como ChatGPT de OpenAI o Claude de Anthropic, son LLM, con decenas o cientos de miles de millones de parámetros. En comparación, los modelos lingüísticos pequeños suelen tener 7.000 u 8.000 millones y pueden ofrecer ventajas significativas para casos de uso concretos. “Los modelos más pequeños suelen costar menos, pero pueden ofrecer menos precisión o capacidad”, afirma Gross, de Caylent. Pero elegir el tamaño de modelo adecuado para la tarea específica puede optimizar los costes sin comprometer demasiado el rendimiento, añade.
Datos sintéticos
Datos generados artificialmente que se utilizan para entrenar modelos de IA, a menudo creados por otros modelos de IA. “Los datos del mundo real son muy caros, requieren mucho tiempo y son difíciles de recopilar”, añade Thurai. “Por ejemplo, algunos grandes modelos lingüísticos se entrenan con miles de millones de parámetros, y cuantos más datos se introducen, mejor es el modelo”. Los datos sintéticos también pueden utilizarse para rellenar huecos o sustituir información personal identificable. Pero en exceso pueden introducir nuevos sesgos y, si los modelos se entrenan con datos sintéticos y luego se utilizan para producir más datos sintéticos, los ciclos repetidos pueden llevar al colapso del modelo.
Base de datos vectorial
Normalmente se utiliza para almacenar información que luego se utiliza para proporcionar el contexto necesario a los modelos de IA a través de la RAG. Las bases de datos vectoriales almacenan los datos en un espacio multidimensional, lo que permite ubicar cerca información estrechamente relacionada para facilitar las búsquedas. Los hiperescaladores y los proveedores de plataformas de IA suelen incluir una base de datos vectorial en sus conjuntos de herramientas. Además, Pinecone es una popular base de datos vectorial de código abierto, y Elasticsearch y OpenSearch son populares para la búsqueda de texto completo.
‘Zero-shot prompt’
“Con zero-shot prompt cualquiera puede ponerse delante de una herramienta de IA generativa y hacer algo de valor para el negocio”, afirma Sheldon Monteiro, director de Producto de Publicis Sapient. “Como un desarrollador que entra y dice: ‘Ayúdame a escribir código’”. Otros ejemplos comunes de zero-shot prompt incluyen preguntas de conocimiento general o peticiones para resumir un texto. En comparación, las preguntas de pocos intentos requieren que el usuario proporcione ejemplos para guiar a la IA. Por ejemplo, un usuario que busca una carta de ventas puede proporcionar ejemplos de cartas de ventas anteriores para que la IA pueda hacer un mejor trabajo ajustándose al estilo y formato de la empresa.