El Diseño de Evaluación de IA es la práctica de convertir la "buena salida de IA" en pruebas medibles y repetibles, y de tratar esos criterios de prueba como una declaración de intención de producto y diseño. En 2026 la industria tiene un nombre para la disciplina que lo envuelve: desarrollo guiado por evals. Defines cómo se ve lo correcto antes de construir, puntúas cada cambio contra eso y bloqueas lanzamientos según el resultado.
El cambio importa porque los criterios de eval deciden qué significa "calidad" para tu feature de IA. Si ingeniería escribe los evaluadores en solitario, los evals miden exactitud y latencia y se pierden lo que importa a diseño y producto: el tono, la completitud, la recuperación, si la respuesta de verdad desbloquea al usuario. Quien escribe los criterios define el producto. Por eso esto pertenece a una biblioteca de UX, no solo a un manual de ingeniería.
La guía de OpenAI es directa sobre el fallo que reemplaza: los "evals por intuición", lanzar con la sensación de que parece funcionar. Anthropic describe una buena tarea de eval como aquella en la que "dos expertos del dominio llegarían de forma independiente al mismo veredicto de aprobado o reprobado". Ambos apuntan a la misma disciplina. Define lo correcto, mide pronto, mide seguido.
El principio: escribe la definición de lo correcto antes de escribir la feature, codifica la intención de producto y UX en los criterios, elige el evaluador que encaja con cada dimensión y muestra lo que probaste como señal de confianza.