Metodología CRISP-DM en IA

Q: ¿Qué es AI-CRISP-DM?

AI-CRISP-DM es un marco editorial de Indexando Marketing que extiende CRISP-DM con nueve fases. Separa de forma explícita el gobierno del riesgo, el diseño del sistema, la evaluación moderna, la publicación controlada y la operación continua. Está pensado para proyectos de IA con modelos predictivos, RAG y agentes, con revisión humana proporcional al riesgo.

La metodología CRISP-DM en IA es la aplicación del marco Cross-Industry Standard Process for Data Mining a proyectos de inteligencia artificial actuales. CRISP-DM sigue siendo válido como esqueleto de proyecto: entender el negocio, entender los datos, construir una solución y llevarla al uso real. Se queda corto cuando el reto deja de ser un modelo y pasa a ser un sistema de IA en producción, con MLOps, LLMOps, RAG, agentes, observabilidad, costes de tokens y cumplimiento.

La respuesta corta: no jubiles CRISP-DM, reubícalo. Úsalo como capa de proyecto y añade encima las prácticas de operación, evaluación y gobierno que en el año 2000 no existían.

Qué es la metodología CRISP-DM y por qué sigue vigente

CRISP-DM nació a finales de 1996 y se formalizó en el año 2000. Lo creó un consorcio formado por NCR, SPSS, DaimlerChrysler y OHRA. El objetivo era un proceso no propietario, gratuito y neutral que redujera el aprendizaje por prueba y error en minería de datos. Se probó en proyectos reales de Mercedes-Benz y OHRA.

Su éxito no vino de la sofisticación teórica. Vino de cuatro rasgos prácticos: neutralidad sectorial, neutralidad tecnológica, seis fases simples y foco en los entregables. El modelo original ya incluía plan de despliegue, monitorización y revisión del proyecto. Contemplaba la operación posterior, aunque de forma muy generalista.

Las seis fases clásicas siguen siendo reconocibles en cualquier proyecto analítico:

Comprensión del negocio: definir el problema y el valor de la decisión.
Comprensión de los datos: conocer fuentes, calidad y disponibilidad.
Preparación de los datos: limpiar, transformar y construir el dataset.
Modelado: seleccionar técnicas y entrenar modelos.
Evaluación: comprobar si el resultado responde al objetivo de negocio.
Despliegue: poner el resultado a disposición de quien lo usa.

CRISP-DM sigue siendo fuerte en lo que peor hacen muchos equipos. Alinear el problema con el negocio, entender los datos al principio, iterar con disciplina y dejar trazabilidad de las decisiones. No es casualidad que IBM lo integre en SPSS Modeler, que AWS estructure el ciclo de vida de ML en seis fases iterativas muy próximas a CRISP-DM o que Microsoft TDSP declare compatibilidad con él. Su valor hoy está en el andamiaje del proyecto, no en la cobertura de prácticas modernas de producción.

Por qué CRISP-DM se queda corto en proyectos de IA modernos

El problema de CRISP-DM en 2026 no está en sus seis fases. Está en todo lo que hay que añadir alrededor. El marco original no cubre con detalle la integración y entrega continua, el versionado de datos y prompts, la infraestructura como código ni la observabilidad distribuida. Tampoco la gestión de costes de tokens, las trazas de llamadas a herramientas, la evaluación de groundedness en RAG o la seguridad de agentes.

La evidencia académica no dice que CRISP-DM funcione mejor que otras metodologías. Dice algo más útil. El estudio CRISP-DM Twenty Years Later demuestra que sigue siendo válido en proyectos dirigidos a un objetivo, pero se queda corto en trabajo exploratorio. El paper Towards CRISP-ML(Q) propone extenderlo con aseguramiento de calidad, gestión de riesgos y mantenimiento.

El trabajo seminal Hidden Technical Debt in Machine Learning Systems, de un equipo de Google, dejó clara una idea incómoda. El problema real no es entrenar el modelo, es operar el sistema sin acumular deuda técnica. Un modelo correcto en el portátil puede ser frágil y caro en producción. Las referencias completas están al final, en el apartado de fuentes.

Conviene separar dos casos. CRISP-DM vale como proceso de negocio, datos y modelo en contextos dirigidos y repetibles. Cuando el reto pasa de modelo a sistema, con versionado, observabilidad, seguridad, gobierno, costes y feedback humano, deja huecos serios. En IA generativa y agentes ese hueco no es marginal, es estructural.

AI-CRISP-DM: la metodología CRISP-DM adaptada a la inteligencia artificial

Nuestra propuesta es AI-CRISP-DM, una extensión de CRISP-DM con nueve fases. Mantiene el ADN de negocio, dato, modelo y despliegue. Separa de forma explícita lo que en el año 2000 estaba mezclado o no existía: gobierno del riesgo, diseño del sistema, evaluación moderna, publicación controlada y operación continua.

No es cambiar de metodología por moda. Es colocar CRISP-DM en su sitio, como capa de proyecto dentro de un sistema de IA más amplio.

AI-CRISP-DM es un marco editorial propio de Indexando Marketing, no un estándar reconocido. Se apoya en CRISP-DM y en propuestas como CRISP-ML(Q), y ordena en nueve fases lo que hoy exige un proyecto de IA en producción.

Fase	Objetivo	Entregable clave	Qué automatizar	Qué no automatizar sin humano
1. Encaje de negocio y riesgo	Definir problema, decisión y valor	Business case de IA	Recopilación de inputs y actas	Definición del objetivo y tolerancia al riesgo
2. Diseño del caso de uso IA	Traducir el negocio a un patrón de IA	Ficha de caso de uso	Plantillas comparativas	La elección final del patrón
3. Inventario de datos y contenido	Saber qué hay y qué falta	Inventario y matriz de acceso	Perfilado y catálogo de datos	Excepciones de acceso y uso sensible
4. Preparación y gobernanza	Resolver calidad, privacidad, permisos y versionado	Dataset o corpus versionado	Limpieza, chunking, embeddings, tests	Supresión de datos sensibles y excepciones legales
5. Diseño de la solución IA	Definir arquitectura y mecanismo de decisión	Arquitectura, prompts, esquema de salidas	Pipelines, tests de prompts, baseline	Permisos críticos de herramientas
6. Evaluación y validación humana	Medir calidad real antes de producción	Informe de evaluación	Lotes de evaluación y alertas	Aprobación final en casos de alto impacto
7. Industrialización y publicación controlada	Pasar a operación segura	Runbook y pipeline productivo	Despliegue, tests, programación	Publicación autónoma en CMS de alto impacto
8. Operación y monitorización	Detectar degradación y controlar coste y riesgo	Cuadro de control operativo	Alertas, control de coste, muestreo	Acciones de negocio irreversibles
9. Aprendizaje y gobierno	Reentrenar, recalibrar o retirar	Informe de mejora y gobierno	Triaje de backlog y reentrenado programado	Cambios de política, alcance o uso no previsto

El cambio de mentalidad cabe en tres ideas. El riesgo se evalúa al principio, no al final. La evaluación moderna mide exactitud, utilidad, groundedness, sesgo y coste, no solo precisión offline. La publicación incorpora revisión humana proporcional al coste del error, para no confundir automatización con autonomía.

Cómo combinar CRISP-DM con MLOps, LLMOps, DataOps y Responsible AI

CRISP-DM aporta algo que muchos marcos nuevos olvidan. Obliga a empezar por el negocio y a terminar en el uso, no en el entrenamiento. El matiz es que usar ya no significa solo desplegar un modelo. Significa operar un sistema con datos cambiantes, aprobaciones, seguridad, costes variables y feedback humano. Por eso conviene leer CRISP-DM como un esqueleto y completarlo con capas especializadas.

Marco complementario	Qué cubre que CRISP-DM no cubre bien	Riesgo si usas solo CRISP-DM
TDSP	Roles, repositorios, artefactos y estructura de equipo	Caos documental y traspasos pobres
DataOps	Calidad continua, pipelines y entornos desechables	Mala calidad de dato y tiempos lentos
MLOps	Automatización, entrenamiento continuo, tracking y drift	Modelos correctos en offline, frágiles en producción
LLMOps	Prompts, grounding, evaluaciones, tokens y seguridad	Demo bonita, operación cara e inestable
RAG evals	Chunking, indexado, evaluación de recuperación y grounding	Respuestas plausibles pero no fiables
Agent ops	Permisos, seguridad de herramientas, trazabilidad y revisión humana	Automatizar acciones irreversibles sin control
NIST AI RMF / Responsible AI	Confiabilidad, gestión de riesgo y gobernanza	Riesgos legales, reputacionales y de sesgo

La combinación más sólida para IA aplicada a negocio tiene seis piezas. CRISP-DM como esqueleto de proyecto. TDSP para roles y artefactos. DataOps para calidad y pipeline de datos. MLOps para lo predictivo. LLMOps para lo generativo, RAG y agentes. NIST AI RMF y cumplimiento europeo para gobierno y riesgo.

Un ejemplo concreto. En un proyecto de generación de fichas de producto, CRISP-DM ordena el encaje de negocio y la evaluación. LLMOps aporta el control de prompts, el coste por token y las evaluaciones de calidad. Responsible AI fija qué afirmaciones necesitan aprobación legal antes de publicarse. Cada capa cubre un riesgo que las demás no ven.

Aplicación práctica de AI-CRISP-DM a SEO, GEO y ecommerce

La mayoría de proyectos de SEO, GEO y ecommerce no piden entrenar un modelo fundacional. Piden componer sistemas. Datos de Search Console, GA4, Screaming Frog y el CMS. Un mecanismo de decisión. Generación controlada de contenido. Un panel operativo. Aprobación humana. Seguimiento posterior.

AI-CRISP-DM encaja bien en este terreno. Obliga a no confundir automatización con autonomía, ni la calidad de un texto con su impacto en negocio.

Caso de uso	Objetivo	IA recomendable	Validación obligatoria	KPI
Auditoría SEO con IA	Detectar incidencias y priorizar acciones	LLM más reglas y scoring	Revisión técnica SEO	Incidencias accionables, tiempo ahorrado
Clasificación de URLs por prioridad	Decidir dónde actuar primero	Modelo de scoring	Validación SEO y de negocio	Uplift por lote
Detección de thin content	Encontrar páginas de bajo valor	Clasificación más similitud de embeddings	Muestreo editorial	Precisión de detección
Optimización masiva de fichas	Mejorar CTR y conversión sin perder exactitud	LLM con salidas estructuradas y reglas	Aprobación editorial y legal de claims	CTR, CVR, devoluciones
Contenido AI-ready / GEO	Facilitar la citabilidad por sistemas de IA	LLM más extracción de entidades y QA	Revisión editorial	Menciones, citas, visibilidad en IA
Panel operativo (Make + Airtable)	Orquestar lotes y aprobaciones	Orquestación no-code más APIs de IA	Auditoría de logs y permisos	Lead time, errores, coste por lote
Publicación en CMS	Publicar solo lo aprobado	IA más conectores de CMS	Aprobación humana en tareas de alto impacto	Time-to-publish, tasa de rollback

El patrón se repite en casi todos los casos. Datos fiables, un mecanismo de decisión (scoring, clasificación, RAG o generación), una capa de evaluación con muestra revisada por humanos, publicación controlada y medición en GA4 y Search Console. Generar contenido a escala solo aporta si la calidad se evalúa y la publicación de alto impacto pasa por revisión.

Dos piezas de este enfoque las hemos desarrollado aparte. Para que tu contenido sea citable por sistemas de IA, revisa cómo estructurar tu web con HTML para IA. Si tu competencia ya aparece en las respuestas generativas y tú no, conviene entender por qué unas marcas se citan y otras no. Y para medir si el trabajo funciona, seguimos la visibilidad en buscadores y chats de IA con GEO Metrics.

Versión mínima viable para empezar

No hace falta una plataforma enorme para aplicar AI-CRISP-DM. Un consultor o un equipo pequeño puede arrancar con lo mínimo y madurar después.

Capa	Mínimo viable
Negocio	Ficha de caso de uso con KPI, owner, riesgo y presupuesto
Datos	Una tabla maestra en Airtable o Sheets con fuentes y estado
Evaluación	Golden set de 30 a 100 ejemplos revisados por un humano
Producción	Make.com o scripts simples con logging y rollback
Publicación	Aprobación humana obligatoria antes del CMS
Monitorización	Dashboard semanal con coste, calidad y KPI de negocio
Gobierno	Una regla escrita de qué no se automatiza

El arranque pide poco. Un caso de uso acotado, una muestra de evaluación, trazabilidad, un panel de control y una regla clara: no publicar sin revisar cuando el error sale caro. Cada iteración añade madurez sin perder el control.

Reubicar CRISP-DM, no jubilarlo

CRISP-DM mantiene valor real cuando el núcleo del trabajo es entender el negocio, entender los datos, construir una solución analítica y llevarla al uso. Scoring, churn, fraude, forecasting, priorización, segmentación, recomendación y muchas tareas de SEO o ecommerce de clasificación encajan ahí.

Pierde fuelle cuando el problema se convierte en un sistema operativo de IA. Ahí entran MLOps, LLMOps, RAG, agentes, observabilidad, seguridad, costes, feedback humano y cumplimiento. La práctica de los fabricantes apunta a añadir operación, evaluación continua y gobierno por encima del flujo clásico.

El criterio es sencillo. Usa CRISP-DM como esqueleto y súmale DataOps, MLOps o LLMOps, Responsible AI y revisión humana en toda salida con impacto material. En Indexando Marketing trabajamos así cuando integramos IA en SEO, GEO y ecommerce: primero la decisión de negocio, la evaluación antes que la automatización, y sin publicación automática cuando el coste del error es alto. Si quieres aplicar AI-CRISP-DM a tu proyecto, cuéntanos tu caso de uso.

Preguntas frecuentes sobre la metodología CRISP-DM en IA

¿Sigue siendo válida la metodología CRISP-DM en proyectos de inteligencia artificial?

Sí, como esqueleto de proyecto, no como ciclo de vida completo. CRISP-DM sirve para enmarcar el problema de negocio, entender los datos y diseñar entregables. En proyectos de IA modernos hay que complementarlo con MLOps, LLMOps, DataOps y gobernanza del riesgo.

¿Cuál es la diferencia entre CRISP-DM y MLOps?

CRISP-DM es una metodología de proyecto centrada en negocio, datos y modelo. MLOps es un conjunto de prácticas de ingeniería para desplegar y operar modelos de forma continua, con automatización, versionado, monitorización de drift y reentrenamiento. No compiten. CRISP-DM define qué construir y por qué. MLOps define cómo operarlo en producción.

¿Qué es AI-CRISP-DM?

AI-CRISP-DM es una extensión de CRISP-DM con nueve fases. Separa de forma explícita el gobierno del riesgo, el diseño del sistema, la evaluación moderna, la publicación controlada y la operación continua. Está pensada para proyectos de IA que incluyen modelos predictivos, RAG y agentes, con revisión humana proporcional al riesgo.

¿Sirve CRISP-DM para proyectos con LLMs, RAG y agentes?

Solo como base. La evidencia directa de CRISP-DM aplicado a LLMs todavía es fragmentaria y predomina la guía operativa de los fabricantes. Para generativa, RAG y agentes hay que añadir evaluación de groundedness, control de costes de tokens, trazas de llamadas a herramientas, seguridad y aprobación humana.

¿Cómo se aplica CRISP-DM al SEO y al ecommerce?

Componiendo sistemas en lugar de entrenar modelos desde cero. Datos de Search Console, GA4, Screaming Frog y el CMS. Clasificación o scoring de URLs y productos. Generación controlada de contenido. Un panel operativo en Airtable o Make. Aprobación humana antes de publicar. Medición posterior del impacto en tráfico y conversión.

Fuentes

CRISP-DM Twenty Years Later (Martínez-Plumed et al., IEEE Transactions on Knowledge and Data Engineering, 2021). Paper revisado por pares que evalúa la vigencia de CRISP-DM. Concluye que sigue siendo válido en proyectos dirigidos a un objetivo y propone pasar de procesos a trayectorias en trabajo exploratorio.
Towards CRISP-ML(Q) (Studer et al., 2021). Propuesta de extensión de CRISP-DM para machine learning, con aseguramiento de calidad, gestión de riesgos y mantenimiento. Es el mejor puente entre CRISP-DM y MLOps clásico.
Hidden Technical Debt in Machine Learning Systems (Sculley et al., Google, NeurIPS 2015). Trabajo seminal que demuestra que el coste real de un sistema de ML está en operarlo, no en entrenarlo. Justifica añadir observabilidad y MLOps por encima del flujo clásico.
IBM SPSS Modeler, guía CRISP-DM. Documentación oficial de IBM que integra CRISP-DM como guía de proceso dentro del producto. Evidencia de adopción operativa del marco en herramienta comercial.
AWS Well-Architected Machine Learning Lens. AWS organiza el ciclo de vida de ML en seis fases iterativas, muy próximas a las de CRISP-DM, y las amplía con prácticas de operación y gobierno.
Microsoft Team Data Science Process (TDSP). Metodología ágil e iterativa de Microsoft, declarada compatible con CRISP-DM, que añade roles, plantillas, repositorios e infraestructura para equipos.

¿Qué empresa trata tus datos?	INDEXANDO MARKETING, S.L., (en adelante, “INDEXMARKETING”).
¿Por qué tratamos los datos que te pedimos?	Tratamos tus datos para poder prestarte los servicios de INDEXMARKETING y enviarte información sobre nuestros productos y servicios + info
¿Cuál es la legitimación para este tratamiento de tus datos?	La base de legitimación es el consentimiento al tratamiento de tus datos personales, así como la ejecución de un contrato en el que el que eres parte interesada conforme a nuestra Política de Privacidad + info
¿Se van a hacer cesiones o transferencias con tus datos?	Tus datos no podrán cederse a terceras empresas. + info
¿Cuáles son mis derechos?	El interesado tiene derecho a ejercitar su derecho de: – Acceso. – Rectificación. – Supresión. – Oposición. – Portabilidad de los Datos. – Limitación del Tratamiento. – No ser objeto de decisiones automatizadas individualizadas + info
¿Tienes dudas?	Tanto si tienes alguna duda o sugerencia como si quieres darte de baja ponte en contacto con nosotros enviando un email a la siguiente dirección: info@indexandomarketing.com + info