La metodología CRISP-DM en IA es la aplicación del marco Cross-Industry Standard Process for Data Mining a proyectos de inteligencia artificial actuales. CRISP-DM sigue siendo válido como esqueleto de proyecto: entender el negocio, entender los datos, construir una solución y llevarla al uso real. Se queda corto cuando el reto deja de ser un modelo y pasa a ser un sistema de IA en producción, con MLOps, LLMOps, RAG, agentes, observabilidad, costes de tokens y cumplimiento.

La respuesta corta: no jubiles CRISP-DM, reubícalo. Úsalo como capa de proyecto y añade encima las prácticas de operación, evaluación y gobierno que en el año 2000 no existían.

Qué es la metodología CRISP-DM y por qué sigue vigente

CRISP-DM nació a finales de 1996 y se formalizó en el año 2000. Lo creó un consorcio formado por NCR, SPSS, DaimlerChrysler y OHRA. El objetivo era un proceso no propietario, gratuito y neutral que redujera el aprendizaje por prueba y error en minería de datos. Se probó en proyectos reales de Mercedes-Benz y OHRA.

Su éxito no vino de la sofisticación teórica. Vino de cuatro rasgos prácticos: neutralidad sectorial, neutralidad tecnológica, seis fases simples y foco en los entregables. El modelo original ya incluía plan de despliegue, monitorización y revisión del proyecto. Contemplaba la operación posterior, aunque de forma muy generalista.

Las seis fases clásicas siguen siendo reconocibles en cualquier proyecto analítico:

  1. Comprensión del negocio: definir el problema y el valor de la decisión.
  2. Comprensión de los datos: conocer fuentes, calidad y disponibilidad.
  3. Preparación de los datos: limpiar, transformar y construir el dataset.
  4. Modelado: seleccionar técnicas y entrenar modelos.
  5. Evaluación: comprobar si el resultado responde al objetivo de negocio.
  6. Despliegue: poner el resultado a disposición de quien lo usa.

CRISP-DM sigue siendo fuerte en lo que peor hacen muchos equipos. Alinear el problema con el negocio, entender los datos al principio, iterar con disciplina y dejar trazabilidad de las decisiones. No es casualidad que IBM lo integre en SPSS Modeler, que AWS estructure el ciclo de vida de ML en seis fases iterativas muy próximas a CRISP-DM o que Microsoft TDSP declare compatibilidad con él. Su valor hoy está en el andamiaje del proyecto, no en la cobertura de prácticas modernas de producción.

Por qué CRISP-DM se queda corto en proyectos de IA modernos

El problema de CRISP-DM en 2026 no está en sus seis fases. Está en todo lo que hay que añadir alrededor. El marco original no cubre con detalle la integración y entrega continua, el versionado de datos y prompts, la infraestructura como código ni la observabilidad distribuida. Tampoco la gestión de costes de tokens, las trazas de llamadas a herramientas, la evaluación de groundedness en RAG o la seguridad de agentes.

La evidencia académica no dice que CRISP-DM funcione mejor que otras metodologías. Dice algo más útil. El estudio CRISP-DM Twenty Years Later demuestra que sigue siendo válido en proyectos dirigidos a un objetivo, pero se queda corto en trabajo exploratorio. El paper Towards CRISP-ML(Q) propone extenderlo con aseguramiento de calidad, gestión de riesgos y mantenimiento.

El trabajo seminal Hidden Technical Debt in Machine Learning Systems, de un equipo de Google, dejó clara una idea incómoda. El problema real no es entrenar el modelo, es operar el sistema sin acumular deuda técnica. Un modelo correcto en el portátil puede ser frágil y caro en producción. Las referencias completas están al final, en el apartado de fuentes.

Conviene separar dos casos. CRISP-DM vale como proceso de negocio, datos y modelo en contextos dirigidos y repetibles. Cuando el reto pasa de modelo a sistema, con versionado, observabilidad, seguridad, gobierno, costes y feedback humano, deja huecos serios. En IA generativa y agentes ese hueco no es marginal, es estructural.

AI-CRISP-DM: la metodología CRISP-DM adaptada a la inteligencia artificial

Nuestra propuesta es AI-CRISP-DM, una extensión de CRISP-DM con nueve fases. Mantiene el ADN de negocio, dato, modelo y despliegue. Separa de forma explícita lo que en el año 2000 estaba mezclado o no existía: gobierno del riesgo, diseño del sistema, evaluación moderna, publicación controlada y operación continua.

No es cambiar de metodología por moda. Es colocar CRISP-DM en su sitio, como capa de proyecto dentro de un sistema de IA más amplio.

AI-CRISP-DM es un marco editorial propio de Indexando Marketing, no un estándar reconocido. Se apoya en CRISP-DM y en propuestas como CRISP-ML(Q), y ordena en nueve fases lo que hoy exige un proyecto de IA en producción.

FaseObjetivoEntregable claveQué automatizarQué no automatizar sin humano
1. Encaje de negocio y riesgoDefinir problema, decisión y valorBusiness case de IARecopilación de inputs y actasDefinición del objetivo y tolerancia al riesgo
2. Diseño del caso de uso IATraducir el negocio a un patrón de IAFicha de caso de usoPlantillas comparativasLa elección final del patrón
3. Inventario de datos y contenidoSaber qué hay y qué faltaInventario y matriz de accesoPerfilado y catálogo de datosExcepciones de acceso y uso sensible
4. Preparación y gobernanzaResolver calidad, privacidad, permisos y versionadoDataset o corpus versionadoLimpieza, chunking, embeddings, testsSupresión de datos sensibles y excepciones legales
5. Diseño de la solución IADefinir arquitectura y mecanismo de decisiónArquitectura, prompts, esquema de salidasPipelines, tests de prompts, baselinePermisos críticos de herramientas
6. Evaluación y validación humanaMedir calidad real antes de producciónInforme de evaluaciónLotes de evaluación y alertasAprobación final en casos de alto impacto
7. Industrialización y publicación controladaPasar a operación seguraRunbook y pipeline productivoDespliegue, tests, programaciónPublicación autónoma en CMS de alto impacto
8. Operación y monitorizaciónDetectar degradación y controlar coste y riesgoCuadro de control operativoAlertas, control de coste, muestreoAcciones de negocio irreversibles
9. Aprendizaje y gobiernoReentrenar, recalibrar o retirarInforme de mejora y gobiernoTriaje de backlog y reentrenado programadoCambios de política, alcance o uso no previsto

El cambio de mentalidad cabe en tres ideas. El riesgo se evalúa al principio, no al final. La evaluación moderna mide exactitud, utilidad, groundedness, sesgo y coste, no solo precisión offline. La publicación incorpora revisión humana proporcional al coste del error, para no confundir automatización con autonomía.

Cómo combinar CRISP-DM con MLOps, LLMOps, DataOps y Responsible AI

CRISP-DM aporta algo que muchos marcos nuevos olvidan. Obliga a empezar por el negocio y a terminar en el uso, no en el entrenamiento. El matiz es que usar ya no significa solo desplegar un modelo. Significa operar un sistema con datos cambiantes, aprobaciones, seguridad, costes variables y feedback humano. Por eso conviene leer CRISP-DM como un esqueleto y completarlo con capas especializadas.

Marco complementarioQué cubre que CRISP-DM no cubre bienRiesgo si usas solo CRISP-DM
TDSPRoles, repositorios, artefactos y estructura de equipoCaos documental y traspasos pobres
DataOpsCalidad continua, pipelines y entornos desechablesMala calidad de dato y tiempos lentos
MLOpsAutomatización, entrenamiento continuo, tracking y driftModelos correctos en offline, frágiles en producción
LLMOpsPrompts, grounding, evaluaciones, tokens y seguridadDemo bonita, operación cara e inestable
RAG evalsChunking, indexado, evaluación de recuperación y groundingRespuestas plausibles pero no fiables
Agent opsPermisos, seguridad de herramientas, trazabilidad y revisión humanaAutomatizar acciones irreversibles sin control
NIST AI RMF / Responsible AIConfiabilidad, gestión de riesgo y gobernanzaRiesgos legales, reputacionales y de sesgo

La combinación más sólida para IA aplicada a negocio tiene seis piezas. CRISP-DM como esqueleto de proyecto. TDSP para roles y artefactos. DataOps para calidad y pipeline de datos. MLOps para lo predictivo. LLMOps para lo generativo, RAG y agentes. NIST AI RMF y cumplimiento europeo para gobierno y riesgo.

Un ejemplo concreto. En un proyecto de generación de fichas de producto, CRISP-DM ordena el encaje de negocio y la evaluación. LLMOps aporta el control de prompts, el coste por token y las evaluaciones de calidad. Responsible AI fija qué afirmaciones necesitan aprobación legal antes de publicarse. Cada capa cubre un riesgo que las demás no ven.

Aplicación práctica de AI-CRISP-DM a SEO, GEO y ecommerce

La mayoría de proyectos de SEO, GEO y ecommerce no piden entrenar un modelo fundacional. Piden componer sistemas. Datos de Search Console, GA4, Screaming Frog y el CMS. Un mecanismo de decisión. Generación controlada de contenido. Un panel operativo. Aprobación humana. Seguimiento posterior.

AI-CRISP-DM encaja bien en este terreno. Obliga a no confundir automatización con autonomía, ni la calidad de un texto con su impacto en negocio.

Caso de usoObjetivoIA recomendableValidación obligatoriaKPI
Auditoría SEO con IADetectar incidencias y priorizar accionesLLM más reglas y scoringRevisión técnica SEOIncidencias accionables, tiempo ahorrado
Clasificación de URLs por prioridadDecidir dónde actuar primeroModelo de scoringValidación SEO y de negocioUplift por lote
Detección de thin contentEncontrar páginas de bajo valorClasificación más similitud de embeddingsMuestreo editorialPrecisión de detección
Optimización masiva de fichasMejorar CTR y conversión sin perder exactitudLLM con salidas estructuradas y reglasAprobación editorial y legal de claimsCTR, CVR, devoluciones
Contenido AI-ready / GEOFacilitar la citabilidad por sistemas de IALLM más extracción de entidades y QARevisión editorialMenciones, citas, visibilidad en IA
Panel operativo (Make + Airtable)Orquestar lotes y aprobacionesOrquestación no-code más APIs de IAAuditoría de logs y permisosLead time, errores, coste por lote
Publicación en CMSPublicar solo lo aprobadoIA más conectores de CMSAprobación humana en tareas de alto impactoTime-to-publish, tasa de rollback

El patrón se repite en casi todos los casos. Datos fiables, un mecanismo de decisión (scoring, clasificación, RAG o generación), una capa de evaluación con muestra revisada por humanos, publicación controlada y medición en GA4 y Search Console. Generar contenido a escala solo aporta si la calidad se evalúa y la publicación de alto impacto pasa por revisión.

Dos piezas de este enfoque las hemos desarrollado aparte. Para que tu contenido sea citable por sistemas de IA, revisa cómo estructurar tu web con HTML para IA. Si tu competencia ya aparece en las respuestas generativas y tú no, conviene entender por qué unas marcas se citan y otras no. Y para medir si el trabajo funciona, seguimos la visibilidad en buscadores y chats de IA con GEO Metrics.

Versión mínima viable para empezar

No hace falta una plataforma enorme para aplicar AI-CRISP-DM. Un consultor o un equipo pequeño puede arrancar con lo mínimo y madurar después.

CapaMínimo viable
NegocioFicha de caso de uso con KPI, owner, riesgo y presupuesto
DatosUna tabla maestra en Airtable o Sheets con fuentes y estado
EvaluaciónGolden set de 30 a 100 ejemplos revisados por un humano
ProducciónMake.com o scripts simples con logging y rollback
PublicaciónAprobación humana obligatoria antes del CMS
MonitorizaciónDashboard semanal con coste, calidad y KPI de negocio
GobiernoUna regla escrita de qué no se automatiza

El arranque pide poco. Un caso de uso acotado, una muestra de evaluación, trazabilidad, un panel de control y una regla clara: no publicar sin revisar cuando el error sale caro. Cada iteración añade madurez sin perder el control.

Reubicar CRISP-DM, no jubilarlo

CRISP-DM mantiene valor real cuando el núcleo del trabajo es entender el negocio, entender los datos, construir una solución analítica y llevarla al uso. Scoring, churn, fraude, forecasting, priorización, segmentación, recomendación y muchas tareas de SEO o ecommerce de clasificación encajan ahí.

Pierde fuelle cuando el problema se convierte en un sistema operativo de IA. Ahí entran MLOps, LLMOps, RAG, agentes, observabilidad, seguridad, costes, feedback humano y cumplimiento. La práctica de los fabricantes apunta a añadir operación, evaluación continua y gobierno por encima del flujo clásico.

El criterio es sencillo. Usa CRISP-DM como esqueleto y súmale DataOps, MLOps o LLMOps, Responsible AI y revisión humana en toda salida con impacto material. En Indexando Marketing trabajamos así cuando integramos IA en SEO, GEO y ecommerce: primero la decisión de negocio, la evaluación antes que la automatización, y sin publicación automática cuando el coste del error es alto. Si quieres aplicar AI-CRISP-DM a tu proyecto, cuéntanos tu caso de uso.

Preguntas frecuentes sobre la metodología CRISP-DM en IA

¿Sigue siendo válida la metodología CRISP-DM en proyectos de inteligencia artificial?

Sí, como esqueleto de proyecto, no como ciclo de vida completo. CRISP-DM sirve para enmarcar el problema de negocio, entender los datos y diseñar entregables. En proyectos de IA modernos hay que complementarlo con MLOps, LLMOps, DataOps y gobernanza del riesgo.

¿Cuál es la diferencia entre CRISP-DM y MLOps?

CRISP-DM es una metodología de proyecto centrada en negocio, datos y modelo. MLOps es un conjunto de prácticas de ingeniería para desplegar y operar modelos de forma continua, con automatización, versionado, monitorización de drift y reentrenamiento. No compiten. CRISP-DM define qué construir y por qué. MLOps define cómo operarlo en producción.

¿Qué es AI-CRISP-DM?

AI-CRISP-DM es una extensión de CRISP-DM con nueve fases. Separa de forma explícita el gobierno del riesgo, el diseño del sistema, la evaluación moderna, la publicación controlada y la operación continua. Está pensada para proyectos de IA que incluyen modelos predictivos, RAG y agentes, con revisión humana proporcional al riesgo.

¿Sirve CRISP-DM para proyectos con LLMs, RAG y agentes?

Solo como base. La evidencia directa de CRISP-DM aplicado a LLMs todavía es fragmentaria y predomina la guía operativa de los fabricantes. Para generativa, RAG y agentes hay que añadir evaluación de groundedness, control de costes de tokens, trazas de llamadas a herramientas, seguridad y aprobación humana.

¿Cómo se aplica CRISP-DM al SEO y al ecommerce?

Componiendo sistemas en lugar de entrenar modelos desde cero. Datos de Search Console, GA4, Screaming Frog y el CMS. Clasificación o scoring de URLs y productos. Generación controlada de contenido. Un panel operativo en Airtable o Make. Aprobación humana antes de publicar. Medición posterior del impacto en tráfico y conversión.

Fuentes

  • CRISP-DM Twenty Years Later (Martínez-Plumed et al., IEEE Transactions on Knowledge and Data Engineering, 2021). Paper revisado por pares que evalúa la vigencia de CRISP-DM. Concluye que sigue siendo válido en proyectos dirigidos a un objetivo y propone pasar de procesos a trayectorias en trabajo exploratorio.
  • Towards CRISP-ML(Q) (Studer et al., 2021). Propuesta de extensión de CRISP-DM para machine learning, con aseguramiento de calidad, gestión de riesgos y mantenimiento. Es el mejor puente entre CRISP-DM y MLOps clásico.
  • Hidden Technical Debt in Machine Learning Systems (Sculley et al., Google, NeurIPS 2015). Trabajo seminal que demuestra que el coste real de un sistema de ML está en operarlo, no en entrenarlo. Justifica añadir observabilidad y MLOps por encima del flujo clásico.
  • IBM SPSS Modeler, guía CRISP-DM. Documentación oficial de IBM que integra CRISP-DM como guía de proceso dentro del producto. Evidencia de adopción operativa del marco en herramienta comercial.
  • AWS Well-Architected Machine Learning Lens. AWS organiza el ciclo de vida de ML en seis fases iterativas, muy próximas a las de CRISP-DM, y las amplía con prácticas de operación y gobierno.
  • Microsoft Team Data Science Process (TDSP). Metodología ágil e iterativa de Microsoft, declarada compatible con CRISP-DM, que añade roles, plantillas, repositorios e infraestructura para equipos.