logo

Què és CRISP a la mineria de dades?

CRISP-DM significa el procés estàndard entre sectors per a la mineria de dades. La metodologia CRISP-DM proporciona un enfocament estructurat per planificar un projecte de mineria de dades. És una metodologia robusta i ben provada. No reclamem cap propietat sobre ell. No l'hem inventat nosaltres. Som un convertidor de la seva potent practicitat, flexibilitat i utilitat quan utilitzem analítiques per resoldre problemes empresarials. És el fil daurat que recorre gairebé totes les reunions de clients.

Aquest model és una seqüència idealitzada d'esdeveniments. A la pràctica, moltes tasques es poden realitzar en un ordre diferent, i sovint serà necessari tornar a tasques anteriors i repetir determinades accions. El model no intenta capturar totes les rutes possibles a través del procés de mineria de dades.

Com ajuda CRISP?

CRISP DM ofereix un full de ruta, us ofereix les millors pràctiques i proporciona estructures per obtenir resultats millors i més ràpids de l'ús de la mineria de dades, de manera que és així com ajuda el negoci a seguir mentre planifica i realitza un projecte de mineria de dades.

Fases de CRISP-DM

CRISP-DM ofereix una visió general del cicle de vida de la mineria de dades com a model de procés. El model de cicle de vida consta de sis fases, amb fletxes que indiquen les dependències més importants i freqüents entre les fases. La seqüència de les fases no és estricta. I la majoria dels projectes es mouen entre les fases segons sigui necessari. El model CRISP-DM és flexible i es pot personalitzar fàcilment.

Per exemple, si la vostra organització té com a objectiu detectar el blanqueig de diners, probablement examinareu grans quantitats de dades sense un objectiu de modelatge específic. En lloc de modelar, el vostre treball se centrarà en l'exploració i la visualització de dades per descobrir patrons sospitosos a les dades financeres. CRISP-DM us permet crear un model de mineria de dades que s'adapti a les vostres necessitats.

Inclou descripcions de les fases típiques d'un projecte, les tasques implicades amb cada fase i una explicació de les relacions entre aquestes tasques.

Què és CRISP a la mineria de dades

Fase 1: Comprensió empresarial

La primera etapa del procés CRISP-DM és entendre què voleu aconseguir des d'una perspectiva empresarial. La vostra organització pot tenir objectius i limitacions en competència que s'han d'equilibrar adequadament. Aquesta etapa del procés pretén descobrir els factors importants que influeixen en el resultat del projecte. Descuidar aquest pas pot significar que s'esforça molt per produir les respostes correctes a les preguntes equivocades.

Quins són els resultats desitjats del projecte?

    Establir objectius:Descriu el teu objectiu principal des d'una perspectiva empresarial. També hi pot haver altres preguntes relacionades que us agradaria esmentar. Per exemple, el vostre objectiu principal podria ser mantenir els clients actuals predint quan són propensos a passar a un competidor.Elaboració del pla del projecte:Descriu el pla per assolir els objectius empresarials i de mineria de dades. El pla ha d'especificar els passos a realitzar durant la resta del projecte, inclosa la selecció inicial d'eines i tècniques.Criteris d'èxit empresarial:Aquí, exposareu els criteris que utilitzareu per determinar si el projecte ha tingut èxit des del punt de vista empresarial. Idealment, haurien de ser específics i mesurables, per exemple, reduint el ritme dels clients a un cert nivell. Tanmateix, de vegades pot ser necessari tenir criteris més subjectius, com ara donar informació útil sobre les relacions.

Valorar la situació actual

retall de javascript

Això implica una recerca de fets més detallada sobre els recursos, les limitacions, els supòsits i altres factors que haureu de tenir en compte a l'hora de determinar l'objectiu de l'anàlisi de dades i el pla del projecte.

    Inventari de recursos:Enumereu els recursos disponibles per al projecte, incloent:
    • Personal (experts en negocis, experts en dades, suport tècnic, experts en mineria de dades)
    • Dades (extractes fixos, accés a dades en directe, emmagatzemades o operatives)
    • Recursos informàtics (plataformes de maquinari)
    • Programari (eines de mineria de dades, altre programari rellevant)
    Requisits, supòsits i limitacions:Enumereu tots els requisits del projecte, inclòs el calendari d'acabament, la comprensibilitat i la qualitat dels resultats requerits, i qualsevol problema de seguretat de dades i problemes legals. Assegureu-vos que teniu permís per utilitzar les dades. Enumera els supòsits fets pel projecte. Aquestes poden ser hipòtesis sobre les dades que es poden verificar durant la mineria de dades, però també poden incloure hipòtesis no verificables sobre el negoci relacionat amb el projecte. És important enumerar aquests últims si afecten la validesa dels resultats. Enumereu les limitacions del projecte. Aquestes poden ser limitacions a la disponibilitat de recursos, però també poden incloure limitacions tecnològiques, com ara la mida del conjunt de dades que és pràctic utilitzar per a la modelització.Riscos i contingències:Enumereu els riscos o esdeveniments que poden retardar el projecte o fer-lo fracassar. Enumereu els plans de contingència corresponents, com ara quina acció duu a terme si es produeixen aquests riscos o esdeveniments?Terminologia:Elaborar un glossari de terminologia rellevant per al projecte. En general, tindrà dos components:
    • Un glossari de terminologia empresarial rellevant forma part de la comprensió empresarial disponible per al projecte. La construcció d'aquest glossari és un exercici útil d''obtenció de coneixements' i d'educació.
    • S'il·lustra un glossari de terminologia de mineria de dades amb exemples rellevants per al problema empresarial.
    Costos i beneficis:Construeix una anàlisi cost-benefici per al projecte, que compara els costos del projecte amb els beneficis potencials per a l'empresa si té èxit. Aquesta comparació ha de ser el més concreta possible. Per exemple, hauríeu d'utilitzar mesures financeres en una situació comercial.

Determinar els objectius de la mineria de dades

Un objectiu empresarial estableix objectius en terminologia empresarial. Un objectiu de mineria de dades indica els objectius del projecte en termes tècnics. Per exemple, l'objectiu comercial podria ser Augmentar les vendes del catàleg als clients existents. Un objectiu de mineria de dades podria ser predir quants ginys comprarà un client, tenint en compte les seves compres durant els darrers tres anys, la informació demogràfica (edat, salari, ciutat, etc.) i el preu de l'article.

    Criteris d'èxit empresarial:Descriu els resultats previstos del projecte que permeten assolir els objectius empresarials.Criteris d'èxit de la mineria de dades:Defineix els criteris per a l'èxit del projecte. Per exemple, un cert nivell de precisió predictiva o un perfil de propensió a la compra amb un determinat grau d''augment'. Igual que amb els criteris d'èxit empresarial, pot ser necessari descriure'ls en termes subjectius, en aquest cas s'hauria d'identificar la persona o les persones que fan el judici subjectiu.

Elaborar el pla del projecte

dempeus

Descriu el pla previst per assolir els objectius de mineria de dades i els objectius empresarials. El vostre pla ha d'especificar els passos a realitzar durant la resta del projecte, inclosa la selecció inicial d'eines i tècniques.

1. Pla del projecte: Enumereu les etapes a executar en el projecte, amb la seva durada, recursos necessaris, entrades, sortides i dependències. Quan sigui possible, intenteu fer explícites les iteracions a gran escala en el procés de mineria de dades, per exemple, les repeticions de les fases de modelització i avaluació.

Com a part del pla del projecte, és important analitzar les dependències entre els horaris i els riscos. Marqueu els resultats d'aquestes anàlisis explícitament al pla del projecte, idealment amb accions i recomanacions si es manifesten els riscos. Decidir quina estratègia d'avaluació s'utilitzarà en la fase d'avaluació.

El vostre pla de projecte serà un document dinàmic. Al final de cada fase, revisaràs el progrés i els assoliments i actualitzaràs el pla del projecte en conseqüència. Els punts de revisió específics d'aquestes actualitzacions haurien de formar part del pla del projecte.

2. Valoració inicial d'eines i tècniques: Al final de la primera fase, hauríeu de fer una avaluació inicial d'eines i tècniques. Per exemple, seleccioneu una eina de mineria de dades que admeti diversos mètodes per a les diferents etapes del procés. És important avaluar les eines i les tècniques al principi del procés, ja que la selecció d'eines i tècniques pot influir en tot el projecte.

Fase 2: Comprensió de les dades

La segona fase del procés CRISP-DM requereix que adquireixis les dades que figuren als recursos del projecte. Aquesta recollida inicial inclou la càrrega de dades si això és necessari per a la comprensió de les dades. Per exemple, si utilitzeu una eina específica per a la comprensió de dades, és molt lògic carregar les vostres dades a aquesta eina. Si adquireu diverses fonts de dades, heu de considerar com i quan les integrareu.

    Informe inicial de recollida de dades:Enumereu les fonts de dades adquirides, les seves ubicacions, els mètodes utilitzats per adquirir-les i els problemes trobats. Anoteu els problemes que heu trobat i les resolucions aconseguides. Això ajudarà amb la replicació futura d'aquest projecte i l'execució de projectes futurs similars.

Descriu dades

Examineu les propietats 'brutes' o 'superficials' de les dades adquirides i informeu-ne dels resultats.

    Informe de descripció de dades:Descriu les dades que s'han adquirit, incloent-hi el format, la seva quantitat, les identitats dels camps i qualsevol altra característica de la superfície que s'hagi descobert. Avalueu si les dades adquirides compleixen els vostres requisits.

Explora les dades

Durant aquesta etapa, abordareu preguntes sobre mineria de dades mitjançant tècniques de consulta, visualització de dades i informes. Aquests poden incloure:

  • Distribució dels atributs clau
  • Relacions entre parelles o nombre reduït d'atributs
  • Resultats d'agregacions simples
  • Propietats de subpoblacions significatives
  • Anàlisis estadístics senzills

Aquestes anàlisis poden abordar directament els vostres objectius de mineria de dades. Poden contribuir o perfeccionar la descripció de les dades i els informes de qualitat i alimentar la transformació i altres passos de preparació de dades necessaris per a una anàlisi posterior.

node de llista java
    Informe d'exploració de dades:Descriu els resultats de la teva exploració de dades, incloses les primeres troballes o hipòtesis inicials i el seu impacte en la resta del projecte. Si escau, podeu incloure gràfics i diagrames aquí per indicar les característiques de les dades que suggereixen un examen més ampli de subconjunts de dades interessants.

Verificar la qualitat de les dades

Examineu la qualitat de les dades, abordant preguntes com ara:

  • Les dades són completes o cobreixen tots els casos requerits?
  • És correcte, o conté errors, i si hi ha errors, què tan freqüents són?
  • Hi ha valors que falten a les dades? Si és així, com es representen, on es produeixen i quina freqüència són?

Informe de qualitat de les dades

Enumereu els resultats de la verificació de la qualitat de les dades. Si hi ha problemes de qualitat, suggeriu possibles solucions. Les solucions als problemes de qualitat de les dades generalment depenen molt de les dades i del coneixement empresarial.

Fase 3: Preparació de dades

En aquesta fase del projecte, vostè decideix les dades que utilitzarà per a l'anàlisi. Els criteris que podeu utilitzar per prendre aquesta decisió inclouen la rellevància de les dades per als vostres objectius de mineria de dades, la qualitat de les dades i les limitacions tècniques, com ara els límits del volum de dades o els tipus de dades.

    La justificació de la inclusió/exclusió:Enumereu les dades a incloure/excloure i els motius d'aquestes decisions.

Netegeu les vostres dades

Aquesta tasca implica elevar la qualitat de les dades al nivell requerit per les tècniques d'anàlisi que heu seleccionat. Això pot implicar la selecció de subconjunts nets de dades, la inserció de valors predeterminats adequats o tècniques més ambicioses com l'estimació de les dades que falten mitjançant la modelització.

    Informe de neteja de dades:Descriu quines decisions i accions has pres per solucionar els problemes de qualitat de les dades. Considereu qualsevol transformació de dades feta amb finalitats de neteja i el seu possible impacte en els resultats de l'anàlisi.

Construeix les dades requerides

Aquesta tasca inclou operacions constructives de preparació de dades, com ara la producció d'atributs derivats, registres nous o valors transformats per als atributs existents.

    Atributs derivats:Aquests són atributs nous construïts a partir d'un o més atributs existents en el mateix registre. Per exemple, podeu utilitzar les variables de longitud i amplada per calcular una nova variable d'àrea.Registres generats:Aquí, descriu la creació de qualsevol registre completament nou. Per exemple, és possible que hàgiu de crear registres per als clients que no van comprar durant l'any passat. No hi havia cap raó per tenir aquests registres a les dades en brut. Tot i així, podria tenir sentit representar que els clients concrets van fer explícitament zero compres amb finalitats de modelatge.

Integrar dades

Aquests mètodes combinen informació de múltiples bases de dades, taules o registres per crear nous registres o valors.

    Dades combinades:Fusionar taules fa referència a unir dues o més taules amb informació diferent sobre els mateixos objectes. Per exemple, una cadena minorista pot tenir una taula amb informació sobre les característiques generals de cada botiga (p. ex., superfície, tipus de centre comercial), una altra taula amb dades de vendes resumides (p. un altre amb informació sobre la demografia de l'entorn. Cadascuna d'aquestes taules conté un registre per a cada botiga. Aquestes taules es poden combinar en una taula nova amb un registre per a cada botiga, combinant camps de les taules d'origen.Agregacions:Les agregacions són operacions en les quals es calculen nous valors resumint la informació de diversos registres o taules. Per exemple, convertir una taula de compres de clients on un registre per a cada compra en una taula nova i un registre per a cada client, amb camps com ara el nombre de compres, l'import mitjà de la compra, el percentatge de comandes carregades a la targeta de crèdit, el percentatge d'articles en promoció, etc.

Fase 4: Modelatge

Seleccioneu la tècnica de modelatge: com a primer pas, seleccionareu la tècnica de modelatge bàsica que utilitzareu. Tot i que és possible que ja hagis seleccionat una eina durant la fase de comprensió del negoci, en aquesta etapa, seleccionaràs la tècnica de modelatge específica, p. construcció d'arbre de decisió amb C5.0 o generació de xarxes neuronals amb propagació posterior. Si s'apliquen diverses tècniques, realitzeu aquesta tasca per separat per a cada tècnica.

    Tècnica de modelatge:Documentar la tècnica bàsica de modelatge que s'ha d'utilitzar.Hipòtesis de modelització:Moltes tècniques de modelització fan suposicions específiques sobre les dades, per exemple, que tots els atributs tenen distribucions uniformes, que no es permeten valors que falten, que l'atribut de classe ha de ser simbòlic, etc. Enregistreu qualsevol hipòtesi feta.

Generar disseny de prova

Abans de crear un model, heu de generar un procediment o mecanisme per provar la qualitat i validesa del model. Per exemple, a les tasques de mineria de dades supervisades, com ara la classificació, és habitual utilitzar les taxes d'error com a mesures de qualitat per als models de mineria de dades. Per tant, normalment separeu el conjunt de dades en conjunts de trens i de proves, creeu el model al conjunt de trens i estimeu la seva qualitat al conjunt de proves independent.

compara cadenes java
    Disseny de prova:Descriu el pla previst per a la formació, prova i avaluació dels models. Un component principal del pla és determinar com dividir el conjunt de dades disponible en conjunts de dades de formació, prova i validació.

Model de construcció

Executeu l'eina de modelització al conjunt de dades preparat per crear un o més models.

    Configuració de paràmetres:Amb qualsevol eina de modelatge, sovint hi ha un gran nombre de paràmetres que es poden ajustar. Enumereu els paràmetres, els seus valors i la justificació per seleccionar la configuració dels paràmetres.Models:Aquests són els models produïts per l'eina de modelització, no un informe sobre els models.Descripcions del model:Descriu els models resultants, informa de la interpretació dels models i documenta les dificultats trobades amb els seus significats.

Avaluar el model

Interpreteu els models segons el vostre coneixement del domini, els criteris d'èxit de la mineria de dades i el disseny de prova desitjat. Jutgeu l'èxit de l'aplicació de tècniques de modelatge i descobriment i, a continuació, poseu-vos en contacte amb els analistes empresarials i els experts del domini per discutir els resultats de la mineria de dades en el context empresarial. Aquesta tasca només considera models, mentre que la fase d'avaluació també considera tots els altres resultats produïts durant el projecte.

En aquesta fase, hauríeu de classificar els models i avaluar-los segons els criteris d'avaluació. Heu de considerar els objectius empresarials i els criteris d'èxit en la mesura que pugueu aquí. En la majoria de projectes de mineria de dades, s'aplica una sola tècnica més d'una vegada i els resultats de mineria de dades es generen amb diverses tècniques diferents.

    Valoració del model:Resumeix els resultats d'aquesta tasca, enumera les qualitats dels models generats (p. ex., en termes de precisió) i classifica la seva qualitat entre si.Configuració de paràmetres revisada:D'acord amb l'avaluació del model, reviseu-los i ajusteu-los per a la propera execució de modelatge. Itera la construcció i l'avaluació de models fins que creguis fermament que has trobat el millor o els millors models. Documenteu totes aquestes revisions i avaluacions.

Fase 5: Avaluació

Avalueu els vostres resultats: els passos d'avaluació anteriors van tractar factors com ara la precisió i la generalitat del model. Durant aquest pas, avaluareu el grau en què el model compleix els vostres objectius empresarials i intentareu determinar si hi ha alguna raó comercial per la qual aquest model és deficient. Una altra opció és provar el model en aplicacions de prova a l'aplicació real si les limitacions de temps i pressupost ho permeten. La fase d'avaluació també implica avaluar qualsevol altre resultat de mineria de dades que hàgiu generat. Els resultats de la mineria de dades impliquen models que estan necessàriament relacionats amb els objectius comercials originals i totes les altres troballes que no estan necessàriament relacionades amb els objectius comercials originals, però que també poden revelar reptes, informació o pistes addicionals per a direccions futures.

    Avaluació dels resultats de la mineria de dades:Resumeix els resultats de l'avaluació en criteris d'èxit empresarial, inclosa una declaració final sobre si el projecte ja compleix els objectius empresarials inicials.Models homologats:Després d'avaluar els models als criteris d'èxit empresarial, els models generats que compleixen els criteris seleccionats es converteixen en els models aprovats.

Procés de revisió

En aquest punt, els models resultants semblen ser satisfactoris i satisfer les necessitats empresarials. Ara és adequat que feu una revisió més exhaustiva del compromís de la mineria de dades per determinar si hi ha un factor o una tasca important que d'alguna manera s'ha passat per alt. Aquesta revisió també cobreix qüestions de garantia de qualitat. Per exemple: hem construït correctament el model? Hem utilitzat només els atributs que podem utilitzar i que estan disponibles per a anàlisis futures?

    Revisió del procés:Resumeix la revisió del procés i destaca les activitats que s'han perdut i les que s'han de repetir.

Determineu els propers passos

Ara decideixes com procedir en funció dels resultats de l'avaluació i de la revisió del procés. Acabeu aquest projecte i passeu al desplegament, inicieu més iteracions o configureu nous projectes de mineria de dades? També hauríeu de fer un balanç dels vostres recursos i pressupost restants, que poden influir en les vostres decisions.

    Llista de possibles accions:Enumereu les possibles accions posteriors i els motius a favor i en contra de cada opció.Decisió:Descriu la decisió sobre com procedir, juntament amb la justificació.

Fase 6: Desplegament

Planifica el desplegament: en l'etapa de desplegament, prendràs els resultats de l'avaluació i determinaràs una estratègia per al seu desplegament. Si s'ha identificat un procediment general per crear els models rellevants, aquest procediment es documenta aquí per al desplegament posterior. Té sentit tenir en compte les maneres i mitjans de desplegament durant la fase de comprensió empresarial perquè el desplegament és crucial per a l'èxit del projecte. Aquí és on l'anàlisi predictiva ajuda a millorar la part operativa del vostre negoci.

    Pla de desplegament:Resumeix la teva estratègia de desplegament, inclosos els passos necessaris i com portar-los a terme.

Pla de seguiment i manteniment

El seguiment i el manteniment són qüestions importants si el resultat de la mineria de dades passa a formar part del dia a dia del negoci i del seu entorn. La preparació acurada d'una estratègia de manteniment ajuda a evitar períodes innecessàriament llargs d'ús incorrecte dels resultats de la mineria de dades. El projecte necessita un pla de procés de seguiment detallat per supervisar el desplegament dels resultats de la mineria de dades. Aquest pla té en compte el tipus específic de desplegament.

    Pla de seguiment i manteniment:Resumeix l'estratègia de seguiment i manteniment, incloent-hi els passos necessaris i com realitzar-los.

Elaborar l'informe final

Al final del projecte, redactareu un informe final. Segons el pla de desplegament, aquest informe pot ser només un resum del projecte i les seves experiències (si encara no s'han documentat com a activitat en curs), o pot ser una presentació final i completa del resultat de la mineria de dades.

    Informe final:Aquest és l'informe final escrit del compromís de mineria de dades. Inclou tots els lliuraments anteriors, resumint i organitzant els resultats.Presentació final:Sovint hi haurà una reunió després del projecte en la qual es presenten els resultats al client.

Revisió del projecte

nom dels productes de maquillatge

Avaluar què ha anat bé i què ha anat malament, què s'ha fet bé i què cal millorar.

    Documentació de l'experiència:Resumir l'experiència important adquirida durant el projecte. Per exemple, aquesta documentació podria incloure qualsevol inconvenient que hàgiu trobat, enfocaments enganyosos o consells per seleccionar les tècniques de mineria de dades més adequades en situacions similars. En els projectes ideals, la documentació d'experiència també cobreix els informes que els membres individuals del projecte hagin escrit durant les fases anteriors del projecte.