CRISP-DM significa el procés estàndard entre sectors per a la mineria de dades. La metodologia CRISP-DM proporciona un enfocament estructurat per planificar un projecte de mineria de dades. És una metodologia robusta i ben provada. No reclamem cap propietat sobre ell. No l'hem inventat nosaltres. Som un convertidor de la seva potent practicitat, flexibilitat i utilitat quan utilitzem analítiques per resoldre problemes empresarials. És el fil daurat que recorre gairebé totes les reunions de clients.
Aquest model és una seqüència idealitzada d'esdeveniments. A la pràctica, moltes tasques es poden realitzar en un ordre diferent, i sovint serà necessari tornar a tasques anteriors i repetir determinades accions. El model no intenta capturar totes les rutes possibles a través del procés de mineria de dades.
Com ajuda CRISP?
CRISP DM ofereix un full de ruta, us ofereix les millors pràctiques i proporciona estructures per obtenir resultats millors i més ràpids de l'ús de la mineria de dades, de manera que és així com ajuda el negoci a seguir mentre planifica i realitza un projecte de mineria de dades.
Fases de CRISP-DM
CRISP-DM ofereix una visió general del cicle de vida de la mineria de dades com a model de procés. El model de cicle de vida consta de sis fases, amb fletxes que indiquen les dependències més importants i freqüents entre les fases. La seqüència de les fases no és estricta. I la majoria dels projectes es mouen entre les fases segons sigui necessari. El model CRISP-DM és flexible i es pot personalitzar fàcilment.
Per exemple, si la vostra organització té com a objectiu detectar el blanqueig de diners, probablement examinareu grans quantitats de dades sense un objectiu de modelatge específic. En lloc de modelar, el vostre treball se centrarà en l'exploració i la visualització de dades per descobrir patrons sospitosos a les dades financeres. CRISP-DM us permet crear un model de mineria de dades que s'adapti a les vostres necessitats.
Inclou descripcions de les fases típiques d'un projecte, les tasques implicades amb cada fase i una explicació de les relacions entre aquestes tasques.
Fase 1: Comprensió empresarial
La primera etapa del procés CRISP-DM és entendre què voleu aconseguir des d'una perspectiva empresarial. La vostra organització pot tenir objectius i limitacions en competència que s'han d'equilibrar adequadament. Aquesta etapa del procés pretén descobrir els factors importants que influeixen en el resultat del projecte. Descuidar aquest pas pot significar que s'esforça molt per produir les respostes correctes a les preguntes equivocades.
Quins són els resultats desitjats del projecte?
Valorar la situació actual
retall de javascript
Això implica una recerca de fets més detallada sobre els recursos, les limitacions, els supòsits i altres factors que haureu de tenir en compte a l'hora de determinar l'objectiu de l'anàlisi de dades i el pla del projecte.
- Personal (experts en negocis, experts en dades, suport tècnic, experts en mineria de dades)
- Dades (extractes fixos, accés a dades en directe, emmagatzemades o operatives)
- Recursos informàtics (plataformes de maquinari)
- Programari (eines de mineria de dades, altre programari rellevant)
- Un glossari de terminologia empresarial rellevant forma part de la comprensió empresarial disponible per al projecte. La construcció d'aquest glossari és un exercici útil d''obtenció de coneixements' i d'educació.
- S'il·lustra un glossari de terminologia de mineria de dades amb exemples rellevants per al problema empresarial.
Determinar els objectius de la mineria de dades
Un objectiu empresarial estableix objectius en terminologia empresarial. Un objectiu de mineria de dades indica els objectius del projecte en termes tècnics. Per exemple, l'objectiu comercial podria ser Augmentar les vendes del catàleg als clients existents. Un objectiu de mineria de dades podria ser predir quants ginys comprarà un client, tenint en compte les seves compres durant els darrers tres anys, la informació demogràfica (edat, salari, ciutat, etc.) i el preu de l'article.
Elaborar el pla del projecte
dempeus
Descriu el pla previst per assolir els objectius de mineria de dades i els objectius empresarials. El vostre pla ha d'especificar els passos a realitzar durant la resta del projecte, inclosa la selecció inicial d'eines i tècniques.
1. Pla del projecte: Enumereu les etapes a executar en el projecte, amb la seva durada, recursos necessaris, entrades, sortides i dependències. Quan sigui possible, intenteu fer explícites les iteracions a gran escala en el procés de mineria de dades, per exemple, les repeticions de les fases de modelització i avaluació.
Com a part del pla del projecte, és important analitzar les dependències entre els horaris i els riscos. Marqueu els resultats d'aquestes anàlisis explícitament al pla del projecte, idealment amb accions i recomanacions si es manifesten els riscos. Decidir quina estratègia d'avaluació s'utilitzarà en la fase d'avaluació.
El vostre pla de projecte serà un document dinàmic. Al final de cada fase, revisaràs el progrés i els assoliments i actualitzaràs el pla del projecte en conseqüència. Els punts de revisió específics d'aquestes actualitzacions haurien de formar part del pla del projecte.
2. Valoració inicial d'eines i tècniques: Al final de la primera fase, hauríeu de fer una avaluació inicial d'eines i tècniques. Per exemple, seleccioneu una eina de mineria de dades que admeti diversos mètodes per a les diferents etapes del procés. És important avaluar les eines i les tècniques al principi del procés, ja que la selecció d'eines i tècniques pot influir en tot el projecte.
Fase 2: Comprensió de les dades
La segona fase del procés CRISP-DM requereix que adquireixis les dades que figuren als recursos del projecte. Aquesta recollida inicial inclou la càrrega de dades si això és necessari per a la comprensió de les dades. Per exemple, si utilitzeu una eina específica per a la comprensió de dades, és molt lògic carregar les vostres dades a aquesta eina. Si adquireu diverses fonts de dades, heu de considerar com i quan les integrareu.
Descriu dades
Examineu les propietats 'brutes' o 'superficials' de les dades adquirides i informeu-ne dels resultats.
Explora les dades
Durant aquesta etapa, abordareu preguntes sobre mineria de dades mitjançant tècniques de consulta, visualització de dades i informes. Aquests poden incloure:
- Distribució dels atributs clau
- Relacions entre parelles o nombre reduït d'atributs
- Resultats d'agregacions simples
- Propietats de subpoblacions significatives
- Anàlisis estadístics senzills
Aquestes anàlisis poden abordar directament els vostres objectius de mineria de dades. Poden contribuir o perfeccionar la descripció de les dades i els informes de qualitat i alimentar la transformació i altres passos de preparació de dades necessaris per a una anàlisi posterior.
node de llista java
Verificar la qualitat de les dades
Examineu la qualitat de les dades, abordant preguntes com ara:
- Les dades són completes o cobreixen tots els casos requerits?
- És correcte, o conté errors, i si hi ha errors, què tan freqüents són?
- Hi ha valors que falten a les dades? Si és així, com es representen, on es produeixen i quina freqüència són?
Informe de qualitat de les dades
Enumereu els resultats de la verificació de la qualitat de les dades. Si hi ha problemes de qualitat, suggeriu possibles solucions. Les solucions als problemes de qualitat de les dades generalment depenen molt de les dades i del coneixement empresarial.
Fase 3: Preparació de dades
En aquesta fase del projecte, vostè decideix les dades que utilitzarà per a l'anàlisi. Els criteris que podeu utilitzar per prendre aquesta decisió inclouen la rellevància de les dades per als vostres objectius de mineria de dades, la qualitat de les dades i les limitacions tècniques, com ara els límits del volum de dades o els tipus de dades.
Netegeu les vostres dades
Aquesta tasca implica elevar la qualitat de les dades al nivell requerit per les tècniques d'anàlisi que heu seleccionat. Això pot implicar la selecció de subconjunts nets de dades, la inserció de valors predeterminats adequats o tècniques més ambicioses com l'estimació de les dades que falten mitjançant la modelització.
Construeix les dades requerides
Aquesta tasca inclou operacions constructives de preparació de dades, com ara la producció d'atributs derivats, registres nous o valors transformats per als atributs existents.
Integrar dades
Aquests mètodes combinen informació de múltiples bases de dades, taules o registres per crear nous registres o valors.
Fase 4: Modelatge
Seleccioneu la tècnica de modelatge: com a primer pas, seleccionareu la tècnica de modelatge bàsica que utilitzareu. Tot i que és possible que ja hagis seleccionat una eina durant la fase de comprensió del negoci, en aquesta etapa, seleccionaràs la tècnica de modelatge específica, p. construcció d'arbre de decisió amb C5.0 o generació de xarxes neuronals amb propagació posterior. Si s'apliquen diverses tècniques, realitzeu aquesta tasca per separat per a cada tècnica.
Generar disseny de prova
Abans de crear un model, heu de generar un procediment o mecanisme per provar la qualitat i validesa del model. Per exemple, a les tasques de mineria de dades supervisades, com ara la classificació, és habitual utilitzar les taxes d'error com a mesures de qualitat per als models de mineria de dades. Per tant, normalment separeu el conjunt de dades en conjunts de trens i de proves, creeu el model al conjunt de trens i estimeu la seva qualitat al conjunt de proves independent.
compara cadenes java
Model de construcció
Executeu l'eina de modelització al conjunt de dades preparat per crear un o més models.
Avaluar el model
Interpreteu els models segons el vostre coneixement del domini, els criteris d'èxit de la mineria de dades i el disseny de prova desitjat. Jutgeu l'èxit de l'aplicació de tècniques de modelatge i descobriment i, a continuació, poseu-vos en contacte amb els analistes empresarials i els experts del domini per discutir els resultats de la mineria de dades en el context empresarial. Aquesta tasca només considera models, mentre que la fase d'avaluació també considera tots els altres resultats produïts durant el projecte.
En aquesta fase, hauríeu de classificar els models i avaluar-los segons els criteris d'avaluació. Heu de considerar els objectius empresarials i els criteris d'èxit en la mesura que pugueu aquí. En la majoria de projectes de mineria de dades, s'aplica una sola tècnica més d'una vegada i els resultats de mineria de dades es generen amb diverses tècniques diferents.
Fase 5: Avaluació
Avalueu els vostres resultats: els passos d'avaluació anteriors van tractar factors com ara la precisió i la generalitat del model. Durant aquest pas, avaluareu el grau en què el model compleix els vostres objectius empresarials i intentareu determinar si hi ha alguna raó comercial per la qual aquest model és deficient. Una altra opció és provar el model en aplicacions de prova a l'aplicació real si les limitacions de temps i pressupost ho permeten. La fase d'avaluació també implica avaluar qualsevol altre resultat de mineria de dades que hàgiu generat. Els resultats de la mineria de dades impliquen models que estan necessàriament relacionats amb els objectius comercials originals i totes les altres troballes que no estan necessàriament relacionades amb els objectius comercials originals, però que també poden revelar reptes, informació o pistes addicionals per a direccions futures.
Procés de revisió
En aquest punt, els models resultants semblen ser satisfactoris i satisfer les necessitats empresarials. Ara és adequat que feu una revisió més exhaustiva del compromís de la mineria de dades per determinar si hi ha un factor o una tasca important que d'alguna manera s'ha passat per alt. Aquesta revisió també cobreix qüestions de garantia de qualitat. Per exemple: hem construït correctament el model? Hem utilitzat només els atributs que podem utilitzar i que estan disponibles per a anàlisis futures?
Determineu els propers passos
Ara decideixes com procedir en funció dels resultats de l'avaluació i de la revisió del procés. Acabeu aquest projecte i passeu al desplegament, inicieu més iteracions o configureu nous projectes de mineria de dades? També hauríeu de fer un balanç dels vostres recursos i pressupost restants, que poden influir en les vostres decisions.
Fase 6: Desplegament
Planifica el desplegament: en l'etapa de desplegament, prendràs els resultats de l'avaluació i determinaràs una estratègia per al seu desplegament. Si s'ha identificat un procediment general per crear els models rellevants, aquest procediment es documenta aquí per al desplegament posterior. Té sentit tenir en compte les maneres i mitjans de desplegament durant la fase de comprensió empresarial perquè el desplegament és crucial per a l'èxit del projecte. Aquí és on l'anàlisi predictiva ajuda a millorar la part operativa del vostre negoci.
Pla de seguiment i manteniment
El seguiment i el manteniment són qüestions importants si el resultat de la mineria de dades passa a formar part del dia a dia del negoci i del seu entorn. La preparació acurada d'una estratègia de manteniment ajuda a evitar períodes innecessàriament llargs d'ús incorrecte dels resultats de la mineria de dades. El projecte necessita un pla de procés de seguiment detallat per supervisar el desplegament dels resultats de la mineria de dades. Aquest pla té en compte el tipus específic de desplegament.
Elaborar l'informe final
Al final del projecte, redactareu un informe final. Segons el pla de desplegament, aquest informe pot ser només un resum del projecte i les seves experiències (si encara no s'han documentat com a activitat en curs), o pot ser una presentació final i completa del resultat de la mineria de dades.
Revisió del projecte
nom dels productes de maquillatge
Avaluar què ha anat bé i què ha anat malament, què s'ha fet bé i què cal millorar.