logo

Algorisme de classificació en aprenentatge automàtic

Com sabem, l'algoritme d'aprenentatge automàtic supervisat es pot classificar a grans trets en algorismes de regressió i classificació. En els algorismes de regressió, hem predit la sortida per a valors continus, però per predir els valors categòrics, necessitem algorismes de classificació.

Què és l'algoritme de classificació?

L'algorisme de classificació és una tècnica d'aprenentatge supervisat que s'utilitza per identificar la categoria de noves observacions a partir de les dades d'entrenament. A Classificació, un programa aprèn del conjunt de dades o observacions donades i després classifica la nova observació en diverses classes o grups. Tal com, Sí o No, 0 o 1, Correu brossa o no Correu brossa, gat o gos, etc. Les classes es poden anomenar com a objectius/etiquetes o categories.

disseny de quadrícula

A diferència de la regressió, la variable de sortida de Classificació és una categoria, no un valor, com ara 'verd o blau', 'fruita o animal', etc. Com que l'algoritme de classificació és una tècnica d'aprenentatge supervisat, pren dades d'entrada etiquetades, que significa que conté entrada amb la sortida corresponent.

En l'algorisme de classificació, una funció de sortida discreta (y) s'assigna a la variable d'entrada (x).

 y=f(x), where y = categorical output 

El millor exemple d'un algorisme de classificació ML és Detector de correu brossa .

L'objectiu principal de l'algorisme de classificació és identificar la categoria d'un conjunt de dades determinat, i aquests algorismes s'utilitzen principalment per predir la sortida de les dades categòriques.

Els algorismes de classificació es poden entendre millor mitjançant el diagrama següent. Al diagrama següent, hi ha dues classes, la classe A i la classe B. Aquestes classes tenen característiques semblants entre elles i diferents a les altres classes.

Algorisme de classificació en aprenentatge automàtic

L'algorisme que implementa la classificació en un conjunt de dades es coneix com a classificador. Hi ha dos tipus de classificacions:

    Classificador binari:Si el problema de classificació només té dos possibles resultats, s'anomena classificador binari.
    Exemples: SÍ o NO, MASCULÍ o FEMENINA, SPAM o NO SPAM, GAT o GOS, etc.Classificador multiclasse:Si un problema de classificació té més de dos resultats, s'anomena classificador multiclasse.
    Exemple: Classificacions de tipus de cultius, Classificació de tipus de música.

Aprenents en problemes de classificació:

En els problemes de classificació, hi ha dos tipus d'aprenents:

    Aprenents ganduls:Lazy Learner emmagatzema primer el conjunt de dades d'entrenament i espera fins que rebi el conjunt de dades de prova. En el cas de Lazy Learner, la classificació es fa a partir de les dades més relacionades emmagatzemades al conjunt de dades d'entrenament. Es necessita menys temps a l'entrenament però més temps a les prediccions.
    Exemple: Algorisme K-NN, raonament basat en casosAprenents ansiosos:Els aprenents ansiosos desenvolupen un model de classificació basat en un conjunt de dades d'entrenament abans de rebre un conjunt de dades de prova. Al contrari dels aprenents Lazy, Eager Learner pren més temps a l'aprenentatge i menys temps a la predicció. Exemple: Arbres de decisió, Na�ve Bayes, ANN.

Tipus d'algoritmes de classificació ML:

Els algorismes de classificació es poden dividir en la categoria Principalment dues:

    Models lineals
    • Regressió logística
    • Suport a les màquines vectorials
    Models no lineals
    • K-Veïns més propers
    • SVM del nucli
    • Nave Bayes
    • Classificació de l'arbre de decisions
    • Classificació forestal aleatòria

Nota: Aprendrem els algorismes anteriors en capítols posteriors.

Avaluació d'un model de classificació:

Un cop finalitzat el nostre model, cal avaluar-ne el rendiment; o bé és un model de classificació o regressió. Per tant, per avaluar un model de classificació, tenim les maneres següents:

usos del sistema operatiu

1. Pèrdua de registre o pèrdua d'entropia creuada:

  • S'utilitza per avaluar el rendiment d'un classificador, la sortida del qual és un valor de probabilitat entre 0 i 1.
  • Per a un bon model de classificació binari, el valor de la pèrdua de registre hauria d'estar proper a 0.
  • El valor de la pèrdua de registre augmenta si el valor previst es desvia del valor real.
  • La menor pèrdua de registre representa la major precisió del model.
  • Per a la classificació binària, l'entropia creuada es pot calcular com:
 ?(ylog(p)+(1?y)log(1?p)) 

On y = sortida real, p = sortida prevista.

2. Matriu de confusió:

  • La matriu de confusió ens proporciona una matriu/taula com a sortida i descriu el rendiment del model.
  • També es coneix com a matriu d'errors.
  • La matriu consta de prediccions que resulten en una forma resumida, que té un nombre total de prediccions correctes i prediccions incorrectes. La matriu s'assembla a la taula següent:
Positiu real Negatiu real
Positiu predit Veritable positiu Fals positiu
Negatiu previst Fals negatiu Veritable negatiu
Algorisme de classificació en aprenentatge automàtic

3. Corba AUC-ROC:

  • Corba ROC significa Corba de característiques de funcionament del receptor i AUC significa Àrea sota la corba .
  • És un gràfic que mostra el rendiment del model de classificació en diferents llindars.
  • Per visualitzar el rendiment del model de classificació multiclasse, utilitzem la corba AUC-ROC.
  • La corba ROC es representa amb TPR i FPR, on TPR (True Positive Rate) a l'eix Y i FPR (False Positive Rate) a l'eix X.

Casos d'ús dels algorismes de classificació

Els algorismes de classificació es poden utilitzar en diferents llocs. A continuació es mostren alguns casos d'ús populars dels algorismes de classificació:

  • Detecció de correu brossa
  • Reconeixement de veu
  • Identificació de cèl·lules tumorals cancerígenes.
  • Classificació de drogues
  • Identificació biomètrica, etc.