ALGORISME DE CLASSIFICACIÓ EN APRENENTATGE AUTOMÀTIC

Com sabem, l'algoritme d'aprenentatge automàtic supervisat es pot classificar a grans trets en algorismes de regressió i classificació. En els algorismes de regressió, hem predit la sortida per a valors continus, però per predir els valors categòrics, necessitem algorismes de classificació.

Què és l'algoritme de classificació?

L'algorisme de classificació és una tècnica d'aprenentatge supervisat que s'utilitza per identificar la categoria de noves observacions a partir de les dades d'entrenament. A Classificació, un programa aprèn del conjunt de dades o observacions donades i després classifica la nova observació en diverses classes o grups. Tal com, Sí o No, 0 o 1, Correu brossa o no Correu brossa, gat o gos, etc. Les classes es poden anomenar com a objectius/etiquetes o categories.

disseny de quadrícula

A diferència de la regressió, la variable de sortida de Classificació és una categoria, no un valor, com ara 'verd o blau', 'fruita o animal', etc. Com que l'algoritme de classificació és una tècnica d'aprenentatge supervisat, pren dades d'entrada etiquetades, que significa que conté entrada amb la sortida corresponent.

En l'algorisme de classificació, una funció de sortida discreta (y) s'assigna a la variable d'entrada (x).

 y=f(x), where y = categorical output

El millor exemple d'un algorisme de classificació ML és Detector de correu brossa .

L'objectiu principal de l'algorisme de classificació és identificar la categoria d'un conjunt de dades determinat, i aquests algorismes s'utilitzen principalment per predir la sortida de les dades categòriques.

Els algorismes de classificació es poden entendre millor mitjançant el diagrama següent. Al diagrama següent, hi ha dues classes, la classe A i la classe B. Aquestes classes tenen característiques semblants entre elles i diferents a les altres classes.

Algorisme de classificació en aprenentatge automàtic

L'algorisme que implementa la classificació en un conjunt de dades es coneix com a classificador. Hi ha dos tipus de classificacions:

Exemples:

Exemple:

Aprenents en problemes de classificació:

En els problemes de classificació, hi ha dos tipus d'aprenents:

Exemple:

Tipus d'algoritmes de classificació ML:

Els algorismes de classificació es poden dividir en la categoria Principalment dues:

Regressió logística
Suport a les màquines vectorials

K-Veïns més propers
SVM del nucli
Nave Bayes
Classificació de l'arbre de decisions
Classificació forestal aleatòria

Nota: Aprendrem els algorismes anteriors en capítols posteriors.

Avaluació d'un model de classificació:

Un cop finalitzat el nostre model, cal avaluar-ne el rendiment; o bé és un model de classificació o regressió. Per tant, per avaluar un model de classificació, tenim les maneres següents:

usos del sistema operatiu

1. Pèrdua de registre o pèrdua d'entropia creuada:

S'utilitza per avaluar el rendiment d'un classificador, la sortida del qual és un valor de probabilitat entre 0 i 1.
Per a un bon model de classificació binari, el valor de la pèrdua de registre hauria d'estar proper a 0.
El valor de la pèrdua de registre augmenta si el valor previst es desvia del valor real.
La menor pèrdua de registre representa la major precisió del model.
Per a la classificació binària, l'entropia creuada es pot calcular com:

 ?(ylog(p)+(1?y)log(1?p))

On y = sortida real, p = sortida prevista.

2. Matriu de confusió:

La matriu de confusió ens proporciona una matriu/taula com a sortida i descriu el rendiment del model.
També es coneix com a matriu d'errors.
La matriu consta de prediccions que resulten en una forma resumida, que té un nombre total de prediccions correctes i prediccions incorrectes. La matriu s'assembla a la taula següent:

	Positiu real	Negatiu real
Positiu predit	Veritable positiu	Fals positiu
Negatiu previst	Fals negatiu	Veritable negatiu

3. Corba AUC-ROC:

Corba ROC significa Corba de característiques de funcionament del receptor i AUC significa Àrea sota la corba .
És un gràfic que mostra el rendiment del model de classificació en diferents llindars.
Per visualitzar el rendiment del model de classificació multiclasse, utilitzem la corba AUC-ROC.
La corba ROC es representa amb TPR i FPR, on TPR (True Positive Rate) a l'eix Y i FPR (False Positive Rate) a l'eix X.

Casos d'ús dels algorismes de classificació

Els algorismes de classificació es poden utilitzar en diferents llocs. A continuació es mostren alguns casos d'ús populars dels algorismes de classificació:

Detecció de correu brossa
Reconeixement de veu
Identificació de cèl·lules tumorals cancerígenes.
Classificació de drogues
Identificació biomètrica, etc.