GBM EN APRENENTATGE AUTOMÀTIC - APRENENTATGE AUTOMÀTIC

L'aprenentatge automàtic és una de les tecnologies més populars per crear models predictius per a diverses tasques complexes de classificació i regressió. Màquina per augmentar el gradient (GBM) es considera un dels algorismes de reforç més potents.

limitacions de la banca electrònica

Tot i que hi ha tants algorismes que s'utilitzen en l'aprenentatge automàtic, els algorismes d'impuls s'han convertit en corrent a la comunitat d'aprenentatge automàtic a tot el món. La tècnica d'impuls segueix el concepte d'aprenentatge conjunt i, per tant, combina múltiples models simples (aprenents febles o estimadors de base) per generar el resultat final. GBM també s'utilitza com a mètode conjunt en l'aprenentatge automàtic que converteix els aprenents febles en aprenents forts. En aquest tema, 'GBM en aprenentatge automàtic' parlarem dels algorismes d'aprenentatge automàtic de gradient, diversos algorismes d'impuls en l'aprenentatge automàtic, la història de GBM, com funciona, diverses terminologies utilitzades en GBM, etc. Però abans de començar, primer, entenem el concepte de potenciació i diversos algorismes d'impuls en l'aprenentatge automàtic.

Què és l'impuls de l'aprenentatge automàtic?

L'impuls és una de les tècniques populars de modelització de conjunts d'aprenentatge que s'utilitzen per crear classificadors forts a partir de diversos classificadors febles. Comença amb la construcció d'un model primari a partir dels conjunts de dades d'entrenament disponibles i després identifica els errors presents al model base. Després d'identificar l'error, es construeix un model secundari i, a més, s'introdueix un tercer model en aquest procés. D'aquesta manera, aquest procés d'introducció de més models es continua fins a obtenir un conjunt de dades d'entrenament complet pel qual el model prediu correctament.

AdaBoost (impuls adaptatiu) va ser el primer algorisme de millora que combina diversos classificadors febles en un únic classificador fort en la història de l'aprenentatge automàtic. Se centra principalment a resoldre tasques de classificació com ara la classificació binària.

Passos per augmentar els algorismes:

Hi ha uns quants passos importants per augmentar l'algorisme de la següent manera:

Considereu un conjunt de dades que tingui diferents punts de dades i inicialitzeu-lo.
Ara, doneu el mateix pes a cadascun dels punts de dades.
Assumiu aquest pes com a entrada per al model.
Identificar els punts de dades que estan mal classificats.
Augmenteu el pes dels punts de dades al pas 4.
Si obteniu la sortida adequada, finalitzeu aquest procés, sinó seguiu els passos 2 i 3 de nou.

Exemple:

Suposem que tenim tres models diferents amb les seves prediccions i funcionen de maneres completament diferents. Per exemple, el model de regressió lineal mostra una relació lineal en les dades mentre que el model d'arbre de decisions intenta capturar la no linealitat de les dades tal com es mostra a la imatge següent.

A més, en lloc d'utilitzar aquests models per separat per predir el resultat si els fem servir en forma de sèrie o combinació, obtenim un model resultant amb informació correcta que tots els models base. En altres paraules, en comptes d'utilitzar la predicció individual de cada model, si utilitzem la predicció mitjana d'aquests models, podríem capturar més informació de les dades. Es coneix com a aprenentatge per conjunt i l'impuls també es basa en mètodes de conjunt en aprenentatge automàtic.

Potenciar els algorismes en l'aprenentatge automàtic

Hi ha principalment 4 algorismes de millora en l'aprenentatge automàtic. Aquestes són les següents:

Com puc saber la mida del meu monitor?

Màquina per augmentar el gradient (GBM) Màquina per augmentar el gradient extrem (XGBM) GBM lleuger CatBoost

Què és GBM en aprenentatge automàtic?

Gradient Boosting Machine (GBM) és un dels mètodes de conjunt d'aprenentatge avançat més populars en l'aprenentatge automàtic. És una tècnica potent per construir models predictius per a tasques de regressió i classificació.

GBM ens ajuda a obtenir un model predictiu en forma d'un conjunt de models de predicció febles com ara arbres de decisió. Sempre que un arbre de decisió actua com un alumne feble, l'algoritme resultant s'anomena arbres augmentats pel gradient.

Ens permet combinar les prediccions de diversos models d'aprenent i construir un model predictiu final amb la predicció correcta.

Però aquí pot sorgir una pregunta si estem aplicant el mateix algorisme, llavors com els arbres de decisió múltiples poden donar millors prediccions que un arbre de decisió únic? A més, com capta cada arbre de decisió informació diferent de les mateixes dades?

Per tant, la resposta a aquestes preguntes és que els nodes de cada arbre de decisions prenen un subconjunt diferent de característiques per seleccionar la millor divisió. Vol dir que cada arbre es comporta de manera diferent i, per tant, captura diferents senyals de les mateixes dades.

Com funciona el GBM?

Generalment, la majoria dels algorismes d'aprenentatge supervisat es basen en un únic model predictiu com ara la regressió lineal, el model de regressió penalitzada, els arbres de decisió, etc. Però hi ha alguns algorismes supervisats en ML que depenen d'una combinació de diversos models junts a través del conjunt. En altres paraules, quan diversos models base aporten les seves prediccions, una mitjana de totes les prediccions s'adapta mitjançant algorismes de millora.

Les màquines per augmentar el gradient consten de 3 elements de la següent manera:

cadena comparada

Funció de pèrdua
Aprenents febles
Model additiu

Entenem aquests tres elements en detall.

1. Funció de pèrdua:

Tot i que, hi ha una gran família de funcions de pèrdua en l'aprenentatge automàtic que es poden utilitzar en funció del tipus de tasques que es resolguin. L'ús de la funció de pèrdua s'estima per la demanda de característiques específiques de la distribució condicional com ara la robustesa. Quan utilitzem una funció de pèrdua a la nostra tasca, hem d'especificar la funció de pèrdua i la funció per calcular el gradient negatiu corresponent. Un cop aconseguim aquestes dues funcions, es poden implementar fàcilment en màquines que augmenten el gradient. Tanmateix, ja s'han proposat diverses funcions de pèrdua per als algorismes GBM.

Classificació de la funció de pèrdua:

Segons el tipus de variable de resposta y, la funció de pèrdua es pot classificar en diferents tipus de la següent manera:

Funció de pèrdua L2 gaussiana
Funció de pèrdua L1 de Laplace
Funció de pèrdua de Huber, especificada δ
Funció de pèrdua quantil, α especificada

Funció de pèrdua binomial
Funció de pèrdua Adaboost

Funcions de pèrdua per a models de supervivència
Les funcions de pèrdua compten dades
Funcions de pèrdua personalitzades

2. Aprenent feble:

Els aprenents febles són els models d'aprenentatge bàsics que aprenen dels errors passats i ajuden a crear un disseny de model predictiu fort per augmentar els algorismes en l'aprenentatge automàtic. En general, els arbres de decisió funcionen com a aprenents febles per potenciar els algorismes.

El boosting es defineix com el marc que treballa contínuament per millorar els resultats dels models base. Moltes aplicacions per augmentar el gradient us permeten 'connectar' diverses classes d'aprenents febles a la vostra disposició. Per tant, els arbres de decisió s'utilitzen amb més freqüència per als aprenents (bases) febles.

Com comprovar la mida de la pantalla del monitor

Com entrenar aprenents febles:

L'aprenentatge automàtic utilitza conjunts de dades d'entrenament per entrenar els aprenents bàsics i, a partir de la predicció de l'alumne anterior, millora el rendiment centrant-se en les files de les dades d'entrenament on l'arbre anterior tenia els errors o residus més grans. Per exemple. Els arbres poc profunds es consideren arbres d'aprenentatge feble per a la decisió, ja que conté unes quantes divisions. En general, en els algorismes de millora, els arbres que tenen fins a 6 divisions són els més habituals.

A continuació es mostra una seqüència d'entrenament de l'alumne dèbil per millorar el seu rendiment on cada arbre es troba en la seqüència amb els residus de l'arbre anterior. A més, estem introduint cada arbre nou perquè pugui aprendre dels errors de l'arbre anterior. Aquestes són les següents:

Considereu un conjunt de dades i encaixeu-hi un arbre de decisió.
F1(x)=y
Ajusteu el següent arbre de decisió amb els errors més grans de l'arbre anterior.
h1(x)=i?F1(x)
Afegiu aquest nou arbre a l'algorisme afegint tots dos als passos 1 i 2.
F2(x)=F1(x)+h1(x)
De nou, ajusta el següent arbre de decisió amb els residus de l'arbre anterior.
h2(x)=y?F2(x)
Repetiu el mateix que hem fet al pas 3.
F3(x)=F2(x)+h2(x)

Continueu aquest procés fins que algun mecanisme (és a dir, la validació creuada) ens indiqui que ens aturem. El model final aquí és un model additiu per etapes de b arbres individuals:

f(x)=B∑b=1fb(x)

Per tant, els arbres es construeixen amb avarícia, escollint els millors punts de divisió en funció de puntuacions de puresa com Gini o minimitzant la pèrdua.

3. Model d'additiu:

El model additiu es defineix com afegir arbres al model. Tot i que no hem d'afegir diversos arbres alhora, només s'ha d'afegir un únic arbre perquè no es modifiquin els arbres existents al model. A més, també podem preferir el mètode de descens del gradient afegint arbres per reduir la pèrdua.

va néixer freddie mercury

En els últims anys, s'ha utilitzat el mètode de descens del gradient per minimitzar el conjunt de paràmetres com el coeficient de l'equació de regressió i el pes en una xarxa neuronal. Després de calcular l'error o la pèrdua, s'utilitza el paràmetre de pes per minimitzar l'error. Però recentment, la majoria dels experts en ML prefereixen submodels d'aprenent febles o arbres de decisió com a substitut d'aquests paràmetres. En el qual, hem d'afegir un arbre al model per reduir l'error i millorar el rendiment d'aquest model. D'aquesta manera, la predicció de l'arbre recent afegit es combina amb la predicció de la sèrie d'arbres existents per obtenir una predicció final. Aquest procés continua fins que la pèrdua assoleix un nivell acceptable o ja no es requereix millora.

Aquest mètode també es coneix com a descens de gradient funcional o descens de gradient amb funcions.

MÀQUINA D'IMPULSAMENT DE GRADIENT EXTREM (XGBM)

XGBM és l'última versió de les màquines per augmentar el gradient que també funciona molt semblant a GBM. A XGBM, s'afegeixen arbres seqüencialment (un a la vegada) que aprenen dels errors dels arbres anteriors i els milloren. Tot i que, els algorismes XGBM i GBM són similars en aspecte i sensació, però encara hi ha algunes diferències entre ells de la següent manera:

XGBM utilitza diverses tècniques de regularització per reduir l'ajustament insuficient o el sobreajust del model, la qual cosa també augmenta el rendiment del model més que les màquines que augmenten el gradient.
XGBM segueix el processament paral·lel de cada node, mentre que GBM no ho fa, cosa que el fa més ràpid que les màquines que augmenten el gradient.
XGBM ens ajuda a desfer-nos de l'imputació de valors que falten perquè per defecte el model s'encarrega. Aprèn per si mateix si aquests valors haurien d'estar al node dret o esquerre.

Màquines per augmentar el gradient lleuger (Light GBM)

Light GBM és una versió més actualitzada de la màquina per augmentar el gradient a causa de la seva eficiència i velocitat ràpida. A diferència de GBM i XGBM, pot gestionar una gran quantitat de dades sense cap complexitat. D'altra banda, no és adequat per a aquells punts de dades de menor nombre.

En lloc del creixement a nivell, Light GBM prefereix el creixement de les fulles dels nodes de l'arbre. A més, en el GBM lleuger, el node primari es divideix en dos nodes secundaris i més tard tria un node secundari per dividir-lo. Aquesta divisió d'un node secundari depèn de quin entre dos nodes té una pèrdua més alta.

Per tant, a causa de la divisió per fulles, sempre es prefereix l'algorisme de la màquina d'augment del gradient lleuger (LGBM) sobre d'altres on es dóna una gran quantitat de dades.

CATBOOST

L'algoritme catboost s'utilitza principalment per gestionar les característiques categòriques d'un conjunt de dades. Tot i que els algorismes GBM, XGBM i Light GBM són adequats per a conjunts de dades numèriques, Catboost està dissenyat per gestionar variables categòriques en dades numèriques. Per tant, l'algorisme catboost consisteix en un pas essencial de preprocessament per convertir característiques categòriques en variables numèriques que no estan presents en cap altre algorisme.

Avantatges dels algorismes de millora:

Els algorismes de reforç segueixen l'aprenentatge conjunt que permet que un model doni una predicció més precisa que no es pot superar.
Els algorismes de reforç són molt més flexibles que altres algorismes, ja que poden optimitzar diferents funcions de pèrdua i ofereixen diverses opcions d'ajustament d'hiperparàmetres.
No requereix preprocessament de dades perquè és adequat tant per a variables numèriques com per a variables categòriques.
No requereix imputar els valors que falten al conjunt de dades, gestiona les dades que falten automàticament.

Desavantatges dels algorismes de millora:

A continuació es mostren alguns desavantatges dels algorismes de millora:

Potenciar els algorismes pot provocar un sobreajustament així com l'accentuació excessiva dels valors atípics.
L'algorisme d'augment del gradient se centra contínuament per minimitzar els errors i requereix diversos arbres, per tant, és car computacionalment.
Es tracta d'un algorisme que requereix molt de temps i de memòria.
De naturalesa menys interpretativa, encara que això s'aborda fàcilment amb diverses eines.

Conclusió:

D'aquesta manera, hem après algorismes de potenciació per al modelatge predictiu en l'aprenentatge automàtic. A més, hem parlat de diversos algorismes de millora importants utilitzats en ML, com ara GBM, XGBM, GBM lleuger i Catboost. A més, hem vist diversos components (funció de pèrdua, aprenentatge feble i model additiu) i com funciona GBM amb ells. Com són avantatjos els algorismes d'impuls per al desplegament en escenaris del món real, etc.