L'aprenentatge automàtic és una branca de la intel·ligència artificial, que permet a les màquines realitzar anàlisis de dades i fer prediccions. Tanmateix, si el model d'aprenentatge automàtic no és precís, pot cometre errors de predicció, i aquests errors de predicció solen ser coneguts com a biaix i variància. En l'aprenentatge automàtic, aquests errors sempre estaran presents, ja que sempre hi ha una lleugera diferència entre les prediccions del model i les prediccions reals. L'objectiu principal dels analistes de ML/ciència de dades és reduir aquests errors per obtenir resultats més precisos. En aquest tema, parlarem del biaix i la variància, la compensació biaix-variància, l'ajustament insuficient i el sobreajust. Però abans de començar, primer entenem quins són els errors en l'aprenentatge automàtic?
Errors en l'aprenentatge automàtic?
En l'aprenentatge automàtic, un error és una mesura de la precisió amb què un algorisme pot fer prediccions per al conjunt de dades desconegut anteriorment. Sobre la base d'aquests errors, es selecciona el model d'aprenentatge automàtic que pot funcionar millor en el conjunt de dades concret. Hi ha principalment dos tipus d'errors en l'aprenentatge automàtic, que són:
independentment de quin algorisme s'hagi utilitzat. La causa d'aquests errors són variables desconegudes el valor de les quals no es pot reduir.
Què és Bias?
En general, un model d'aprenentatge automàtic analitza les dades, hi troba patrons i fa prediccions. Durant l'entrenament, el model aprèn aquests patrons al conjunt de dades i els aplica a les dades de prova per a la predicció. Quan es fan prediccions, es produeix una diferència entre els valors de predicció fets pel model i els valors reals/esperats. , i aquesta diferència es coneix com a errors de biaix o Errors deguts a biaix . Es pot definir com una incapacitat dels algorismes d'aprenentatge automàtic com la regressió lineal per capturar la relació real entre els punts de dades. Cada algorisme comença amb una certa quantitat de biaix perquè el biaix es produeix a partir dels supòsits del model, cosa que fa que la funció objectiu sigui senzilla d'aprendre. Un model té:
prova l'estructura de dades
En general, un algorisme lineal té un alt biaix, ja que els fa aprendre ràpidament. Com més senzill sigui l'algoritme, més probabilitat serà el biaix que s'introdueixi. Mentre que un algorisme no lineal sovint té un biaix baix.
Alguns exemples d'algoritmes d'aprenentatge automàtic amb poc biaix són arbres de decisió, k-Nearest Neighbors i màquines de vectors de suport . Al mateix temps, un algorisme amb alt biaix és Regressió lineal, anàlisi discriminant lineal i regressió logística.
Maneres de reduir el biaix alt:
El biaix elevat es produeix principalment a causa d'un model molt simple. A continuació es mostren algunes maneres de reduir el biaix elevat:
- Augmenteu les característiques d'entrada a mesura que el model no està ajustat.
- Disminuir el termini de regularització.
- Utilitzeu models més complexos, com ara incloure algunes característiques polinomials.
Què és un error de variància?
La variància especificaria la quantitat de variació en la predicció si s'utilitzaven les diferents dades d'entrenament. En paraules senzilles, la variància indica quant és diferent una variable aleatòria del seu valor esperat. Idealment, un model no hauria de variar massa d'un conjunt de dades d'entrenament a un altre, el que significa que l'algoritme hauria de ser bo per entendre el mapeig ocult entre les variables d'entrada i de sortida. Els errors de variància són qualsevol de les dues variabilitat baixa o variància alta.
Variància baixa significa que hi ha una petita variació en la predicció de la funció objectiu amb canvis en el conjunt de dades d'entrenament. Al mateix temps, Variància elevada mostra una gran variació en la predicció de la funció objectiu amb canvis en el conjunt de dades d'entrenament.
Un model que mostra una gran variància aprèn molt i funciona bé amb el conjunt de dades d'entrenament, i no es generalitza bé amb el conjunt de dades no vist. Com a resultat, aquest model dóna bons resultats amb el conjunt de dades d'entrenament, però mostra altes taxes d'error al conjunt de dades de prova.
Com que, amb una gran variància, el model aprèn massa del conjunt de dades, condueix a un sobreajustament del model. Un model amb gran variància té els problemes següents:
- Un model d'alta variància condueix a un sobreajustament.
- Augmentar la complexitat del model.
Normalment, els algorismes no lineals tenen molta flexibilitat per adaptar-se al model, tenen una gran variància.
tutorial del llenguatge de programació java
Alguns exemples d'algorismes d'aprenentatge automàtic amb baixa variància són: Regression lineal, regressió logística i anàlisi discriminant lineal . Al mateix temps, els algorismes amb gran variància ho són arbre de decisions, màquina de suport vectorial i K-veïns més propers.
Maneres de reduir l'alta variància:
- Reduïu les característiques d'entrada o el nombre de paràmetres a mesura que un model està sobreadaptat.
- No utilitzeu un model molt complex.
- Augmentar les dades de formació.
- Augmentar el termini de regularització.
Diferents combinacions de biaix-variància
Hi ha quatre combinacions possibles de biaix i variàncies, que es representen pel diagrama següent:
La combinació de baix biaix i baixa variància mostra un model d'aprenentatge automàtic ideal. Tanmateix, pràcticament no és possible.
Amb un alt biaix i una gran variància, les prediccions són inconsistents i també inexactes de mitjana.
Com identificar una gran variància o un alt biaix?
Es pot identificar una gran variància si el model té:
interfície vs classe abstracta
- Baix error d'entrenament i alt error de prova.
Es pot identificar un biaix elevat si el model té:
- Alt error d'entrenament i l'error de prova és gairebé similar a l'error d'entrenament.
Compartiment biaix-variant
Mentre es construeix el model d'aprenentatge automàtic, és molt important tenir cura del biaix i la variància per evitar l'ajustament excessiu i insuficient del model. Si el model és molt senzill amb menys paràmetres, pot tenir una baixa variància i un alt biaix. Mentre que, si el model té un gran nombre de paràmetres, tindrà una gran variància i un baix biaix. Per tant, cal fer un equilibri entre els errors de biaix i de variància, i aquest equilibri entre l'error de biaix i l'error de variància es coneix com la compensació Bias-Variance.
Per a una predicció precisa del model, els algorismes necessiten una baixa variància i un baix biaix. Però això no és possible perquè el biaix i la variància estan relacionats entre si:
- Si disminuïm la variància, augmentarà el biaix.
- Si disminuïm el biaix, augmentarà la variància.
La compensació biaix-variança és un tema central en l'aprenentatge supervisat. L'ideal és que necessitem un model que capti amb precisió les regularitats de les dades d'entrenament i simultàniament es generalitzi bé amb el conjunt de dades no vist. Malauradament, no és possible fer-ho simultàniament. Com que un algorisme d'alta variància pot funcionar bé amb les dades d'entrenament, però pot provocar un sobreajustament a les dades sorolloses. Mentre que, l'algorisme d'alt biaix genera un model molt senzill que potser ni tan sols captura regularitats importants a les dades. Per tant, hem de trobar un punt dolç entre el biaix i la variància per fer un model òptim.
Per tant, el La compensació biaix-variança consisteix a trobar el punt dolç per fer un equilibri entre els errors de biaix i de variància.