logo

Índex de Gini en aprenentatge automàtic

Introducció

L'aprenentatge automàtic ha reformat la manera en què processem i examinem les dades, i els algorismes de l'arbre de decisió són una decisió famosa per a les tasques de classificació i regressió. L'índex de Gini, també anomenat impuresa de Gini o coeficient de Gini, és una mesura important d'impureses que s'utilitza en els algorismes d'arbres de decisió. En aquest article, investigarem de manera exhaustiva la idea de l'índex Gini, la seva fórmula numèrica i les seves aplicacions en l'aprenentatge automàtic. També contrastarem l'índex de Gini i altres mesures d'impureses, parlarem de les seves limitacions i avantatges i inspeccionarem anàlisis contextuals de les seves aplicacions al món real. Per fi, presentarem les futures orientacions de la investigació per aquí.

Què és l'índex de Gini?

L'índex de Gini és una proporció d'impuresa o desigualtat en entorns estadístics i monetaris. En l'aprenentatge automàtic, s'utilitza com a mesura d'impureses en algorismes d'arbre de decisió per a tasques de classificació. L'índex de Gini mesura la probabilitat que una prova escollida a l'atzar sigui mal classificat per un algorisme d'arbre de decisió, i el seu valor va de 0 (perfectament pur) a 1 (perfectament impur).

Fórmula de l'índex de Gini

L'índex de Gini és una proporció de la impuresa o desigualtat d'una circulació, que s'utilitza habitualment com a mesura d'impuresa en algorismes d'arbre de decisió. Pel que fa als arbres de decisió, l'índex Gini s'utilitza per determinar la millor característica per dividir les dades a cada node de l'arbre.

La fórmula per a l'índex de Gini és la següent:

Índex de Gini en aprenentatge automàtic

on pi és la probabilitat que una cosa tingui un lloc amb una classe específica.

Per exemple, hauríem de considerar un problema de classificació binària amb dues classes An i B. Si la probabilitat de la classe An és p i la probabilitat de la classe B és (1-p), llavors l'índex de Gini es pot calcular com :

El valor de l'índex de Gini va de 0,0 a 0,5 per als problemes de classificació binària, on 0,0 demostra un node perfectament pur (tots els exemples tenen un lloc amb una classe similar) i 0,5 mostra un node perfectament impur (les proves es distribueixen igualment entre les dues classes). ).

Ús de l'índex de Gini en problemes de classificació

L'índex de Gini s'utilitza generalment com a mesura d'impureses en algorismes d'arbre de decisió per a problemes de classificació. En els arbres de decisió, cada node s'adreça a un element, i l'objectiu és dividir les dades en subconjunts que són essencialment tan purs com es podria esperar. La mesura d'impureses (com l'índex Gini) s'utilitza per decidir la millor divisió a cada node.

Per il·lustrar-ho, hauríem de considerar un exemple d'arbre de decisió per a un problema de classificació binària. L'arbre té dos elements: l'edat i els ingressos, i l'objectiu és preveure independentment de si probablement un individu va a comprar un article. L'arbre es construeix utilitzant l'índex de Gini com a mesura d'impuresa.

Al node arrel, l'índex de Gini es calcula tenint en compte la probabilitat que els exemples tinguin un lloc amb classe 0 o classe 1. El node es divideix en funció del component que resulta en la disminució més elevada de l'índex de Gini. Aquest cicle es repeteix de manera recursiva per a cada subconjunt fins que s'aconsegueix una mesura d'aturada.

Arbres de decisió

Un arbre de decisió és un algorisme d'aprenentatge automàtic conegut que s'utilitza tant per a tasques de classificació com de regressió. Es treballa un model dividint de forma recursiva el conjunt de dades en subconjunts més modestos a la llum dels valors de la informació destacada, determinats a limitar la impuresa dels subconjunts posteriors.

A cada node de l'arbre, es pren una decisió en funció dels valors d'una de les informacions més destacades, amb l'objectiu final que els subconjunts posteriors siguin bàsicament tan purs com es podria esperar. La puresa d'un subconjunt s'estima regularment mitjançant una mesura d'impuresa, per exemple, l'índex de Gini o l'entropia.

L'algorisme de l'arbre de decisions es pot utilitzar tant per a tasques de classificació binàries com multiclasse, així com per a tasques de regressió. A les tasques de classificació binària, l'arbre de decisió divideix el conjunt de dades en dos subconjunts a la llum del valor d'una característica binària, com ara sí o no. A les tasques de classificació multiclasse, l'arbre de decisió divideix el conjunt de dades en nombrosos subconjunts a la llum dels valors d'una característica directa, com ara el vermell, el verd o el blau.

Índex de Gini vs altres mesures d'impuresa

A part de l'índex de Gini, hi ha altres mesures d'impureses que s'utilitzen normalment en algorismes d'arbre de decisió, per exemple, entropia i guany d'informació.

Entropia:

En l'aprenentatge automàtic, l'entropia és una proporció de la irregularitat o vulnerabilitat d'un munt de dades. Generalment s'utilitza com a mesura d'impureses en algorismes d'arbre de decisió, juntament amb l'índex de Gini.

En els algorismes d'arbre de decisió, l'entropia s'utilitza per decidir el millor component per dividir les dades a cada node de l'arbre. L'objectiu és trobar l'element que produeix la major disminució de l'entropia, que es relaciona amb el component que dóna més informació sobre el tema de classificació.

Índex de Gini en aprenentatge automàtic

Tot i que l'entropia i l'índex de Gini s'utilitzen normalment com a mesures d'impureses en algorismes d'arbre de decisió, tenen diverses propietats. L'entropia és més delicada per a la circulació de noms de classe i en general oferirà arbres més ajustats, mentre que l'índex de Gini és menys sensible a l'apropiació de les marques de classe i, en general, crearà arbres més limitats amb menys divisions. La decisió de mesurar la impuresa es basa en el problema particular i els atributs de les dades.

Guany d'informació:

El guany d'informació és una acció que s'utilitza per avaluar la naturalesa d'una divisió mentre es construeix un arbre de decisions. L'objectiu d'un arbre de decisió és dividir les dades en subconjunts que són bàsicament tan homogenis com concebible com per a la variable objectiu, de manera que l'arbre posterior es pot utilitzar per fer expectatives exactes sobre dades noves. El guany d'informació mesura la disminució de l'entropia o la impuresa aconseguida per una divisió. La característica amb el guany d'informació més destacable s'escull com la millor característica per dividir-la a cada node de l'arbre de decisió.

L'obtenció d'informació és una mesura normalment implicada per avaluar la naturalesa de les divisions en els arbres de decisió, però no és la que cal centrar-se. També es poden utilitzar diferents mesures, per exemple, l'índex de Gini o la taxa de classificació errònia. La decisió de dividir la base depèn del problema principal i dels atributs del conjunt de dades que s'utilitza.

Exemple d'índex de Gini

Hauríem de considerar un problema de classificació binària on tenim un conjunt de dades de 10 exemples amb dues classes: 'Positiu' i 'Negatiu'. Dels 10 exemples, 6 tenen un lloc amb la classe 'positiu' i 4 tenen un lloc amb la classe 'negatiu'.

Per calcular l'índex de Gini del conjunt de dades, calculem inicialment la probabilitat de cada classe:

p_1 = 6/10 = 0,6 (positiu)

p_2 = 4/10 = 0,4 (negatiu)

Aleshores, en aquest punt, utilitzem la fórmula de l'índex de Gini per calcular la impuresa del conjunt de dades:

Gini(S) = 1 - (p_1^2 + p_2^2)

= 1 - (0.6^2 + 0.4^2)

= 0.48

Per tant, l'índex de Gini del conjunt de dades és 0,48.

Suposem que hem de dividir el conjunt de dades en un element 'X' que tingui dos valors potencials: 'A' i 'B'. Dividim el conjunt de dades en dos subconjunts tenint en compte el component:

Subconjunt 1 (X = A): 4 positius, 1 negatiu

Subconjunt 2 (X = B): 2 positius, 3 negatius

Per calcular la disminució de l'índex de Gini per a aquesta divisió, inicialment calculem l'índex de Gini de cada subconjunt:

Gini(S_1) = 1 - (4/5)^2 - (1/5)^2 = 0,32

Gini(S_2) = 1 - (2/5)^2 - (3/5)^2 = 0,48

A continuació, utilitzem la fórmula de guany d'informació per calcular la disminució de l'índex de Gini:

IG(S, X) = Gini(S) - ((5/10 * Gini(S_1)) + (5/10 * Gini(S_2)))

= 0.48 - ((0.5 * 0.32) + (0.5 * 0.48))

= 0.08

Per tant, el guany d'informació (és a dir, la disminució de l'índex de Gini) per dividir el conjunt de dades a 'X' destacat és de 0,08.

Per a aquesta situació, en el cas que calculem el guany d'informació per a tots els elements i triem el que tingui el guany d'informació més destacable, aquest component seria escollit com el millor component per dividir-lo al node arrel de l'arbre de decisió.

Avantatges:

L'índex de Gini és una mesura àmpliament implicada per avaluar la naturalesa de les divisions en els arbres de decisió, i gaudeix d'algunes avantatges sobre diferents mesures, per exemple, entropia o taxa de classificació errònia. Aquí teniu una part dels principals avantatges d'utilitzar l'índex Gini:

programari del sistema

Eficaç computacionalment: L'índex de Gini és una mesura menys complexa i computacionalment més ràpida en contrast amb diferents mesures, per exemple, l'entropia, que implica calcular logaritmes.

Interpretació intuïtiva: L'índex de Gini és senzill i d'interpretació. Mesura la probabilitat que un exemple escollit a l'atzar d'un conjunt estigui classificat incorrectament en el cas que s'hagi marcat a l'atzar segons el transport de classe del conjunt.

Bona per a la classificació binària: L'índex de Gini és especialment potent per a problemes de classificació binària, on la variable objectiu només té dues classes. En aquests casos, se sap que l'índex de Gini és més estable que diferents mesures.

Robust al desequilibri de classe: L'índex de Gini és menys delicat per al desequilibri de classes en comparació amb diferents mesures, per exemple, la precisió o la taxa de classificació errònia. Això es deu al fet que l'índex de Gini depèn de l'extensió general dels exemples de cada classe en oposició als nombres absoluts.

Menys propensos al sobreajustament: L'índex de Gini, en general, farà arbres de decisió més modestos en contrast amb diferents mesures, la qual cosa el fa menys propens a sobreajustar-se. Això es deu al fet que l'índex de Gini afavorirà en general les característiques que fan que les dades siguin més modestes, la qual cosa disminueix les possibilitats de sobreajustament.

Desavantatges:

Tot i que l'índex de Gini gaudeix d'alguns avantatges com a mesura de divisió per als arbres de decisió, també té alguns desavantatges. Aquí teniu una part dels principals inconvenients de l'ús de l'índex Gini:

Biaix cap a funcions amb moltes categories: En general, l'índex de Gini s'inclinarà cap a característiques amb moltes categories o valors, ja que poden fer més divisions i parcel·les de les dades. Això pot provocar un sobreajust i un arbre de decisions més complicat.

No és bo per a variables contínues: L'índex de Gini no és adequat per a variables contínues, ja que requereix discretitzar la variable en categories o contenidors, la qual cosa pot provocar la pèrdua d'informació i la disminució de l'exactitud.

Ignora les interaccions de les funcions: L'índex de Gini només pensa en la força de previsió individual de cada característica i ignora les interaccions entre característiques. Això pot provocar divisions pobres i previsions menys exactes.

No és ideal per a alguns conjunts de dades: de vegades, l'índex de Gini pot no ser la mesura ideal per avaluar la naturalesa de les divisions en un arbre de decisió. Per exemple, en el cas que la variable objectiu estigui excepcionalment inclinada o desequilibrada, poden ser més adequades diferents mesures, per exemple, guany d'informació o proporció de guanys.

Propens al biaix en presència de valors que falten: L'índex de Gini pot estar esbiaixat en presència de valors que falten, ja que en general s'inclinarà cap a característiques amb menys valors que falten, independentment de si no són les més informatives.

Aplicacions del món real de l'índex Gini

L'índex Gini s'ha utilitzat en diferents aplicacions d'aprenentatge automàtic, per exemple, la ubicació d'extorsió, la puntuació de crèdit i la divisió de clients. Per exemple, en el descobriment d'extorsió, l'índex Gini es pot utilitzar per distingir dissenys en dades d'intercanvi i reconèixer maneres estranyes de comportar-se. En la puntuació de crèdit, l'índex de Gini es pot utilitzar per preveure la probabilitat d'impagament a la vista de variables com els ingressos, la relació del deute pendent amb el pagament a casa i el registre de l'amortització del préstec. A la divisió de clients, l'índex Gini es pot utilitzar per agrupar clients tenint en compte la seva manera de comportar-se i les seves inclinacions.

Recerca futura

Malgrat el seu ús il·limitat en algorismes d'arbre de decisió, encara hi ha grau per a la investigació sobre l'índex de Gini. Una àrea d'investigació és l'avenç de noves mesures d'impureses que poden abordar les limitacions de l'índex de Gini, com la seva inclinació cap a factors amb molts nivells. Una àrea més d'investigació és la racionalització dels algorismes d'arbres de decisió utilitzant l'índex Gini, per exemple, la utilització de tècniques d'equipament per treballar la precisió dels arbres de decisió.

Conclusió

L'índex de Gini és una mesura d'impureses important que s'utilitza en algorismes d'arbre de decisió per a tasques de classificació. Mesura la probabilitat que una prova escollida a l'atzar sigui mal classificat per un algorisme d'arbre de decisió, i el seu valor va de 0 (perfectament pur) a 1 (perfectament impur). L'índex Gini és senzill i dur a terme, computacionalment productiu i potent per a excepcions. S'ha utilitzat en diferents aplicacions d'aprenentatge automàtic, per exemple, descobriment de falsificacions, puntuació de crèdit i divisió de clients. Tot i que l'índex de Gini té algunes limitacions, encara hi ha grau per a la investigació sobre la seva millora i millora de noves mesures d'impureses.