La agrupació jeràrquica fa referència a un procediment d'aprenentatge no supervisat que determina grups successius basats en clústers prèviament definits. Funciona mitjançant l'agrupació de dades en un arbre de clústers. Estadístiques de clúster jeràrquic tractant cada punt de dades com un clúster individual. El punt final es refereix a un conjunt diferent de clúster, on cada clúster és diferent de l'altre clúster i els objectes dins de cada clúster són iguals entre si.
Hi ha dos tipus de agrupació jeràrquica
com llegir el fitxer csv en java
- Clúster jeràrquic aglomeratiu
- Agrupació divisoria
Clúster jeràrquic aglomeratiu
La agrupació aglomerativa és un dels tipus més comuns de agrupació jeràrquica utilitzada per agrupar objectes similars en clústers. La agrupació aglomerativa també es coneix com AGNES (Agglomerative Nesting). En la agrupació aglomerativa, cada punt de dades actua com un clúster individual i en cada pas, els objectes de dades s'agrupen en un mètode de baix a dalt. Inicialment, cada objecte de dades es troba al seu clúster. A cada iteració, els clústers es combinen amb diferents clústers fins que es forma un clúster.
Algorisme de agrupació jeràrquica aglomerativa
- Determineu la similitud entre els individus i tots els altres grups. (Trobar matriu de proximitat).
- Considereu cada punt de dades com un clúster individual.
- Combina grups similars.
- Torneu a calcular la matriu de proximitat per a cada clúster.
- Repetiu el pas 3 i el pas 4 fins que obtingueu un únic clúster.
Entendrem aquest concepte amb l'ajuda de la representació gràfica mitjançant un dendrograma.
python ordena tupla
Amb l'ajuda de la demostració donada, podem entendre com funciona l'algorisme real. Aquí no s'ha fet cap càlcul per sota de tota la proximitat entre els clústers s'assumeix.
Suposem que tenim sis punts de dades diferents P, Q, R, S, T, V.
Pas 1:
Considereu cada alfabet (P, Q, R, S, T, V) com un clúster individual i trobeu la distància entre el clúster individual de tots els altres grups.
anotacions d'arrencada de primavera
Pas 2:
Ara, fusioneu els clústers comparables en un sol clúster. Suposem que el clúster Q i el clúster R són semblants entre ells de manera que els puguem combinar en el segon pas. Finalment, obtenim els clústers [(P), (QR), (ST), (V)]
Pas 3:
Aquí, tornem a calcular la proximitat segons l'algorisme i combinem els dos grups més propers [(ST), (V)] junts per formar nous grups com [(P), (QR), (STV)]
Pas 4:
Repetiu el mateix procés. Els clústers STV i PQ són comparables i es combinen per formar un nou clúster. Ara tenim [(P), (QQRSTV)].
exemples d'arbres binaris
Pas 5:
Finalment, els dos clústers restants es fusionen per formar un únic clúster [(PQRSTV)]
Agrupació jeràrquica divisoria
La agrupació jeràrquica divisiva és exactament el contrari de la agrupació jeràrquica aglomerativa. A la agrupació jeràrquica divisòria, tots els punts de dades es consideren un clúster individual i, en cada iteració, els punts de dades que no són similars es separen del clúster. Els punts de dades separats es tracten com un clúster individual. Finalment, ens queden N cúmuls.
Avantatges de la agrupació jeràrquica
- És senzill d'implementar i ofereix el millor resultat en alguns casos.
- És fàcil i dóna lloc a una jerarquia, una estructura que conté més informació.
- No necessita que especifiquem prèviament el nombre de clústers.
Inconvenients de la agrupació jeràrquica
- Trenca els grans cúmuls.
- És difícil manejar grups de diferents mides i formes convexes.
- És sensible al soroll i als valors atípics.
- L'algoritme no es pot canviar ni esborrar mai un cop s'ha fet anteriorment.