logo

Clúster en aprenentatge automàtic

La agrupació o anàlisi de clúster és una tècnica d'aprenentatge automàtic que agrupa el conjunt de dades sense etiquetar. Es pot definir com 'Una manera d'agrupar els punts de dades en diferents clústers, formats per punts de dades similars. Els objectes amb les possibles semblances romanen en un grup que té menys o cap semblança amb un altre grup.'

Ho fa trobant alguns patrons similars al conjunt de dades sense etiqueta, com ara la forma, la mida, el color, el comportament, etc., i els divideix segons la presència i l'absència d'aquests patrons similars.

És un aprenentatge no supervisat mètode, per tant, no es proporciona cap supervisió a l'algorisme i tracta el conjunt de dades sense etiquetar.

Després d'aplicar aquesta tècnica d'agrupació, a cada clúster o grup se li proporciona un identificador de clúster. El sistema ML pot utilitzar aquest identificador per simplificar el processament de conjunts de dades grans i complexos.

pandes i numpy

La tècnica de clustering s'utilitza habitualment anàlisi de dades estadístiques.

Nota: l'agrupament és en algun lloc similar al algorisme de classificació , però la diferència és el tipus de conjunt de dades que estem utilitzant. En classificació, treballem amb el conjunt de dades etiquetat, mentre que en agrupació, treballem amb el conjunt de dades sense etiqueta.

Exemple : Entenem la tècnica de agrupació amb l'exemple real del centre comercial: quan visitem qualsevol centre comercial, podem observar que les coses amb un ús similar s'agrupen. Com les samarretes s'agrupen en una secció, i els pantalons són en altres seccions, de la mateixa manera, a les seccions de verdures, pomes, plàtans, mangos, etc., s'agrupen en seccions separades, perquè puguem descobrir fàcilment les coses. La tècnica de clustering també funciona de la mateixa manera. Altres exemples de clustering són l'agrupació de documents segons el tema.

La tècnica de clustering es pot utilitzar àmpliament en diverses tasques. Alguns dels usos més habituals d'aquesta tècnica són:

  • La segmentació del mercat
  • Anàlisi de dades estadístiques
  • Anàlisi de xarxes socials
  • Segmentació d'imatges
  • Detecció d'anomalies, etc.

A part d'aquests usos generals, és utilitzat per la Amazon en el seu sistema de recomanacions per proporcionar les recomanacions segons la cerca de productes anterior. Netflix també utilitza aquesta tècnica per recomanar les pel·lícules i les sèries web als seus usuaris segons l'historial de visualitzacions.

El diagrama següent explica el funcionament de l'algorisme de clustering. Podem veure que els diferents fruits es divideixen en diversos grups amb propietats similars.

Clúster en aprenentatge automàtic

Tipus de mètodes d'agrupació

Els mètodes de agrupació es divideixen àmpliament en Agrupament dur (el punt de dades només pertany a un grup) i Clúster suau (els punts de dades també poden pertànyer a un altre grup). Però també hi ha altres enfocaments diferents de Clustering. A continuació es mostren els principals mètodes de clustering utilitzats en l'aprenentatge automàtic:

mapa rendir
    Clúster de particions Agrupació basada en la densitat Clúster basat en models de distribució Clúster jeràrquic Agrupació difusa

Clúster de particions

És un tipus de clustering que divideix les dades en grups no jeràrquics. També es coneix com el mètode basat en el centroide . L'exemple més comú d'agrupació de particions és el Algorisme de agrupació K-Means .

En aquest tipus, el conjunt de dades es divideix en un conjunt de k grups, on K s'utilitza per definir el nombre de grups predefinits. El centre del clúster es crea de manera que la distància entre els punts de dades d'un clúster és mínima en comparació amb un altre centroide del clúster.

algorisme per a bfs
Clúster en aprenentatge automàtic

Agrupació basada en la densitat

El mètode d'agrupació basat en la densitat connecta les àrees altament denses en grups, i les distribucions de forma arbitrària es formen sempre que es pugui connectar la regió densa. Aquest algorisme ho fa identificant diferents clústers en el conjunt de dades i connecta les àrees d'alta densitat en clústers. Les àrees denses de l'espai de dades es divideixen entre si per àrees més disperses.

Aquests algorismes poden tenir dificultats per agrupar els punts de dades si el conjunt de dades té diferents densitats i dimensions elevades.

Clúster en aprenentatge automàtic

Clúster basat en models de distribució

En el mètode d'agrupació basat en el model de distribució, les dades es divideixen en funció de la probabilitat de com un conjunt de dades pertany a una distribució particular. L'agrupació es fa assumint habitualment algunes distribucions Distribució gaussiana .

L'exemple d'aquest tipus és el Algorisme de clúster d'expectatives-maximització que utilitza models de mescles gaussianes (GMM).

Clúster en aprenentatge automàtic

Clúster jeràrquic

La agrupació jeràrquica es pot utilitzar com a alternativa per a la agrupació en particions, ja que no hi ha cap requisit d'especificar prèviament el nombre de clústers que s'han de crear. En aquesta tècnica, el conjunt de dades es divideix en clústers per crear una estructura en forma d'arbre, que també s'anomena a dendrograma . Les observacions o qualsevol nombre de grups es poden seleccionar tallant l'arbre al nivell correcte. L'exemple més comú d'aquest mètode és el Algorisme jeràrquic aglomeratiu .

Clúster en aprenentatge automàtic

Agrupació difusa

La agrupació difusa és un tipus de mètode suau en què un objecte de dades pot pertànyer a més d'un grup o clúster. Cada conjunt de dades té un conjunt de coeficients de pertinença, que depenen del grau de pertinença a un clúster. Algorisme C-means difuso és l'exemple d'aquest tipus de clustering; de vegades també es coneix com a algorisme de k-means difusos.

Algoritmes de agrupació

Els algorismes de clúster es poden dividir en funció dels seus models que s'han explicat anteriorment. Hi ha diferents tipus d'algoritmes d'agrupació publicats, però només uns quants s'utilitzen habitualment. L'algoritme de clustering es basa en el tipus de dades que estem utilitzant. Com ara, alguns algorismes necessiten endevinar el nombre de clústers en el conjunt de dades donat, mentre que alguns són necessaris per trobar la distància mínima entre l'observació del conjunt de dades.

Aquí estem discutint principalment els algorismes de clúster populars que s'utilitzen àmpliament en l'aprenentatge automàtic:

significat de dhl
    Algorisme K-Means:L'algoritme de k-means és un dels algorismes de clustering més populars. Classifica el conjunt de dades dividint les mostres en diferents grups de variàncies iguals. El nombre de clústers s'ha d'especificar en aquest algorisme. És ràpid amb menys càlculs necessaris, amb la complexitat lineal de O(n). Algorisme de desplaçament mitjà:L'algorisme de desplaçament mitjà intenta trobar les àrees denses en la densitat suau de punts de dades. És un exemple d'un model basat en el centroide, que treballa per actualitzar els candidats perquè el centroide sigui el centre dels punts dins d'una regió determinada.Algoritme DBSCAN:Es manté dempeus per a l'agrupació espacial d'aplicacions amb soroll basada en la densitat . És un exemple de model basat en la densitat similar al canvi mitjà, però amb alguns avantatges notables. En aquest algorisme, les àrees d'alta densitat estan separades per les àrees de baixa densitat. Per això, els clústers es poden trobar en qualsevol forma arbitrària.Agrupació d'expectatives-maximització mitjançant GMM:Aquest algorisme es pot utilitzar com a alternativa per a l'algoritme de k-means o per a aquells casos en què es pot fallar els K-means. En GMM, s'assumeix que els punts de dades estan distribuïts gaussianament.Algorisme jeràrquic aglomeratiu:L'algorisme jeràrquic aglomeratiu realitza l'agrupació jeràrquica de baix a dalt. En això, cada punt de dades es tracta com un únic clúster al principi i després es fusiona successivament. La jerarquia de clúster es pot representar com una estructura d'arbre.Propagació d'afinitat:És diferent d'altres algorismes de clustering, ja que no requereix especificar el nombre de clusters. En això, cada punt de dades envia un missatge entre el parell de punts de dades fins a la convergència. Té O(N2T) complexitat temporal, que és el principal inconvenient d'aquest algorisme.

Aplicacions del Clustering

A continuació es mostren algunes aplicacions conegudes habitualment de la tècnica de clustering en Machine Learning:

    En la identificació de cèl·lules canceroses:Els algorismes de clustering s'utilitzen àmpliament per a la identificació de cèl·lules canceroses. Divideix els conjunts de dades canceroses i no canceroses en diferents grups.En els motors de cerca:Els motors de cerca també treballen amb la tècnica de clustering. El resultat de la cerca apareix en funció de l'objecte més proper a la consulta de cerca. Ho fa agrupant objectes de dades similars en un grup que està lluny dels altres objectes diferents. El resultat precís d'una consulta depèn de la qualitat de l'algorisme d'agrupació utilitzat.Segmentació de clients:S'utilitza en estudis de mercat per segmentar els clients en funció de la seva elecció i preferències.En biologia:S'utilitza en el corrent de biologia per classificar diferents espècies de plantes i animals mitjançant la tècnica de reconeixement d'imatges.En ús del sòl:La tècnica de clustering s'utilitza per identificar l'àrea d'ús de terres similars a la base de dades SIG. Això pot ser molt útil per trobar que amb quina finalitat s'ha d'utilitzar el terreny en particular, és a dir, per a quina finalitat és més adequat.