logo

Algorisme a priori

L'algorisme a priori fa referència a l'algorisme que s'utilitza per calcular les regles d'associació entre objectes. Significa com dos o més objectes estan relacionats entre si. En altres paraules, podem dir que l'algorisme a priori és una regla d'associació que analitza que les persones que van comprar el producte A també van comprar el producte B.

L'objectiu principal de l'algorisme a priori és crear la regla d'associació entre diferents objectes. La regla d'associació descriu com dos o més objectes estan relacionats entre si. L'algorisme a priori també s'anomena extracció de patrons freqüents. En general, feu servir l'algoritme Apriori en una base de dades que consta d'un gran nombre de transaccions. Entendrem l'algorisme a priori amb l'ajuda d'un exemple; Suposem que vas a Big Bazar i compres diferents productes. Ajuda als clients a comprar els seus productes amb facilitat i augmenta el rendiment de vendes del Big Bazar. En aquest tutorial, parlarem de l'algorisme a priori amb exemples.

Introducció

Prenem un exemple per entendre millor el concepte. Deu haver notat que el venedor de la botiga de pizzes fa una combinació de pizza, refresc i palet de pa. També ofereix un descompte als seus clients que compren aquests combos. Us penseu mai per què ho fa? Pensa que els clients que compren pizza també compren refrescos i bastonets. Tanmateix, fent combos, ho facilita als clients. Al mateix temps, també augmenta el seu rendiment de vendes.

De la mateixa manera, aneu a Big Bazar, i trobareu galetes, patates fregides i xocolata empaquetades. Mostra que el botiguer fa que els clients compren aquests productes al mateix lloc còmode.

Els dos exemples anteriors són els millors exemples de normes d'associació

  • Suport
  • Confiança
  • Ascensor
  • Posem un exemple per entendre aquest concepte.

    Ja hem comentat més amunt; necessiteu una base de dades enorme que contingui un gran nombre de transaccions. Suposem que teniu transaccions de 4.000 clients en un Big Bazar. Heu de calcular el Suport, la Confiança i l'Aixecament de dos productes, i podeu dir Galetes i Xocolata. Això es deu al fet que els clients solen comprar aquests dos articles junts.

    De les 4000 transaccions, 400 contenen galetes, mentre que 600 contenen xocolata, i aquestes 600 transaccions inclouen 200 que inclouen galetes i xocolates. Utilitzant aquestes dades, descobrirem el suport, la confiança i l'ascens.

    Suport

    El suport fa referència a la popularitat predeterminada de qualsevol producte. Trobeu el suport com un quocient de la divisió del nombre de transaccions que componen aquest producte pel nombre total de transaccions. Per tant, aconseguim

    Suport (galetes) = (Transaccions relacionades amb galetes) / (Transaccions totals)

    = 400/4000 = 10 per cent.

    Confiança

    La confiança fa referència a la possibilitat que els clients compren tant galetes com xocolates junts. Per tant, cal dividir el nombre de transaccions que inclouen tant galetes com xocolates pel nombre total de transaccions per obtenir la confiança.

    Per tant,

    Confiança = (Transaccions relacionades tant amb galetes com amb xocolata) / (Transaccions totals amb galetes)

    = 200/400

    = 50 per cent.

    base de dades java jdbc

    Vol dir que el 50 per cent dels clients que van comprar galetes també van comprar xocolates.

    Ascensor

    Considereu l'exemple anterior; ascens fa referència a l'augment de la proporció de venda de bombons quan es ven galetes. A continuació es donen les equacions matemàtiques de la sustentació.

    Ascensor = (Confiança (galetes - bombons)/ (Suport (galetes)

    = 50/10 = 5

    Vol dir que la probabilitat que les persones compren tant galetes com xocolates junts és cinc vegades més gran que la de comprar les galetes soles. Si el valor d'increment és inferior a un, és probable que les persones compren els dos articles junts. Com més gran és el valor, millor és la combinació.

    Com funciona l'algoritme Apriori a la mineria de dades?

    Entendrem aquest algorisme amb l'ajuda d'un exemple

    Considereu un escenari de Big Bazar on el conjunt de productes és P = {Arròs, Llegum, Oli, Llet, Poma}. La base de dades consta de sis transaccions on 1 representa la presència del producte i 0 representa l'absència del producte.

    Identificador de transacció Arròs Pols Oli Llet poma
    t1 1 1 1 0 0
    t2 0 1 1 1 0
    t3 0 0 0 1 1
    t4 1 1 0 1 0
    t5 1 1 1 0 1
    T 6 1 1 1 1 1

    L'algoritme apriori fa les hipòtesis donades

    • Tots els subconjunts d'un conjunt d'elements freqüents han de ser freqüents.
    • Els subconjunts d'un conjunt d'elements poc freqüents han de ser poc freqüents.
    • Fixeu un nivell de suport llindar. En el nostre cas, l'hem fixat al 50 per cent.

    Pas 1

    Fes una taula de freqüències de tots els productes que apareixen en totes les transaccions. Ara, escurça la taula de freqüències per afegir només aquells productes amb un nivell de suport llindar superior al 50%. Trobem la taula de freqüències donada.

    Producte Freqüència (nombre de transaccions)
    Arròs (R) 4
    Pols (P) 5
    Oli (O) 4
    Llet (M) 4

    La taula anterior indica els productes comprats amb freqüència pels clients.

    Pas 2

    kat timpf alçada

    Creeu parells de productes com ara RP, RO, RM, PO, PM, OM. Obtindreu la taula de freqüències donada.

    Conjunt d'elements Freqüència (nombre de transaccions)
    RP 4
    RO 3
    RM 2
    DESPRÉS 4
    PM 3
    SOBRE 2

    Pas 3

    Implementar el mateix llindar de suport del 50 per cent i considerar els productes que són més del 50 per cent. En el nostre cas, és més de 3

    Així, obtenim RP, RO, PO i PM

    Pas 4

    Ara, busqueu un conjunt de tres productes que els clients compren junts. Obtenim la combinació donada.

    1. RP i RO donen RPO
    2. PO i PM donen POM

    Pas 5

    Calculeu la freqüència dels dos conjunts d'elements i obtindreu la taula de freqüències donada.

    Conjunt d'elements Freqüència (nombre de transaccions)
    RPO 4
    POM 3

    Si implementeu el supòsit del llindar, podeu esbrinar que el conjunt de tres productes dels clients és RPO.

    Hem considerat un exemple fàcil per discutir l'algorisme a priori en mineria de dades. En realitat, trobareu milers d'aquestes combinacions.

    Com millorar l'eficiència de l'algoritme apriori?

    Hi ha diversos mètodes utilitzats per a l'eficiència de l'algorisme d'Apriori

    Recompte de conjunts d'elements basat en hash

    En el recompte de conjunts d'elements basat en hash, heu d'excloure el conjunt d'elements k el recompte de cubs de hash equivalent és menor que el llindar és un conjunt d'elements poc freqüent.

    Reducció de transaccions

    En la reducció de transaccions, una transacció que no impliqui cap conjunt d'elements X freqüents no té valor en exploracions posteriors.

    Algorisme a priori en mineria de dades

    Ja hem comentat un exemple de l'algorisme a priori relacionat amb la generació freqüent d'elements. L'algorisme a priori té moltes aplicacions en la mineria de dades.

    dreceres de teclat de Linux

    Els requisits principals per trobar les regles d'associació en la mineria de dades es donen a continuació.

    Utilitzeu la força bruta

    Analitza totes les regles i troba els nivells de suport i confiança per a la regla individual. Després, elimineu els valors que siguin inferiors al llindar de suport i nivells de confiança.

    Els plantejaments en dos passos

    L'enfocament en dos passos és una millor opció per trobar les regles d'associació que el mètode Brute Force.

    Pas 1

    En aquest article, ja hem comentat com crear la taula de freqüències i calcular conjunts d'elements que tinguin un valor de suport més gran que el del suport de llindar.

    Pas 2

    Per crear regles d'associació, heu d'utilitzar una partició binària dels conjunts d'elements freqüents. Heu de triar els que tinguin els nivells de confiança més alts.

    A l'exemple anterior, podeu veure que la combinació RPO era el conjunt d'elements freqüent. Ara, descobrim totes les regles utilitzant RPO.

    RP-O, RO-P, PO-R, O-RP, P-RO, R-PO

    Podeu veure que hi ha sis combinacions diferents. Per tant, si teniu n elements, n'hi haurà 2n- 2 normes d'associació de candidats.

    Avantatges de l'algoritme apriori

    • S'utilitza per calcular conjunts d'elements grans.
    • Fàcil d'entendre i aplicar.

    Inconvenients dels algorismes a priori

    • L'algorisme a priori és un mètode car per trobar suport, ja que el càlcul ha de passar per tota la base de dades.
    • De vegades, necessiteu un gran nombre de regles candidates, de manera que es fa més car computacionalment.