logo

Similitud de coseus

Requisit previ: mineria de dades, la mesura de semblança fa referència a la distància amb dimensions que representen característiques de l'objecte de dades, en un conjunt de dades. Si aquesta distància és menor, hi haurà un alt grau de similitud, però quan la distància és gran, hi haurà un baix grau de similitud. Algunes de les mesures de semblança populars són:

  1. Distància euclidiana.
  2. Distància de Manhattan.
  3. Similitud de Jaccard.
  4. Distància de Minkowski.
  5. Similitud de coseus.

Semblança de coseus és una mètrica, útil per determinar la semblança dels objectes de dades, independentment de la seva mida. Podem mesurar la semblança entre dues frases en Python utilitzant la similitud de coseus. En la similitud del cosinus, els objectes de dades d'un conjunt de dades es tracten com un vector. La fórmula per trobar la semblança del cosinus entre dos vectors és:



(x, y) = x . y / ||x||  ||y||>

on,

    x . y = producte (punt) dels vectors ‘x’ i ‘y’.||x|| i ||i|| = longitud (magnitud) dels dos vectors ‘x’ i ‘y’.||x|| veces ||i|| = producte regular dels dos vectors ‘x’ i ‘y’.

Exemple: Considereu un exemple per trobar la semblança entre dos vectors: 'x' i ‘y’ , utilitzant la semblança de coseus. El vector 'x' té valors, x = { 3, 2, 0, 5 } El vector 'y' té valors, y = { 1, 0, 0, 0 } La fórmula per calcular la semblança del cosinus és: (x, y) = x . i / ||x|| ||i||

elimina l'últim caràcter de la cadena
x . y = 3*1 + 2*0 + 0*0 + 5*0 = 3 ||x|| = √ (3)^2 + (2)^2 + (0)^2 + (5)^2 = 6.16 ||y|| = √ (1)^2 + (0)^2 + (0)^2 + (0)^2 = 1 ∴ (x, y) = 3 / (6.16 * 1) = 0.49>

La dissimilaritat entre els dos vectors 'x' i 'y' ve donada per -



∴ (x, y) = 1 - (x, y) = 1 - 0.49 = 0.51>
  • La similitud del cosinus entre dos vectors es mesura en 'θ'.
  • Si θ = 0°, els vectors 'x' i 'y' se superposen, demostrant així que són similars.
  • Si θ = 90°, els vectors 'x' i 'y' són diferents.

Cosinus Similitud entre dos vectors


Avantatges:

  • La similitud del cosinus és beneficiosa perquè encara que els dos objectes de dades similars estiguin molt separats per la distància euclidiana a causa de la mida, encara podrien tenir un angle més petit entre ells. Més petit és l'angle, més gran és la similitud.
  • Quan es representa en un espai multidimensional, la similitud del cosinus captura l'orientació (l'angle) dels objectes de dades i no la magnitud.