logo

Quantil Gràfics quantils

El diagrama quantil-quantil (gràfic q-q) és un mètode gràfic per determinar si un conjunt de dades segueix una determinada distribució de probabilitat o si dues mostres de dades provenen de la mateixa població o no. Els diagrames Q-Q són especialment útils per avaluar si un conjunt de dades ho és distribuïts normalment o si segueix alguna altra distribució coneguda. S'utilitzen habitualment en estadístiques, anàlisi de dades i control de qualitat per comprovar les hipòtesis i identificar desviacions de les distribucions esperades.

Quantils i percentils

Els quantils són punts d'un conjunt de dades que divideixen les dades en intervals que contenen probabilitats o proporcions iguals de la distribució total. Sovint s'utilitzen per descriure la difusió o distribució d'un conjunt de dades. Els quantils més comuns són:



  1. Mitjana (percentil 50) : La mediana és el valor mitjà d'un conjunt de dades quan s'ordena de més petit a més gran. Divideix el conjunt de dades en dues meitats iguals.
  2. Quartils (percentils 25, 50 i 75) : els quartils divideixen el conjunt de dades en quatre parts iguals. El primer quartil (Q1) és el valor per sota del qual cau el 25% de les dades, el segon quartil (Q2) és la mediana i el tercer quartil (Q3) és el valor per sota del qual cau el 75% de les dades.
  3. Percentils : Els percentils són similars als quartils però divideixen el conjunt de dades en 100 parts iguals. Per exemple, el percentil 90 és el valor per sota del qual cau el 90% de les dades.

Nota:

  • Una gràfica q-q és una gràfica dels quantils del primer conjunt de dades contra els quantils del segon conjunt de dades.
  • A efectes de referència, també es dibuixa una línia del 45%; Per si les mostres són de la mateixa població, els punts estan al llarg d'aquesta línia.


Distribució normal:

La distribució normal (també coneguda com a corba de Bell de distribució gaussiana) és una distribució de probabilitat contínua que representa la distribució obtinguda a partir dels valors reals generats aleatòriament.

. {displaystyle f(x)={frac {1}{sigma {sqrt {2pi }}}}e^{-{frac {1}{2}}left({frac {x -mu }{sigma }}
ight)^{2}}}



f(x) = Probabilitat , Distribució , Funció  mu = mitjana  sigma = estàndard , desviació


Distribució normal amb àrea sota CUrve




Com dibuixar la trama Q-Q?

Per dibuixar una gràfica quantil-quantil (Q-Q), podeu seguir aquests passos:

  1. Recull les dades : Reuneix el conjunt de dades per al qual vols crear la gràfica Q-Q. Assegureu-vos que les dades siguin numèriques i representin una mostra aleatòria de la població d'interès.
  2. Ordena les dades : Organitzeu les dades en ordre ascendent o descendent. Aquest pas és essencial per calcular quantils amb precisió.
  3. Trieu una distribució teòrica : determineu la distribució teòrica amb la qual voleu comparar el vostre conjunt de dades. Les opcions habituals inclouen la distribució normal, la distribució exponencial o qualsevol altra distribució que s'ajusti bé a les vostres dades.
  4. Calcula quantils teòrics : Calcula els quantils per a la distribució teòrica escollida. Per exemple, si esteu comparant amb una distribució normal, utilitzareu la funció de distribució acumulada inversa (CDF) de la distribució normal per trobar els quantils esperats.
  5. Trama :
    • Traceu els valors del conjunt de dades ordenats a l'eix x.
    • Traceu els quantils teòrics corresponents a l'eix y.
    • Cada punt de dades (x, y) representa un parell de valors observats i esperats.
    • Connecteu els punts de dades per inspeccionar visualment la relació entre el conjunt de dades i la distribució teòrica.


Interpretació de la trama Q-Q

  • Si els punts de la trama cauen aproximadament al llarg d'una línia recta, suggereix que el vostre conjunt de dades segueix la distribució suposada.
  • Les desviacions de la línia recta indiquen desviacions de la distribució suposada, la qual cosa requereix més investigació.

Explorant la similitud de distribució amb diagrames Q-Q


Explorar la similitud de distribucions mitjançant diagrames Q-Q és una tasca fonamental en estadística. Comparar dos conjunts de dades per determinar si provenen de la mateixa distribució és vital per a diversos propòsits analítics. Quan es compleix el supòsit d'una distribució comuna, la fusió de conjunts de dades pot millorar la precisió de l'estimació de paràmetres, com ara la ubicació i l'escala. Els diagrames Q-Q, abreviatura de diagrames quantil-quantil, ofereixen un mètode visual per avaluar la similitud de distribució. En aquests gràfics, els quantils d'un conjunt de dades es representen contra els quantils d'un altre. Si els punts s'alineen estretament al llarg d'una línia diagonal, suggereix similitud entre les distribucions. Les desviacions d'aquesta línia diagonal indiquen diferències en les característiques de distribució.

Mentre que proves com la chi-quadrat i Kolmogorov-Smirnov les proves poden avaluar les diferències generals de distribució, els diagrames Q-Q proporcionen una perspectiva matisada mitjançant la comparació directa de quantils. Això permet als analistes discernir diferències específiques, com ara canvis d'ubicació o canvis d'escala, que poden no ser evidents només a partir de proves estadístiques formals.

Implementació de Python de la trama Q-Q

Python 3

import> numpy as np> import> matplotlib.pyplot as plt> import> scipy.stats as stats> # Generate example data> np.random.seed(>0>)> data>=> np.random.normal(loc>=>0>, scale>=>1>, size>=>1000>)> # Create Q-Q plot> stats.probplot(data, dist>=>'norm'>, plot>=>plt)> plt.title(>'Normal Q-Q plot'>)> plt.xlabel(>'Theoretical quantiles'>)> plt.ylabel(>'Ordered Values'>)> plt.grid(>True>)> plt.show()>
>
>

Sortida:



Trama Q-Q


Aquí, com que els punts de dades segueixen aproximadament una línia recta a la trama Q-Q, suggereix que el conjunt de dades és coherent amb la distribució teòrica suposada, que en aquest cas assumíem que era la distribució normal.

Avantatges de la trama Q-Q

  1. Comparació flexible : els diagrames Q-Q poden comparar conjunts de dades de diferents mides sense requereixen mides de mostra iguals.
  2. Anàlisi adimensional : No tenen dimensions, el que els fa adequats per comparar conjunts de dades amb diferents unitats o escales.
  3. Interpretació visual : Proporciona una representació visual clara de la distribució de dades en comparació amb una distribució teòrica.
  4. Sensible a les desviacions : detecta fàcilment les sortides de distribucions suposades, ajudant a identificar discrepàncies de dades.
  5. Eina de diagnòstic : Ajuda a avaluar els supòsits distributius, a identificar els valors atípics i a comprendre els patrons de dades.

Aplicacions de la trama quantil-quantil

La trama quantil-quantil s'utilitza amb el propòsit següent:

  1. Avaluació dels supòsits distributius : Els diagrames Q-Q s'utilitzen sovint per inspeccionar visualment si un conjunt de dades segueix una distribució de probabilitat específica, com ara la distribució normal. En comparar els quantils de les dades observades amb els quantils de la distribució suposada, es poden detectar desviacions de la distribució suposada. Això és crucial en moltes anàlisis estadístiques, on la validesa de les hipòtesis distributives afecta la precisió de les inferències estadístiques.
  2. Detecció d'outliers : els valors atípics són punts de dades que es desvien significativament de la resta del conjunt de dades. Els diagrames Q-Q poden ajudar a identificar els valors atípics revelant punts de dades que es troben lluny del patró esperat de la distribució. Els valors atípics poden aparèixer com a punts que es desvien de la línia recta esperada a la trama.
  3. Comparació de distribucions : Els diagrames Q-Q es poden utilitzar per comparar dos conjunts de dades per veure si provenen de la mateixa distribució. Això s'aconsegueix representant els quantils d'un conjunt de dades contra els quantils d'un altre conjunt de dades. Si els punts cauen aproximadament al llarg d'una línia recta, suggereix que els dos conjunts de dades s'obtenen de la mateixa distribució.
  4. Valoració de la normalitat : Els diagrames Q-Q són especialment útils per avaluar la normalitat d'un conjunt de dades. Si els punts de dades de la trama segueixen de prop una línia recta, indica que el conjunt de dades es distribueix aproximadament de manera normal. Les desviacions de la línia suggereixen desviacions de la normalitat, que poden requerir més investigacions o tècniques estadístiques no paramètriques.
  5. Validació del model : En camps com l'econometria i l'aprenentatge automàtic, els diagrames Q-Q s'utilitzen per validar models predictius. En comparar els quantils de les respostes observades amb els quantils predits per un model, es pot avaluar fins a quin punt el model s'adapta a les dades. Les desviacions del patró esperat poden indicar àrees on el model necessita millorar.
  6. Control de qualitat : Els diagrames Q-Q s'utilitzen en processos de control de qualitat per controlar la distribució dels valors mesurats o observats al llarg del temps o entre diferents lots. Les allunyaments dels patrons esperats a la trama poden indicar canvis en els processos subjacents, cosa que demana més investigacions.

Tipus de diagrames Q-Q

Hi ha diversos tipus de diagrames Q-Q que s'utilitzen habitualment en estadístiques i anàlisi de dades, cadascun adequat per a diferents escenaris o propòsits:

  1. Distribució normal : Una distribució simètrica on la gràfica Q-Q mostraria punts aproximadament al llarg d'una línia diagonal si les dades s'adhereixen a una distribució normal.
  2. Distribució esbiaixada a la dreta : Una distribució on la trama Q-Q mostraria un patró on els quantils observats es desvien de la línia recta cap a l'extrem superior, indicant una cua més llarga al costat dret.
  3. Distribució esbiaixada a l'esquerra : Una distribució on la trama Q-Q mostraria un patró on els quantils observats es desvien de la línia recta cap a l'extrem inferior, indicant una cua més llarga al costat esquerre.
  4. Distribució poc dispersa : Una distribució on la trama Q-Q mostraria els quantils observats agrupats més estretament al voltant de la línia diagonal en comparació amb els quantils teòrics, cosa que suggereix una variància més baixa.
  5. Distribució massa dispersa : Una distribució on la gràfica Q-Q mostraria els quantils observats més estesos o desviats de la línia diagonal, cosa que indica una major variància o dispersió en comparació amb la distribució teòrica.

Python 3

import> numpy as np> import> matplotlib.pyplot as plt> import> scipy.stats as stats> # Generate a random sample from a normal distribution> normal_data>=> np.random.normal(loc>=>0>, scale>=>1>, size>=>1000>)> # Generate a random sample from a right-skewed distribution (exponential distribution)> right_skewed_data>=> np.random.exponential(scale>=>1>, size>=>1000>)> # Generate a random sample from a left-skewed distribution (negative exponential distribution)> left_skewed_data>=> ->np.random.exponential(scale>=>1>, size>=>1000>)> # Generate a random sample from an under-dispersed distribution (truncated normal distribution)> under_dispersed_data>=> np.random.normal(loc>=>0>, scale>=>0.5>, size>=>1000>)> under_dispersed_data>=> under_dispersed_data[(under_dispersed_data>>->1>) & (under_dispersed_data <>1>)]># Truncate> # Generate a random sample from an over-dispersed distribution (mixture of normals)> over_dispersed_data>=> np.concatenate((np.random.normal(loc>=>->2>, scale>=>1>, size>=>500>),> >np.random.normal(loc>=>2>, scale>=>1>, size>=>500>)))> # Create Q-Q plots> plt.figure(figsize>=>(>15>,>10>))> plt.subplot(>2>,>3>,>1>)> stats.probplot(normal_data, dist>=>'norm'>, plot>=>plt)> plt.title(>'Q-Q Plot - Normal Distribution'>)> plt.subplot(>2>,>3>,>2>)> stats.probplot(right_skewed_data, dist>=>'expon'>, plot>=>plt)> plt.title(>'Q-Q Plot - Right-skewed Distribution'>)> plt.subplot(>2>,>3>,>3>)> stats.probplot(left_skewed_data, dist>=>'expon'>, plot>=>plt)> plt.title(>'Q-Q Plot - Left-skewed Distribution'>)> plt.subplot(>2>,>3>,>4>)> stats.probplot(under_dispersed_data, dist>=>'norm'>, plot>=>plt)> plt.title(>'Q-Q Plot - Under-dispersed Distribution'>)> plt.subplot(>2>,>3>,>5>)> stats.probplot(over_dispersed_data, dist>=>'norm'>, plot>=>plt)> plt.title(>'Q-Q Plot - Over-dispersed Distribution'>)> plt.tight_layout()> plt.show()>
>
>

Sortida:


Gràfic Q-Q per a diferents distribucions

punters al c