Z-SCORE EN ESTADÍSTIQUES - CIÈNCIA DE DADES

Z-Score en estadístiques és una mesura de quantes desviacions estàndard té un punt de dades respecte a la mitjana d'una distribució. Trobem la puntuació z a les estadístiques. Una puntuació z de 0 indica que la puntuació del punt de dades és la mateixa que la puntuació mitjana. Una puntuació z positiva indica que el punt de dades està per sobre de la mitjana, mentre que una puntuació z negativa indica que el punt de dades està per sota de la mitjana.

La fórmula per calcular una puntuació z és: z = (x – μ)/ p

On:

x: és el valor de prova
m: és la mitjana
a: és el valor estàndard

En aquest article, parlarem dels conceptes següents:

Taula de contingut

Què és Z-Score?
Com calcular la puntuació Z?
Característiques de Z-Score
Calcula els valors atípics utilitzant el valor de la puntuació Z
Implementació de Z-Score a Python
Aplicació de Z-Score
Puntuació Z vs. desviació estàndard
Per què les puntuacions Z s'anomenen puntuacions estàndard?

Què és Z-Score?

La puntuació Z, també coneguda com a puntuació estàndard, ens indica la desviació d'un punt de dades de la mitjana expressant-la en termes de desviacions estàndard per sobre o per sota de la mitjana. Ens dóna una idea de fins a quin punt es troba un punt de dades de la mitjana. Per tant, la puntuació Z es mesura en termes de desviació estàndard de la mitjana. Per exemple, una puntuació Z de 2 indica que el valor està a 2 desviacions estàndard de la mitjana. Per utilitzar una puntuació z, hem de conèixer la mitjana de la població (μ) i també la desviació estàndard de la població (σ).

La fórmula per a la puntuació Z

Es pot calcular una puntuació z mitjançant la fórmula següent.

z = (X – μ) / pàg

on,

z = Puntuació Z
X = Valor de l'element
μ = Mitjana de la població
σ = Desviació estàndard de la població

Com calcular la puntuació Z?

Ens donen la mitjana de la població (μ), la desviació estàndard de la població (σ) i el valor observat (x) a l'enunciat del problema, substituint el mateix a l'equació de la puntuació Z, ens obtenim el valor de la puntuació Z. Depenent de si la puntuació Z donada és positiva o negativa, podem utilitzar Taula Z positiva o Taula Z negativa disponible en línia o a la part posterior del vostre llibre de text d'estadístiques a l'annex.

Exemple 1:

Feu l'examen GATE i puntueu 500. La puntuació mitjana del GATE és de 390 i la desviació estàndard és de 45. Quina puntuació vau obtenir a la prova en comparació amb la mitjana de l'estudiant?

Solució:

Les dades següents estan disponibles a la pregunta anterior

Puntuació bruta/valor observat = X = 500

Puntuació mitjana = μ = 390

Desviació estàndard = σ = 45

Aplicant la fórmula de la puntuació z,

z = (X – μ) / pàg

z = (500 – 390) / 45

z = 110 / 45 = 2,44

Això vol dir que la teva puntuació z és 2.44 .

Com que la puntuació Z és positiva de 2,44, farem ús de la taula Z positiva.

mamta kulkarni

Ara fem-hi un cop d'ull Taula Z (CC-BY) per saber la puntuació que heu obtingut en comparació amb la resta de participants.

Seguiu les instruccions següents per trobar la probabilitat de la taula.

Aquí, puntuació z = 2,44, quin i indica que el punt de dades està 2,44 desviacions estàndard per sobre de la mitjana.

En primer lloc, mapeu els dos primers dígits 2.4 a l'eix Y.
A continuació, al llarg de l'eix X, mapa 0,04
Uneix els dos eixos. La intersecció dels dos us proporcionarà la probabilitat acumulada associada al valor de la puntuació Z que esteu buscant

[Aquesta probabilitat representa l'àrea sota la corba normal estàndard a l'esquerra de la puntuació Z]

Taula de distribució normal

Com a resultat, obtindreu el valor final que és 0.99266 .

Ara, hem de comparar com es compara la nostra puntuació original de 500 a l'examen GATE amb la puntuació mitjana del lot. Per fer-ho, hem de convertir la probabilitat acumulada associada a la puntuació Z en un valor percentual.

0.99266 × 100 = 99.266%

Finalment, podeu dir que us heu fet bé que gairebé 99% d'altres examinadors.

Exemple 2 : Quina és la probabilitat que un estudiant obtingui entre 350 i 400 (amb una puntuació mitjana μ de 390 i una desviació estàndard σ de 45)?

Solució:

Puntuació mínima = X₁= 350

Puntuació màxima = X₂= 400

Aplicant la fórmula de la puntuació z,

Amb₁= (X1 – m) / pàg
mètode java tostring

Amb₁= (350 – 390) / 45

Amb₁= -40 / 45 = -0.88

Amb₂= (X₂– m) / pàg

z2 = (400 – 390) / 45

Amb₂= 10 / 45 = 0,22

Com que z1 és negatiu, haurem de mirar un negatiu Taula Z i trobeu que la probabilitat acumulada p1, la primera probabilitat, és 0.18943 .

Amb₂és positiu, de manera que utilitzem una taula Z positiva que produeix una probabilitat acumulada p₂de 0.58706 .

La probabilitat final es calcula restant p1 de p₂:

p = p₂– pàg₁

p = 0,58706 – 0,18943 = 0,39763

La probabilitat que un estudiant obtingui entre 350 i 400 és 39.763% (0.39763*100).

Característiques de Z-Score

La magnitud de la puntuació Z reflecteix a quina distància es troba un punt de dades de la mitjana en termes de desviacions estàndard.
Un element amb una puntuació z inferior a 0 representa que l'element és menor que la mitjana.
Les puntuacions Z permeten comparar punts de dades de diferents distribucions.
Un element amb una puntuació z superior a 0 representa que l'element és més gran que la mitjana.
Un element amb una puntuació z igual a 0 representa que l'element és igual a la mitjana.
Un element amb una puntuació z igual a 1 representa que l'element és 1 desviació estàndard més gran que la mitjana; una puntuació z igual a 2, 2 desviacions estàndard més grans que la mitjana, etc.
Un element amb una puntuació z igual a -1 representa que l'element és 1 desviació estàndard menys que la mitjana; una puntuació z igual a -2, 2 desviacions estàndard menys que la mitjana, i així successivament.
Si el nombre d'elements d'un conjunt donat és gran, al voltant del 68% dels elements tenen una puntuació z entre -1 i 1; al voltant del 95% tenen una puntuació z entre -2 i 2; aproximadament el 99% té una puntuació z entre -3 i 3. Això es coneix com la regla empírica i indica el percentatge de dades dins de determinades desviacions estàndard de la mitjana en una distribució normal, tal com es demostra a la imatge següent.

La regla empírica en la distribució normal

Calcula els valors atípics utilitzant el valor de la puntuació Z

Podem calcular els valors atípics de les dades utilitzant el valor de la puntuació z dels punts de dades. Els passos per considerar un punt de dades atípics són els següents:

Al principi, recollim el conjunt de dades en què volem veure els valors atípics
Calcularem la mitjana i la desviació estàndard del conjunt de dades. Aquests valors s'utilitzaran per calcular el valor de la puntuació z de cada punt de dades.
Calcularem el valor de la puntuació z per a cada punt de dades. La fórmula per calcular el valor de la puntuació z serà la mateixa que
Z = frac{{X – mu}}{{sigma}}
on X serà el punt de dades, μ és la mitjana de les dades i σ és la desviació estàndard del conjunt de dades.
Determinarem el valor de tall per a la puntuació z després del qual el punt de dades es podria considerar com un valor atípic. Aquest valor de tall és un hiperparàmetre que decidim en funció del nostre projecte.
Un punt de dades el valor de la puntuació z del qual és superior a 3 significa que el punt de dades no pertany al punt del 99,73 % del conjunt de dades.
Qualsevol punt de dades la puntuació z del qual sigui superior al nostre valor de tall decidit es considerarà un valor atípic.

Comprovar: Puntuació Z per a la detecció d'outliers

Implementació de Z-Score a Python

Podem utilitzar Python per calcular el valor de la puntuació z dels punts de dades del conjunt de dades. A més, utilitzarem la biblioteca numpy per calcular la mitjana i la desviació estàndard del conjunt de dades.

Python 3

 import numpy as np def calculate_z_score(data): # Mean of the dataset mean = np.mean(data) # Standard Deviation of tha dataset std_dev = np.std(data) # Z-score of tha data points z_scores = (data - mean) / std_dev return z_scores # Example dataset dataset = [3,9, 23, 43,53, 4, 5,30, 35, 50, 70, 150, 6, 7, 8, 9, 10] z_scores = calculate_z_score(dataset) print('Z-Score :',z_scores) # Data points which lies outside 3 standard deviatioms are outliers # i.e outside range of99.73% values outliers = [data_point for data_point,  z_score in zip(dataset, z_scores) if z_score>3] print(f'
Els valors atípics del conjunt de dades són {outliers}')>

Sortida:

Puntuació Z: [-0,7574907 -0,59097335 -0,20243286 0,35262498 0,6301539 -0,72973781
-0.70198492 -0.00816262 0.13060185 0.54689523 1.10195307 3.32218443
-0.67423202 -0.64647913 -0.61872624 -0.59097335 -0.56322046]
Els valors atípics del conjunt de dades són [150]

Aplicació de Z-Score

Les puntuacions Z s'utilitzen sovint per a l'escala de característiques per portar diferents característiques a una escala comuna. La normalització de les funcions garanteix que tinguin una mitjana zero i una variació d'unitat, cosa que pot ser beneficiosa per a determinats algorismes d'aprenentatge automàtic, especialment aquells que es basen en mesures de distància.
Les puntuacions Z es poden utilitzar per identificar els valors atípics en un conjunt de dades. Els punts de dades amb puntuacions Z més enllà d'un determinat llindar (normalment 3 desviacions estàndard de la mitjana) es poden considerar atípics.
Les puntuacions Z es poden utilitzar en algorismes de detecció d'anomalies per identificar instàncies que es desvien significativament del comportament esperat.
Les puntuacions Z es poden aplicar per transformar distribucions esbiaixades en distribucions més normals.
Quan es treballa amb models de regressió, es poden analitzar les puntuacions Z dels residus per comprovar l'homoscedasticitat (variància constant dels residus).
Les puntuacions Z es poden utilitzar en l'escala de característiques mirant les seves desviacions estàndard de la mitjana.

Puntuació Z vs. desviació estàndard

Z- Puntuació	Desviació estàndar
Transformeu les dades en brut en una escala estandarditzada.	Mesura la quantitat de variació o dispersió en un conjunt de valors.
Facilita la comparació de valors de diferents conjunts de dades perquè treuen les unitats de mesura originals.	La desviació estàndard conserva les unitats de mesura originals, la qual cosa la fa menys adequada per a comparacions directes entre conjunts de dades amb unitats diferents.
Indiqueu a quina distància es troba un punt de dades de la mitjana en termes de desviacions estàndard, proporcionant una mesura de la posició relativa del punt de dades dins de la distribució	Expressat en les mateixes unitats que les dades originals, proporcionant una mesura absoluta de la distribució dels valors al voltant de la mitjana

Comprovar: Taula de puntuació Z

Per què les puntuacions Z s'anomenen puntuacions estàndard?

Les puntuacions Z també es coneixen com a puntuacions estàndard perquè estandarditzen el valor d'una variable aleatòria. Això vol dir que la llista de puntuacions estandarditzades té una mitjana de 0 i una desviació estàndard d'1,0. Les puntuacions Z també permeten la comparació de puntuacions en diferents tipus de variables. Això es deu al fet que utilitzen la posició relativa per equiparar puntuacions de diferents variables o distribucions.

Les puntuacions Z s'utilitzen sovint per comparar una variable amb una distribució normal estàndard (amb μ = 0 i σ = 1).

Z-Score a les estadístiques - Preguntes freqüents

Quina és la importància de les puntuacions Z positives i negatives?

Les puntuacions Z positives indiquen valors per sobre de la mitjana, mentre que les puntuacions Z negatives indiquen valors per sota de la mitjana. El signe reflecteix la direcció de la desviació de la mitjana.

Què significa una puntuació Z de 0?

Una puntuació Z de 0 indica que el valor del punt de dades es troba exactament a la mitjana del conjunt de dades. Suggereix que el punt de dades no està ni per sobre ni per sota de la mitjana.

Què és la regla 68-95-99.7 en relació amb les puntuacions Z?

La regla 68-95-99.7, també coneguda com a regla empírica, estableix que:

Al voltant del 68% de les dades es troben dins d'una desviació estàndard de la mitjana.
Al voltant del 95% es troba dins de 2 desviacions estàndard.
Al voltant del 99,7% es troba dins de 3 desviacions estàndard.

Es poden utilitzar les puntuacions Z per a distribucions no normals?

Les puntuacions Z es basen en el supòsit que les dades segueixen una distribució normal. Tanmateix, a la pràctica, les puntuacions Z són beneficioses per a dades que segueixen una distribució normal. Tot i que les puntuacions Z es poden calcular per a qualsevol distribució, la seva interpretació es torna menys fiable i senzilla quan es tracta de dades no distribuïdes normalment.
nombre d'1 milió

Com es poden aplicar les puntuacions Z en situacions de la vida real?

Els Z-Scores tenen diverses aplicacions, com ara en finances per a l'anàlisi de carteres, educació per a proves estandarditzades, salut per a avaluacions clíniques i molt més. Proporcionen una mesura estandarditzada per comparar i interpretar dades.