Medidas de Variabilidad
- ¿Qué son las medidas de variabilidad?
- Rango
- Desviación media
- Desviación semi-intercuartil
- La varianza y la desviación estándar
- Coeficiente de variación
- Problemas
1. ¿Qué
son las medidas de variabilidad?
La puntuación media en una distribución es
importante en muchos contextos de investigación. Pero también lo es otro
conjunto de estadísticos que cuantifican que tan variables, o que tan
dispersas, tienden a ser las puntuaciones. ¿Las puntuaciones varían mucho, o
tienden a tener valores muy similares. A veces, la variabilidad en las
puntuaciones es la cuestión central en una investigación. La variabilidad es un
concepto cuantitativo, de modo que nada de esto se aplica a las distribuciones
de datos cualitativos.
Hay varias razones para analizar la variabilidad
en una serie de datos. Primero, al aplicar una medida de variabilidad podemos
evaluar la medida de tendencia central utilizada. Una medida de variabilidad
pequeña indica que los datos están agrupados muy cerca, digamos, de la media.
La media, por lo tanto es considerada bastante representativa de la serie de
datos. Inversamente, una gran medida de variabilidad indica que la media no es
muy representativa de los datos.
Una segunda razón para estudiar la variabilidad de
una serie de datos es para comparar como están esparcidos los datos en dos o
más distribuciones. Por ejemplo, la calificación promedio de dos estudiantes, A
= {90, 80, 75, 75 } y B = {90, 55, 85, 90 }, es de 80. Basados en esto
podríamos pensar que sus calificaciones son idénticas. Pero si revisamos el
detalle de sus calificaciones vemos que esta conclusión no es correcta.
Hay muchas medidas de variabilidad intuitivamente
atractivas, pero poco utilizadas, como el rango, la desviación media y la
desviación cuartilar. De lejos, las medidas de variabilidad más ampliamente
utilizadas son las que tienen que ver con cómo extender los resultados a partir
de la media. Estas son la desviación estándar (s), y la varianza (s² o
"var").
2. Rango o
recorrido o amplitud total
La forma más sencilla de medir la variabilidad es
el rango. Es la diferencia entre los más altos y más bajos valores en un
conjunto de datos. En la forma de una ecuación:
Rango = valor más alto - valor
más bajo
El rango tiene la ventaja de ser fácil de calcular
y entender.
Ejemplo:
Las calificaciones de cinco estudiantes de
estadística son: 8, 8, 10, 6, y 8. ¿Cuál es el rango de las calificaciones?
Rango = valor más alto - valor
más bajo = 10 - 6 = 4
Rango para datos agrupados
Para estimar el rango de una distribución de
frecuencia se resta el límite inferior del intervalo de clase más chico del
límite superior del intervalo de clase más grande
Ejemplo:
Una muestra de las edades del público de un
concierto se encuentra distribuida de la siguiente manera:
Edades
|
Número de personas
|
15 - 19
|
2
|
20 - 24
|
1
|
25 - 29
|
4
|
30 - 34
|
15
|
35 - 39
|
10
|
40 - 44
|
5
|
45 - 49
|
3
|
Rango = mayor limite superior -
menor límite inferior = 49 - 15 = 34
Interpretación: por la sencillez en
determinarla, puede ser útil cuando las series son bastante homogéneas ya que
la amplitud de la serie puede tomarse como una aproximación del promedio.
3. Desviación
media
La desviación media mide la cantidad promedio que
varían los datos respecto a su media. La definición es:
Desviación media es la media aritmética de los
valores absolutos de las desviaciones de los datos respecto a su media.
La fórmula de la desviación media ( Dm ) es:
Ejemplo: Las calificaciones
de cinco estudiantes de estadística son: 8, 8, 10, 6, y 8. ¿Cuál es la
desviación media de las calificaciones?
X
|
x-m
|
/ x-m /
|
8
|
0
|
0
|
8
|
0
|
0
|
10
|
2
|
2
|
6
|
-2
|
2
|
8
|
0
|
0
|
SUMA
|
|
4
|
Dm =
|
S| X -
|
|
|
|
=
|
4
|
= 0.8
|
n
|
5
|
Significado de la Dm : entre menor sea su valor,
menos dispersión tienen los datos de la serie. Esta aseveración tiene validez
para todas las medidas de variabilidad.
Desviación
media para datos agrupados
En el caso de que los datos se encuentren
agrupados en una distribución de frecuencia la fórmula es :
Ventajas y Desventajas de la desviación media
La desviación media tiene dos ventajas. Utiliza
para su cómputo todos los elementos de la serie de datos y es fácil de
entender. Sin embargo, es difícil trabajar con valores absolutos y por ello la
desviación media no es usada frecuentemente.
5. La
varianza y la desviación estándar
La
varianza y la desviación estándar sirven para cuantificar la variabilidad de
una muestra midiendo su dispersión alrededor de la media. La definición es la
siguiente:
Varianza. Es la
media aritmética de las desviaciones cuadradas de los datos respecto a la
media.
Desviación
estándar. Es la raíz cuadrada de la varianza. Es la mas importante de las
mediadas de dispersión.
Varianza y Desviación Estándar para datos no
agrupados
Las fórmulas de la varianza de una población y de
una muestra son ligeramente diferentes. Las fórmulas son:
En la formula de las muestras algunos autores
ponen en el denominador n-1 , justificándose este caso en la estimación de
parámetros, tema de la inferencia estadística, ya que tiene que ver con un estadístico
llamado “grados de libertad”, pero no se ahondará más sobre esto. Otros autores
utilizan n.
Las desviaciones estándar de la población y
muestra se calculan simplemente sacando la raíz cuadrada a la respectiva
varianza.
Ejemplo El
contenido de cinco botellas de perfume seleccionadas de forma aleatoria de la
línea de producción son (en ml): 85.4, 85.3, 84.9, 85.4, y 84.0. ¿Cuál es la
varianza y la desviación estándar de las observaciones muestreadas?
X
|
x-m
|
(x-m)¨2
|
85.4
|
0.4
|
0.16
|
85.3
|
0.3
|
0.09
|
84.9
|
-0.1
|
0.01
|
85.4
|
0.4
|
0.16
|
84.0
|
-1.0
|
1.00
|
Sx=425.0
|
|
1.42
|
Varianza y Desviación Estándar para datos
agrupados
Si los datos están agrupados en una distribución
de frecuencia, la varianza y la desviación estándar de la muestra se pueden
aproximar sustituyendo Sfx² por Sx² y Sfx por Sx. Las fórmulas quedarían de la
siguiente manera:
Ejemplo:
Calcular la varianza y la desviación
estándar de la siguiente distribución de frecuencia del número de meses de
duración de una muestra de 40 baterías para coche.
duración de las
baterías
(meses) (X)
|
Número de baterías
(f)
|
15 - 19
|
2
|
20 - 24
|
1
|
25 - 29
|
4
|
30 - 34
|
15
|
35 - 39
|
10
|
40 - 44
|
5
|
45 - 49
|
3
|
Primeramente, calculamos la marca de clase,
para después calcular los productos fX y fx2
para proceder finalmente a calcular las sumatorias
SfX y Sfx2 y aplicar las
fórmulas.
Interpretación
de la desviación típica:
tal como hemos
definido esta medida, no se le encuentra una interpretación evidente. Su interpretación y significado, se encuentra al referirla a la
relación que guarda con las distribuciones que tienden a la simetría o
perfectamente normales. Una distribución normal, se define completamente por su
media aritmética y por su desviación típica. Por el momento nos vamos a
conformar con algunas aseveraciones que haremos de la desviación típica
referida a una distribución normal. Si asumimos que una distribución es normal,
se cumple lo siguiente:
Ejemplos:
1)
En una empresa los salarios han tenido
un promedio de $500.00 mensuales, con una desviación típica de $50.00. ¿Qué
sucede con la media y la varianza de los salarios si :
a)
a cada salario se le aumentan $45.00
b)
a cada salario se le aumenta el 10%
c)
se efectúan ambos aumentos
simultáneamente.
Solución
con la media:
sea x : salarios, k : constante
, M: media
a)
k=45 ;
sabemos que M(x + K)= M(x) + k
M(x) + k = 500 + 45 = $545.00 nueva media
b)
k=1.10 ; sabemos que M(kx) = k M(x) entonces
k M(x) = 1.1 (500) = $550.00 nueva media
c)
como
k1 = 1.1 ; k2
= 45 luego M(k1 x + k2)
= M(k1 x) + M(k2) =
k1 M(x) + k2
k1 M(x) + k2 = 1.1 (500) + 45 =
$595.00 nueva media
Solución con la varianza:
a)
k=45 ;
sabemos que V(x + K)= V(x) = (50)2
= 2500.00
b)
k=1.10 ; sabemos que V(kx) = k2 V(x) = (1.1)2 (50)2 =
3025.00
c)
como
k1 = 1.1 ; k2
= 45 luego V(k1 x + k2)
= V(k1 x) + V(k2) = ( k1)2 V(x)
( k1)2
V(x) = (1.1)2 (50)2 = 3025.00
CONCLUSION: la media aritmética
quedó aumentada en las tres situaciones, mientras que la varianza solo quedó
incrementada en la 2ª situación.
2)
En una empresa, la distribución de
salarios tiene una media de $150.00 y una desviación típica de $25.00. La
empresa como solución a un conflicto laboral, propone dos alternativas:
a)
un aumento general del 60% de cada
salario
b)
un aumento general del 40% de salario
y una bonificación adicional de $30.00, a cada obrero.
¿Cuál de las alternativas propuestas le
conviene aceptar al sindicato?. Justifique su respuesta
Solución:
Conclusión: Como en ambas alternativas el promedio es igual , se
prefiere la alternativa que tiene menor variabilidad , es decir, la alternativa
b)
6. Coeficiente de variabilidad
Las medidas de
variabilidad vistas anteriormente son números concretos, es decir son
expresadas en las unidades de las variables en estudio. Con ellas se puede
conocer la dispersión de los datos de una serie estadística, pero no se puede
comparar la dispersión de dos o mas variables dadas en diferente unidad de
medida. Por ejemplo podemos conocer la desviación típica, de las variables peso
y estatura de un grupo de personas, digamos 5.5 libras y 10 centímetros ,
respectivamente. ¿podría Ud. decir, cual de las dos variables, tiene menor
variabilidad?
La medida de
variabilidad, cualquiera que sea, acusará menor dispersión cuanto menor sea su
valor; pero para el problema planteado
anteriormente, donde las medidas de variabilidad están expresadas con
diferentes unidades , ¿se podrá tomar una decisión?. Es claro que no podemos
contestar la pregunta. Se necesita de una medida relativa para poder distinguir
el grado de variabilidad o dispersión de dos o más variables. Si se trata de
una misma variable analizada por dos grupos, donde la media aritmética es
bastante similar, se puede saber qué grupo tiene menor variabilidad. Si tenemos
dos grupos de estudiantes de sexto grados A y B, cu7yas medias del rendimiento
en matemática son 60 y 62 puntos, y desviaciones típicas de 5 y 8 puntos
respectivamente, inmediatamente, decidimos que el grupo mas homogéneo es el
grupo A, por ser su desviación menor que la del B. para resolver el problema de
como establecer la diferencia en la variabilidad o dispersión de dos o más
variables, utilizaremos el coeficiente de variabilidad , que es una medida
relativa abstracta
El coeficiente de variación se define como la razón de la
desviación estándar entre la media aritmética
Ventajas
El coeficiente de variación es útil cuando pretende
comparar la variabilidad de dos o más conjuntos de datos expresados en
diferentes unidades de medición, pues el resultado será señalado en
porcentajes.
Desventajas
Cuando el valor de la media es cercano a cero, el
coeficiente de variación es muy sensible a pequeños cambios en la media,
limitando su utilidad
A diferencia de la desviación estándar este no puede ser
utilizado para elaborar intervalos de confianza para la media.
Aceptación o rechazo de la media aritmética:
La interpretación de este coeficiente es igual al
de las otras medidas de dispersión. El grado de representatividad de la media
detectado por medio del coeficiente de variabilidad, se da en la tabla
siguiente:
Valor
del C V
|
Grado
en que la media representa a la serie
|
0 –
10
|
Media
altamente representativa
|
10 –
20
|
Media
bastante representativa
|
20 –
30
|
Media
con representatividad
|
30 –
40
|
Media
con representación dudosa
|
De
40% a más
|
Media
carente de representatividad
|