jueves, 29 de mayo de 2008

dispersion

medidas de dispersión, por cuanto que están referidos a la variabilidadque exhiben los valores de las observaciones, ya que si no hubiere variabilidad o dispersión en los datos interés, entonces no habría necesidad de la gran mayoría de las medidas de la estadística descriptiva.
Las medidas de tendencia central tienen como objetivo el sintetizar los datos en un valor representativo, las medidas de dispersión nos dicen hasta que punto estas medidas de tendencia central son representativas como síntesis de la información. Las medidas de dispersión cuantifican la separación, la dispersión, la variabilidad de los valores de la distribución respecto al valor central. Distinguimos entre medidas de dispersión absolutas, que no son comparables entre diferentes muestras y las relativas que nos permitirán comparar varias muestras.
LA DISPERSIÓN.
Al igual que sucede con cualquier conjunto de datos, la media, la mediana y la moda sólo nos revelan una parte de la información que necesitamos acerca de las características de los datos. Para aumentar nuestro entendimiento del patrón de los datos, debemos medir también su dispersión, extensión o variabilidad.
La dispersión es importante porque:
Proporciona información adicional que permite juzgar la confiabilidad de la medida de tendencia central. Si los datos se encuentran ampliamente dispersos, la posición central es menos representativa de los datos.
Ya que existen problemas característicos para datos ampliamente dispersos, debemos ser capaces de distinguir que presentan esa dispersión antes de abordar esos problemas.
Quizá se desee comparar las dispersiones de diferentes muestras. Si no se desea tener una amplia dispersión de valores con respecto al centro de distribución o esto presenta riesgos inaceptables, necesitamos tener habilidad de reconocerlo y evitar escoger distribuciones que tengan las dispersiones más grandes.
Pero si hay dispersión en la mayoría de los datos, y debemos estar en capacidad de describirla. Ya que la dispersión ocurre frecuentemente y su grado de variabilidad es importante, ¿cómo medimos la variabilidad de una distribución empírica?. Vamos a considerar sólo algunas medidas de dispersión absolutas: el rango, la varianza, la desviación estándar y el coeficiente de variación.

MEDIDAS DE POSICION


  1. CUANTILES
    Los cuantiles son medidas de posición que se determinan mediante un método que determina la ubicación de los valores que dividen un conjunto de observaciones en partes iguales.
    Los cuantiles son los valores de la distribución que la dividen en partes iguales, es decir, en intervalos que comprenden el mismo número de valores. Cuando la distribución contiene un número alto de intervalos o de marcas y se requiere obtener un promedio de una parte de ella, se puede dividir la distribución en cuatro, en diez o en cien partes.
    Los más usados son los cuartiles, cuando dividen la distribución en cuatro partes; los deciles, cuando dividen la distribución en diez partes y los centiles o percentiles, cuando dividen la distribución en cien partes. Los cuartiles, como los deciles y los percentiles, son en cierta forma una extensión de la mediana.
    Para algunos valores u , se dan nombres particulares a los cuantiles, Q (u):
    u
    Q(u)
    0.5
    Mediana
    0.25, 0.75
    Cuartiles
    0.1, ... , 0.99
    Deciles
    0.01, ..., 0.99
    Centiles

    CUARTILES
    Los cuartiles son los tres valores que dividen al conjunto de datos ordenados en cuatro partes porcentualmente iguales.
    Hay tres cuartiles denotados usualmente Q1, Q2, Q3. El segundo cuartil es precisamente la mediana. El primer cuartil, es el valor en el cual o por debajo del cual queda un cuarto (25%) de todos los valores de la sucesión (ordenada); el tercer cuartil, es el valor en el cual o por debajo del cual quedan las tres cuartas partes (75%) de los datos.
    Datos Agrupados
    Como los cuartiles adquieren su mayor importancia cuando contamos un número grande de datos y tenemos en cuenta que en estos casos generalmente los datos son resumidos en una tabla de frecuencia. La fórmula para el cálculo de los cuartiles cuando se trata de datos agrupados es la siguiente:
    k= 1,2,3
    Donde:
    Lk = Límite real inferior de la clase del cuartil k
    n = Número de datos
    Fk = Frecuencia acumulada de la clase que antecede a la clase del cuartil k.
    fk = Frecuencia de la clase del cuartil k
    c = Longitud del intervalo de la clase del cuartil k
    Si se desea calcular cada cuartil individualmente, mediante otra fórmula se tiene lo siguiente:
    El primer cuartil Q1, es el menor valor que es mayor que una cuarta parte de los datos; es decir, aquel valor de la variable que supera 25% de las observaciones y es superado por el 75% de las observaciones.
    Fórmula de Q1, para series de Datos agrupados:
    Donde:
    L1 = limite inferior de la clase que lo contiene
    P = valor que representa la posición de la medida
    f1 = la frecuencia de la clase que contiene la medida solicitada.
    Fa-1 = frecuencia acumulada anterior a la que contiene la medida solicitada.
    Ic = intervalo de clase
    El segundo cuartil Q2, (coincide, es idéntico o similar a la mediana, Q2 = Md), es el menor valor que es mayor que la mitad de los datos, es decir el 50% de las observaciones son mayores que la mediana y el 50% son menores.
    Fórmula de Q2, para series de Datos agrupados:
    Donde:
    L1 = limite inferior de la clase que lo contiene
    P = valor que representa la posición de la medida
    f1 = la frecuencia de la clase que contiene la medida solicitada.
    Fa-1 = frecuencia acumulada anterior a la que contiene la medida solicitada.
    Ic = intervalo de clase
    El tercer cuartil Q3, es el menor valor que es mayor que tres cuartas partes de los datos, es decir aquel valor de la variable que supera al 75% y es superado por el 25% de las observaciones.
    Fórmula de Q3, para series de Datos agrupados:
    Donde:
    L1 = limite inferior de la clase que lo contiene
    P = valor que representa la posición de la medida
    f1 = la frecuencia de la clase que contiene la medida solicitada.
    Fa-1 = frecuencia acumulada anterior a la que contiene la medida solicitada.
    Ic = intervalo de clase.
    Otra manera de verlo es partir de que todas las medidas no son sino casos particulares del percentil, ya que el primer cuartil es el 25% percentil y el tercer cuartil 75% percentil.

MEDIDAS DE DISPERSION

Las medidas de dispersión muestran la variabilidad de una distribución, indicando por medio de un número si las diferentes puntuaciones de una variable están muy alejadas de la media. Cuanto mayor sea ese valor, mayor será la variabilidad, cuanto menor sea, más homogénea será a la media. Así se sabe si todos los casos son parecidos o varían mucho entre ellos.
Para calcular la variabilidad que una distribución tiene respecto de su media, se calcula la media de las desviaciones de las puntuaciones respecto a la media aritmética. Pero la suma de las desviaciones es siempre cero, así que se adoptan dos clases de estrategias para salvar este problema. Una es tomando las desviaciones en valor absoluto (
Desviación media) y otra es tomando las desviaciones al cuadrado (Varianza).