Ejemplos de Kolmogorov. SPSS en Psicología y Ciencias Sociales

Ejemplos de Kolmogorov.  SPSS en Psicología y Ciencias Sociales

Propósito del criterio

El criterio pretende comparar dos distribuciones:

a) empírico con teórico, por ejemplo, uniforme o normal;

b) una distribución empírica con otra distribución empírica.

El criterio permite encontrar el punto en el que la suma de las discrepancias acumuladas entre dos distribuciones es mayor y evaluar la confiabilidad de esta discrepancia.

Descripción del criterio

Si en el método comparamos las frecuencias de dos distribuciones por separado por el primer dígito, luego por la suma del primer y segundo dígito, luego por la suma del primer, segundo y tercer dígito, etc. Así, comparamos cada vez las frecuencias acumuladas para una categoría determinada.

Si las diferencias entre las dos distribuciones son significativas, entonces en algún momento la diferencia en las frecuencias acumuladas alcanzará un valor crítico y podremos reconocer las diferencias como estadísticamente significativas. Esta diferencia está incluida en la fórmula del criterio. Cuanto mayor sea el valor empírico, más significativas serán las diferencias.

Hipótesis

Las diferencias entre las distribuciones no son fiables (a juzgar por el punto de máxima discrepancia acumulada entre ellas).

: Las diferencias entre las distribuciones son significativas (a juzgar por el punto de máxima discrepancia acumulada entre ellas).

Para aplicar el criterio de Kolmogorov-Smirnov se deben cumplir las siguientes condiciones:

1. La medición se puede realizar en una escala de intervalos y de proporciones.

2. Las muestras deben ser aleatorias e independientes.

3. Es deseable que el volumen total de dos muestras sea ≥ 50. A medida que aumenta el volumen de la muestra, aumenta la precisión del criterio.

4. Los datos empíricos deben permitir la posibilidad de ordenar en orden ascendente o descendente cualquier característica y necesariamente deben reflejar algún tipo de cambio unidireccional. En el caso de que sea difícil cumplir con el principio de ordenación de una característica, es mejor utilizar el criterio ji-cuadrado.

Este criterio se utiliza para resolver los mismos problemas que el criterio. xi-cuadrado. En otras palabras, se puede utilizar para comparar una distribución empírica con una teórica o dos distribuciones empíricas entre sí. Sin embargo, si al usar ji-cuadrado comparamos las frecuencias de dos distribuciones, luego en este criterio se comparan las frecuencias acumuladas (acumuladas) para cada categoría (alternativa). Además, si la diferencia en las frecuencias acumuladas en dos distribuciones resulta ser grande, entonces las diferencias entre las dos distribuciones son significativas.

Problema 8.12. Supongamos que en un experimento un psicólogo necesita utilizar un dado de seis caras con números en los lados del 1 al 6. Para la pureza del experimento, es necesario obtener un dado "ideal", es decir de modo que con un número suficientemente grande de lanzamientos, cada una de sus caras aterrizaría aproximadamente un número igual de veces. La tarea es descubrir si un cubo dado será cercano al ideal.

Solución. Lancemos el cubo 120 veces y comparemos la distribución empírica resultante con la teórica. Dado que la distribución teórica es igualmente probable, las frecuencias teóricas correspondientes son iguales a 20. Presentamos la distribución de frecuencias empíricas y teóricas juntas en la Tabla 8.15:

Para calcular utilizando el criterio de Kolmogorov-Smirnov, es necesario realizar una serie de transformaciones con los datos de la tabla 8.15. Presentemos estas transformaciones en la Tabla 8.16 y expliquemos cómo se obtuvieron:

Símbolo F.E. en la Tabla 8.16 denotaremos las frecuencias teóricas acumuladas. En la tabla se obtienen de la siguiente manera: a la primera frecuencia teórica 20, se le suma la segunda frecuencia, también igual a 20, para obtener el número 20 + 20 = 40. Se pone el número 40 en lugar de la segunda frecuencia. Luego se suma la siguiente frecuencia teórica al número 40, el valor resultante 60 se coloca en lugar de la tercera frecuencia teórica, y así sucesivamente.

Símbolo pensión completa El cuadro 8.16 indica las frecuencias empíricas acumuladas. Para calcularlas es necesario ordenar las frecuencias empíricas en orden ascendente: 15, 18, 18, 21, 23, 25 y luego sumarlas en orden. Entonces, primero se tiene la primera frecuencia igual a 15, se le suma la segunda frecuencia más alta y la suma resultante 15 + 18 = 33 se coloca en lugar de la segunda frecuencia, luego se suma 18 a 33 (33 + 18 = 51 ), el número resultante 51 se coloca en lugar de las terceras frecuencias, etc.

Símbolo |FE- facebook| La Tabla 8.16 indica los valores absolutos de la diferencia entre las frecuencias teóricas y empíricas para cada columna por separado.

El valor empírico de este criterio, que se denota como D emp se obtiene usando la fórmula (8.13):

Para obtenerlo entre los números. |FE-FB| encuentre el número máximo (en nuestro caso es 9) y divídalo por el tamaño de la muestra PAG. En nuestro caso PAG= 120, entonces

Para este criterio, se proporciona una tabla con valores críticos en el Apéndice 1 bajo el No. 13. Sin embargo, de la Tabla 13 del Apéndice 1 se deduce que si el número de elementos en la muestra es superior a 100, entonces los valores ​​de los valores críticos se calculan mediante la fórmula (8.14).

Descripción del criterio

La prueba clásica de Kolmogorov (a veces llamada prueba de Kolmogorov-Smirnov) está diseñada para probar hipótesis simples sobre si la muestra analizada pertenece a alguna ley de distribución completamente conocida.

Sea una muestra de variables aleatorias independientes distribuidas idénticamente, sea una función de distribución empírica y sea una función de distribución "verdadera" con parámetros conocidos. Las estadísticas de criterio están determinadas por la expresión:

Denotemos por la hipótesis de que la muestra obedece a la distribución. Entonces, según el teorema de Kolmogorov, si la hipótesis que se está probando es cierta:

0:%20%5Cquad%20%5Clim_%7Bn%20%5Cto%20%5Cinfty%7DP(%5Csqrt%7Bn%7D%20D_n%20%5Cleq%20t)=K(t)=%5Csum_%7Bj=- %5Cinfty%7D%5E%7B+%5Cinfty%7D(-1)%5Ej%20%5Cmathrm%7Be%7D%5E%7B-2j%5E2t%5E2%7D." alt="\forall t >0: \quad \lim_(n \to \infty)P(\sqrt(n) D_n \leq t)=K(t)=\sum_(j=-\infty)^(+\infty)(-1 )^j \mathrm(e)^(-2j^2t^2).">!}

La hipótesis se rechaza si el estadístico excede un cuantil de la distribución de un nivel de significancia determinado, y se acepta en caso contrario.

Nota: En el criterio de Kolmogorov es recomendable utilizar estadísticas con la corrección de Bolshev: . La distribución de esta estadística, si la hipótesis que se está probando es cierta, converge rápidamente a la distribución de Kolmogorov y al 25%20" alt=" n>25"> зависимостью от объема выборки можно пренебречь.!}

Usar una prueba para probar la normalidad

En este caso, se utiliza el criterio de Kolmogorov para probar la hipótesis de que la muestra observada pertenece a la ley normal, cuyos parámetros se estiman a partir de esta misma muestra mediante el método de máxima verosimilitud. Es decir, está comprobado. hipótesis compleja y las estimaciones muestrales de la media y la varianza se utilizan como estimaciones de los parámetros de la ley normal.

En este caso (Lillefors), se utilizaron estadísticas modificadas del formulario:

.

Los valores críticos para las estadísticas se dan en la siguiente tabla (Lillefors):

0,15 0,10 0,05 0,03 0,01
0,775 0,819 0,895 0,955 1,035

Probando hipótesis complejas

Al probar hipótesis complejas, cuando los parámetros de la ley con la que se prueba la concordancia se estiman a partir de una muestra, las pruebas de concordancia no paramétricas pierden la propiedad de estar libres de distribución (Kac, Kiefer, Wolfowitz). Al probar hipótesis complejas, las distribuciones condicionales de las estadísticas de las pruebas de bondad de ajuste no paramétricas (y la prueba de Kolmogorov) dependen de varios factores: del tipo de ley observada correspondiente a la hipótesis justa que se está probando; del tipo de parámetro que se evalúa y del número de parámetros que se evalúan; en algunos casos, sobre un valor de parámetro específico (por ejemplo, en el caso de familias de distribuciones gamma y beta); sobre el método de estimación de parámetros.

Las diferencias en las distribuciones marginales de las mismas estadísticas al probar hipótesis simples y complejas son tan significativas que bajo ninguna circunstancia deben descuidarse.

Para obtener información sobre la aplicación del criterio de Kolmogorov para probar diversas hipótesis complejas, consulte el sitio web de la Universidad Técnica Estatal de Novosibirsk:

  • Análisis de datos estadísticos, modelización y estudio de patrones probabilísticos. Enfoque informático: monografía. – Novosibirsk: Editorial NSTU, 2011. – 888 p. (capítulos 3 y 4)
  • Modelos de distribuciones de estadísticas de pruebas de bondad de ajuste no paramétricas al probar hipótesis complejas utilizando estimaciones de máxima verosimilitud. Parte I // Tecnología de medición. 2009. N° 6. – P.3-11.
  • Modelos de distribuciones de estadísticas de pruebas de bondad de ajuste no paramétricas al probar hipótesis complejas utilizando estimaciones de máxima verosimilitud. Parte II // Tecnología de medición. 2009. N° 8. – P.17-26.

Literatura

  1. Kolmogoroff A.N. Sulla determinazione empirica di una legge di distribuzione // Giornale dell` Istituto Italiano degly Attuari. 1933.-vol. 4. – N° 1. – Pág. 83-91.
  2. Bolshev L.N., Smirnov N.V. Tablas de estadística matemática. M.: Nauka, 1983.
  3. Lilliefors H.W. Sobre la prueba de normalidad de Kolmogorov-Smirnov con media y varianza desconocidas // J. Am. Estadístico. Asociado, 1967. V.62. – P.399-402.
  4. Kac M., Kiefer J., Wolfowitz J. Sobre pruebas de normalidad y otras pruebas de bondad de ajuste basadas en métodos de distancia // Ann. Matemáticas. Estat., 1955. V.26. – Págs.189-211.
  5. Recomendaciones para la estandarización. Estadísticas aplicadas. Reglas para comprobar la concordancia de la distribución experimental con la teórica. Parte II. Pruebas no paramétricas. – M.: Editorial de normas. 2002. – 64 págs.

Anteriormente se consideraron hipótesis en las que se suponía que se conocía la ley de distribución de la población. Ahora comenzaremos a probar hipótesis sobre la supuesta ley de distribución desconocida, es decir, probaremos la hipótesis nula de que la población se distribuye según alguna ley conocida. Normalmente, las pruebas estadísticas para probar tales hipótesis se denominan criterios de consentimiento.

Criterio de acuerdo se denomina criterio para probar una hipótesis sobre la ley supuesta de una distribución desconocida. Es una medida numérica de la discrepancia entre la distribución empírica y teórica.

La tarea principal. Se da la distribución empírica (muestra). Haga una suposición (presente una hipótesis) sobre el tipo de distribución teórica y pruebe la hipótesis en un nivel de significancia dado α.

La solución al problema principal consta de dos partes:

1. Proponer una hipótesis.

2. Probar la hipótesis a un nivel de significancia determinado.

Veamos estas partes en detalle.

1. Selección de hipótesis Es conveniente determinar el tipo de distribución teórica mediante polígonos o histogramas de frecuencia. Compare el polígono empírico (o histograma) con leyes de distribución conocidas y seleccione el más adecuado.

A continuación se muestran gráficos de las leyes de distribución más importantes:

En las figuras se muestran ejemplos de leyes de distribución empíricas:



En el caso (a), se plantea la hipótesis de distribución normal, en el caso (b), la hipótesis de distribución uniforme, en el caso (c), la hipótesis de distribución de Poisson.

La base para plantear una hipótesis sobre la distribución teórica pueden ser premisas teóricas sobre la naturaleza del cambio en la característica. Por ejemplo, cumplir las condiciones del teorema de Lyapunov nos permite formular una hipótesis sobre la distribución normal. La igualdad de media y varianza sugiere una distribución de Poisson.

En la práctica, la mayoría de las veces nos encontramos con una distribución normal, por lo que en nuestras tareas solo necesitamos probar la hipótesis de una distribución normal.

Evaluación de la hipótesis sobre la distribución teórica responde a la pregunta: ¿puede la discrepancia entre las supuestas distribuciones teórica y empírica considerarse aleatoria, insignificante, explicada por la aleatoriedad de ciertos objetos incluidos en la muestra, o esta discrepancia indica una discrepancia significativa entre las distribuciones? Existen varios métodos de verificación (criterios de bondad de ajuste) - c 2 (chi-cuadrado), Kolmogorov, Romanovsky, etc.

Criterio de Pearson.

La ventaja del criterio de Pearson es su universalidad: puede utilizarse para probar hipótesis sobre diversas leyes de distribución.

1. Probar la hipótesis de distribución normal. Dejemos que se obtenga una muestra suficientemente grande. PAG con una gran cantidad de opciones de significados diferentes. Para facilitar su procesamiento, dividimos el intervalo desde el valor más pequeño al más grande de la opción en s partes iguales y asumiremos que los valores de las opciones que caen en cada intervalo son aproximadamente iguales al número que especifica la mitad del intervalo. Al contar el número de opciones que caen en cada intervalo, crearemos la llamada muestra agrupada:

opciones………….. X 1 X 2 … xs

frecuencias…………. PAG 1 PAG 2 … n s ,

Dónde xyo son los valores de los puntos medios de los intervalos, y n yo– número de opciones incluidas en i-intervalo (frecuencias empíricas). A partir de los datos obtenidos, se puede calcular la media muestral y la desviación estándar muestral. σB. Comprobemos el supuesto de que la población se distribuye según una ley normal con parámetros. METRO(X) = , D(X) = . Luego puedes encontrar la cantidad de números del tamaño de la muestra. PAG, que debería aparecer en cada intervalo bajo este supuesto (es decir, frecuencias teóricas). Para ello, utilizando la tabla de valores de la función de Laplace, encontramos la probabilidad de entrar en iésimo intervalo:

,

Dónde y yo Y b yo- límites i-ésimo intervalo. Multiplicando las probabilidades obtenidas por el tamaño de muestra n, encontramos las frecuencias teóricas: p i = n · p i Nuestro objetivo es comparar las frecuencias empíricas y teóricas, que, por supuesto, difieren entre sí, y descubrir si estas diferencias son insignificantes y no refutan la hipótesis de una distribución normal de la variable aleatoria en estudio, o si son tan grandes que contradicen esta hipótesis. Para ello se utiliza un criterio en forma de variable aleatoria.

. (7)

Su significado es obvio: se suman las partes que forman los cuadrados de las desviaciones de las frecuencias empíricas de las teóricas a partir de las frecuencias teóricas correspondientes. Se puede demostrar que, independientemente de la ley de distribución real de la población general, la ley de distribución de la variable aleatoria (7) tiende a la ley de distribución con el número de grados de libertad. k = s – 1 – r, Dónde r– el número de parámetros de la distribución esperada estimados a partir de los datos de la muestra. La distribución normal se caracteriza por dos parámetros, por lo tanto k = s – 3. Para el criterio seleccionado, se construye una región crítica del lado derecho, determinada por la condición

(8)

Dónde α - Nivel significativo. En consecuencia, la región crítica está dada por la desigualdad y el área de aceptación de la hipótesis es .

Entonces, para probar la hipótesis nula norte 0: la población tiene una distribución normal; es necesario calcular el valor observado del criterio a partir de la muestra:

, (7`)

y usando la tabla de puntos críticos de la distribución χ 2, encuentre el punto crítico usando valores conocidos de α y k = s – 3. Si - se acepta la hipótesis nula, si se rechaza.

Ejemplo. Los resultados del estudio de demanda del producto se presentan en la tabla:

Plantee una hipótesis sobre el tipo de distribución y pruébela en el nivel de significancia de a=0,01.

I. Proponer una hipótesis.

Para indicar el tipo de distribución empírica, construiremos un histograma.


120 160 180 200 220 280

Según la apariencia del histograma, se puede hacer una suposición sobre la distribución normal de la característica que se estudia en la población general.

II. Comprobemos la hipótesis sobre la distribución normal utilizando la prueba de bondad de ajuste de Pearson.

1. Calcule , s B. Como opción, tome la media aritmética de los extremos de los intervalos:

2. Encuentre los intervalos (Z i ; Z i+1): ; .

Tomemos (-¥) como el extremo izquierdo del primer intervalo y (+¥) como el extremo derecho del último intervalo. Los resultados se presentan en la tabla. 4.

3. Encontremos las probabilidades teóricas Р i y las frecuencias teóricas (ver Tabla 4).

Tabla 4

i Límite de intervalo Ф(Zi) Ф(Z i+1) P i = Ф(Z i+1)-Ф(Z i)
xyo xyo+1 Z yo Zi+1
-1,14 -0,5 -0,3729 0,1271 6,36
-1,14 -0,52 -0,3729 -0,1985 0,1744 8,72
-0,52 0,11 -0,1985 0,0438 0,2423 12,12
0,11 0,73 0,0438 0,2673 0,2235 11,18
0,73 0,2673 0,5 0,2327 11,64

4. Comparemos frecuencias empíricas y teóricas. Para esto:

a) calcular el valor observado del criterio de Pearson.

Los cálculos se presentan en la Tabla 5.

Tabla 5

i
6,36 -1,36 1,8496 0,291
8,72 1,28 1,6384 0,188
12,12 1,88 3,5344 0,292
11,18 0,82 0,6724 0,060
11,64 -2,64 6,9696 0,599
S

b) utilizando la tabla de puntos críticos de la distribución c 2 para un nivel de significancia dado a=0,01 y el número de grados de libertad k=m–3=5–3=2, encontramos el punto crítico; tenemos .

Comparar c. . En consecuencia, no hay razón para rechazar la hipótesis sobre la ley de distribución normal de la característica estudiada de la población general. Aquellos. la discrepancia entre las frecuencias empíricas y teóricas es insignificante (aleatoria). ◄

Comentario. Intervalos que contienen pequeñas frecuencias empíricas (n i<5), следует объединить, а частоты этих интервалов сложить. Если производилось объединение интервалов, то при определении числа степеней свободы по формуле K=m-3 следует в качестве m принять число оставшихся после объединения интервалов.

2. Probar la hipótesis de distribución uniforme. Cuando se utiliza la prueba de Pearson para probar la hipótesis de que la población está distribuida uniformemente con la densidad de probabilidad estimada

Es necesario, habiendo calculado el valor a partir de la muestra disponible, estimar los parámetros. A Y b según las fórmulas:

Dónde A* Y b*- evaluaciones A Y b. De hecho, para una distribución uniforme METRO(X) = , , donde puede obtener un sistema para determinar A* Y b*: , cuya solución son las expresiones (9).

Entonces, suponiendo que , puedes encontrar las frecuencias teóricas usando las fórmulas

Aquí s– el número de intervalos en los que se divide la muestra.

El valor observado del criterio de Pearson se calcula mediante la fórmula (7`), y el valor crítico se calcula utilizando la tabla, teniendo en cuenta el hecho de que el número de grados de libertad k = s – 3. Después de esto, los límites de la región crítica se determinan de la misma manera que para probar la hipótesis de una distribución normal.

3. Probar la hipótesis sobre la distribución exponencial. En este caso, habiendo dividido la muestra existente en intervalos de igual longitud, consideramos la secuencia de opciones, igualmente espaciadas entre sí (asumimos que todas las opciones que caen en i- ésimo intervalo, tomar un valor coincidente con su punto medio), y sus correspondientes frecuencias n yo(número de opciones de muestra incluidas en i– ésimo intervalo). Calculemos a partir de estos datos y tomemos como estimación del parámetro λ tamaño. Luego las frecuencias teóricas se calculan mediante la fórmula

Luego se comparan los valores observado y crítico del criterio de Pearson, teniendo en cuenta que el número de grados de libertad k = s – 2.

Ejemplo. Para una muestra cuya serie estadística de intervalo tiene la forma

comprobar en el nivel de significancia α = 0,05 hipótesis o.

En la práctica, además del criterio χ 2, a menudo se utiliza el criterio de Kolmogorov, en el que el valor absoluto máximo de la diferencia entre la función de distribución empírica y la función de distribución teórica correspondiente se considera como una medida de la discrepancia entre la teórica y la distribuciones empíricas

llamado estadístico de prueba de Kolmogorov.

Al establecer el nivel de significancia α, puede encontrar el valor crítico correspondiente

La tabla muestra los valores críticos del criterio de Kolmogorov para algunos α.

Tabla 4.2.

Esquema de aplicación del criterio de Kolmogorov.

1. Se construyen una función de distribución empírica y una función de distribución teórica estimada. F(x).

2. Se determina el estadístico D de Kolmogorov: se calcula una medida de la discrepancia entre la distribución teórica y empírica y el valor.

3. Si el valor calculado λ es mayor que el valor crítico, entonces se rechaza la hipótesis nula H 0 de que la variable aleatoria X tiene una ley de distribución determinada.

Si , entonces creen que la hipótesis H 0 no contradice los datos experimentales.

Ejemplo. Utilizando la prueba de Kolmogorov en el nivel de significancia α = 0,05, pruebe la hipótesis H 0 de que la variable aleatoria X, la producción de los trabajadores de la empresa, tiene una ley de distribución normal.

Solución. 1. Construyamos funciones de distribución empíricas y teóricas.

La función de distribución empírica se construye utilizando las frecuencias relativas acumuladas.

Construiremos la función de distribución teórica según la fórmula.

Dónde

Resumamos los resultados del cálculo en una tabla:

Tabla 4.3.

Pregunta 3

λ - Criterio de Kolmogorov-Smirnov

Propósito del criterio

Criterio λ Se pretende comparar dos distribuciones:

A) empírico con teórico, por ejemplo, uniforme o normal;

hueso empírico distribución con otro empírico distribución.

El criterio permite encontrar el punto en el que la suma de las discrepancias acumuladas entre dos distribuciones es mayor y evaluar la confiabilidad de esta discrepancia.

Descripción del criterio

Si en el método χ 2 comparamos las frecuencias de dos distribuciones por separado para cada dígito, aquí primero comparamos las frecuencias del primer dígito, luego de la suma del primer y segundo dígito, luego de la suma del primero, segundo y terceros dígitos, etc. Así, comparamos cada vez las frecuencias acumuladas para una determinada categoría.

Si las diferencias entre las dos distribuciones son significativas, entonces en algún momento la diferencia en las frecuencias acumuladas alcanzará un valor crítico y podremos reconocer las diferencias como estadísticamente significativas. En la fórmula del criterio λ esta diferencia está incluida. Cuanto mayor sea el valor empírico λ , más significativas son las diferencias.

Hipótesis -

H 0: Las diferencias entre ambas distribuciones no son significativas (a juzgar por el punto de máxima discrepancia acumulada entre ellas).

H 1: Las diferencias entre ambas distribuciones son significativas (a juzgar por el punto de máxima discrepancia acumulada entre ellas).

Representación gráfica del criterio.

A modo de ilustración, considere la distribución del color amarillo (No. 4) en la prueba de 8 colores de M. Luscher. Si los sujetos eligieran colores al azar, entonces el amarillo, como todos los demás, podría igualmente ocupar cualquiera de las 8 posiciones de elección. En la práctica, sin embargo, la mayoría de los sujetos colocan este color, el “color de la expectativa y la esperanza”, en una de las primeras posiciones de la fila.

En la Fig. 4.9 columnas muestran las frecuencias relativas 8 de que el amarillo golpee primero en la 1.ª posición (primera columna izquierda), luego en la 1.ª y 2.ª posiciones (segunda columna), luego en la 1.ª, 2.ª y 3.ª posiciones, etc. Vemos que la altura de las barras aumentan constantemente, ya que reflejan las frecuencias relativas acumuladas en una posición determinada. Por ejemplo, la barra en la 3ª posición tiene una altura de 0,51. Esto significa que el amarillo ocupa las tres primeras posiciones el 51% de los sujetos.

8 La frecuencia relativa, o incidencia, es la frecuencia dividida por el número total de observaciones; en este caso, esta es la frecuencia con la que el color amarillo llega a una posición determinada, en relación con el número de sujetos. Por ejemplo, la frecuencia con la que el amarillo llega a la primera posición es ƒ=24; número de sujetos n=102; frecuencia relativa ƒ*=ƒ/n=О.235.

La línea discontinua en la Fig. La Figura 4.9 conecta los puntos que reflejan las frecuencias acumuladas que se observarían si el color amarillo cayera con igual probabilidad en cada una de las 8 posiciones. Las líneas continuas indican discrepancias entre las frecuencias relativas empíricas y teóricas. Estas discrepancias se denominan d.

Figura 4.9. Comparaciones en el criterio λ: las flechas indican discrepancias entre acumulaciones empíricas y teóricas de frecuencias relativas para cada categoría

La máxima discrepancia en la Fig. 4.9 se designa como dmax Es esta posición del tercer color el punto de inflexión que determina si una distribución empírica dada difiere de manera confiable de una uniforme. Comprobaremos esto observando el Ejemplo 1.

Limitaciones del criterioλ

1. Los criterios requieren que la muestra sea lo suficientemente grande. Al comparar dos distribuciones empíricas, es necesario que n 1,2 > 50. A veces se permite la comparación de la distribución empírica con la teórica para n > 5 (Van der Waerden B.L., 1960; Gubler E.V., 1978).

2. Las categorías deberán ordenarse en orden ascendente o descendente de cualquier atributo. Necesariamente deben reflejar algún tipo de cambio unidireccional. Por ejemplo, podemos tomar como altas los días de la semana, el 1º, 2º, 3º mes después de completar un ciclo de terapia, un aumento de la temperatura corporal, una mayor sensación de insuficiencia, etc. Al mismo tiempo, si tomamos las descargas que accidentalmente resultaron estar alineadas en una secuencia determinada, entonces la acumulación de frecuencias reflejará solo este elemento de la proximidad aleatoria de las descargas. Por ejemplo, si se presentan seis imágenes de estímulo en el método de Heckhausen a diferentes sujetos en diferentes órdenes, no podemos hablar de la acumulación de reacciones durante la transición de la imagen número 1 del conjunto estándar a la imagen número 2, etc. hablar de un cambio unidireccional en un signo durante las categorías de comparación "orden de nacimiento", "nacionalidad", "especificidades de la educación recibida", etc. Estos datos representan escalas nominativas: no contienen ningún cambio unidireccional inequívoco en el atributo.

Por tanto, no podemos acumular frecuencias en categorías que difieren sólo cualitativamente y no representan una escala de orden. En todos los casos en los que los rangos no estén ordenados en orden ascendente o descendente de algún atributo, debemos utilizar el método χ 2 .

Ejemplo 1:Comparación de la distribución empírica con la teórica

En una muestra de varones sanos, estudiantes de universidades técnicas y técnico-militares con edades comprendidas entre 19 y 22 años, edad promedio 20 años, se realizó la prueba de Luscher en una versión de 8 colores. Se encontró que los sujetos prefieren el color amarillo con más frecuencia que el rechazado (Tabla 4.16). ¿Es posible decir que la distribución del color amarillo en 8 posiciones en sujetos sanos difiere de una distribución uniforme?

Cuadro 4.16

Frecuencias empíricas de color amarillo para cada una de las 8 posiciones (n=102)

Posiciones amarillas

Frecuencias empíricas

Formulemos hipótesis.

H 0: La distribución empírica del amarillo en las ocho posiciones no difiere de la distribución uniforme.

H 1: La distribución empírica del amarillo en las ocho posiciones difiere de la distribución uniforme.

Ahora comencemos los cálculos, llenando gradualmente la tabla de cálculo del criterio λ con los resultados. . Es mejor realizar un seguimiento de todas las operaciones utilizando Table. 4.17, entonces serán más comprensibles.

Ingresemos en la tabla los nombres (números) de las descargas y las frecuencias empíricas correspondientes (primera columna de la Tabla 4.17).

Luego calculamos las frecuencias empíricas ƒ* usando la fórmula:

ƒ* j= ƒ*/ norte

Dónde fj - frecuencia con la que el color amarillo llega a una posición determinada; n - número total de observaciones;

j - número de posición en orden.

Escribamos los resultados en la segunda columna (ver Tabla 4.17).

Ahora necesitamos contar las frecuencias empíricas acumuladas. ∑ƒ*. Para ello, sumaremos las frecuencias empíricas ƒ*. Por ejemplo, para la 1ª categoría, la frecuencia empírica acumulada será igual a la frecuencia empírica de la 1ª categoría, Eƒ* 1 =0,235 9 .

Para la 2ª categoría, la frecuencia empírica acumulada será la suma de las frecuencias empíricas de la 1ª y 2ª categoría:

Eƒ* 1+2 =O,235+0,147=0,382

Para la 3ª categoría, la frecuencia empírica acumulada será la suma de las frecuencias empíricas de la 1ª, 2ª y 3ª categorías:

Eƒ* 1+2+3 =0,235+0,147+0,128=0,510

Vemos que podemos simplificar el problema sumando la frecuencia empírica acumulada del dígito anterior con la frecuencia empírica de este dígito, por ejemplo, para el 4º dígito:

Eƒ* 1+2+3+4 =0,510+0,078=O,588

Escribamos los resultados de este trabajo en la tercera columna.

Ahora necesitamos comparar las frecuencias empíricas acumuladas con las frecuencias teóricas acumuladas. Para la 1ª categoría, la frecuencia teórica está determinada por la fórmula:

F* teoría = 1/k

9 Todas las fórmulas se dan para características discretas que se pueden expresar en números enteros, por ejemplo: número de serie, número de sujetos, composición cuantitativa del grupo, etc.

Dónde k - el número de dígitos (en este caso, posiciones de color).

Para el ejemplo en cuestión:

F * teoría =1/8=0,125

Esta frecuencia teórica se aplica a los 8 bits. De hecho, la probabilidad de que el color amarillo (o cualquier otro) caiga en cada una de las 8 posiciones en una selección aleatoria es 1/8, es decir 0,125.

Las frecuencias teóricas acumuladas para cada dígito se determinan mediante sumatoria.

Para la 1ª categoría, la frecuencia teórica acumulada es igual a la frecuencia teórica de acceso a la categoría:

F *t1 =0,125

Para la 2ª categoría, la frecuencia teórica acumulada es la suma de las frecuencias teóricas de la 1ª y 2ª categoría:

F *t1+2 =0,125+0,125=0,250

Para la 3ª categoría, la frecuencia teórica acumulada es la suma de la frecuencia teórica acumulada a la categoría anterior con la frecuencia teórica de esta categoría:

F *t1+2+3 =0,250+0,125=0,375

Las frecuencias teóricas acumuladas también se pueden determinar mediante la multiplicación:

S F * t j = F *teor* j

Dónde F * teoría - frecuencia teórica;

j es el número de serie del dígito.

Ingresemos las frecuencias teóricas acumuladas calculadas en la cuarta columna de la tabla (Tabla 4.17).

Ahora solo nos queda calcular las diferencias entre las frecuencias acumuladas empíricas y teóricas (columnas 3 y 4). La quinta columna contiene los valores absolutos de estas diferencias, denotados como d.

Determinemos a partir de la columna 5 cuál de los valores absolutos de la diferencia es el mayor. Se llamará d máx. En este caso d máx = 0,135.

Ahora tenemos que pasar a la tabla. X Apéndice 1 para determinar los valores críticos dmax con n=102.

Cuadro 4.17

Cálculo del criterio al comparar la distribución de opciones amarillas con una distribución uniforme (n=102)

Posición amarilla

Frecuencia empírica

Frecuencia empírica

Frecuencia empírica acumulada

Frecuencia teórica acumulada

Diferencia

Para este caso, por lo tanto,

Obviamente, cuanto más difieren las distribuciones, mayores son las diferencias en las frecuencias acumuladas. Por tanto, no nos resultará difícil distribuir zonas de importancia e insignificancia a lo largo del eje correspondiente:

d em - d cr

Respuesta: Pero se rechaza en p=0,05. La distribución del color amarillo en ocho posiciones difiere de la distribución uniforme. Presentemos todas las acciones realizadas en forma de algoritmo.

ALGORITMO 14

Cálculo del valor absoluto de la diferencia.d entre distribuciones empíricas y uniformes

1. Traer V tabla de los nombres de las categorías y las frecuencias empíricas correspondientes (primera columna).

ƒ* em = ƒ em /norte

Dónde ƒ em- frecuencia empírica para una categoría determinada;

PAG- número total de observaciones.

Ingrese los resultados en la segunda columna.

F* j=∑ F* j -1 + F* j

Dónde F* j -1

j - número de serie del dígito;

f* j: - frecuencia empírica de una descarga j-ro dada.

Ingrese los resultados en la tercera columna de la tabla.

F*Tj=∑ F*Tj -1 + F*Tj

Dónde =∑ F*Tj -1 - frecuencia teórica acumulada en descargas anteriores;

j - número de serie del dígito;

ƒ* t j: - frecuencia teórica de una descarga determinada. Ingrese los resultados en la tercera columna de la tabla.

5.Calcular las diferencias entre las frecuencias acumuladas empíricas y teóricas para cada dígito (entre los valores de la 3ª y 4ª columna).

6.Escribe en la quinta columna los valores absolutos de las diferencias obtenidas, sin su signo. Etiquetarlos como d.

7. Determine el valor absoluto más grande de la diferencia de la quinta columna: dmax .

8. Según la tabla. X Apéndice 1 determinar o calcular valores críticos dmax para un número dado de observaciones norte.

Si dmax igual al valor crítico d o lo supera, las diferencias entre las distribuciones son significativas.

Ejemplo 2: emparejar dosdistribuciones empíricas

Es interesante comparar los datos obtenidos en el ejemplo anterior con los datos de la encuesta de X. Klar a 800 sujetos (Klar H., 1974, p. 67). X. Clar demostró que el amarillo es el único color cuya distribución en 8 posiciones no difiere del uniforme. Para las comparaciones utilizaron el método χ 2 . Las frecuencias empíricas que obtuvo se presentan en la Tabla. 4.18.

Cuadro 4.18

Frecuencias empíricas de color amarillo para cada una de las 8 posiciones en el estudio de X. Klar (después de: Klar H., 1974) (n=800)

Dígitos de posición amarillos

Frecuencias empíricas

Formulemos hipótesis.

H 0: Las distribuciones empíricas del color amarillo en 8 posiciones en la muestra nacional y la muestra de X. Clara no difieren.

H 1: Las distribuciones empíricas de amarillo en los 8 elementos de la muestra nacional y la muestra de X. Clara son diferentes entre sí.

Dado que en este caso compararemos las frecuencias empíricas acumuladas para cada dígito, no nos interesan las frecuencias teóricas.

Todos los cálculos se realizarán en la tabla utilizando el algoritmo 15.

ALGORITMO 15

Cálculo del criterio λal comparar dos distribuciones empíricas

1. Ingrese en la tabla los nombres de las categorías y las frecuencias empíricas correspondientes obtenidas en la distribución 1 (primera columna) y en la distribución 2 (segunda columna).

ƒ* mi =ƒ mi /norte 1

Dónde ƒ eh

n 1 [ - número de observaciones en la muestra.

Ingrese las frecuencias empíricas de la distribución 1 en la tercera columna.

ƒ* mi =ƒ mi /norte 2

Dónde ƒ eh- frecuencia empírica en una categoría determinada;

norte 2 - número de observaciones en la 2ª muestra.

Ingrese las frecuencias empíricas de la distribución 2 en la cuarta columna de la tabla.

∑ƒ* j =∑ƒ* j -1 +ƒ* j

Dónde ∑ƒ* j -1 - frecuencia acumulada en descargas anteriores;

j - número de serie de la categoría;

ƒ* j -1 - frecuencia de esta descarga.

Escribe los resultados obtenidos en la quinta columna.

7. Determine el valor absoluto más grande de la diferencia de la séptima columna.

donde norte 1 - número de observaciones en la primera muestra;

n 2 - número de observaciones en la segunda muestra.

9. Según tabla. XI Apéndice 1 determinar a qué nivel de significancia estadística corresponde el valor obtenido de λ .

Si λem > 1,36, las diferencias entre las distribuciones son significativas.

La secuencia de muestras se puede elegir arbitrariamente, ya que las discrepancias entre ellas se evalúan por el valor absoluto de las diferencias. En nuestro caso, consideraremos la muestra nacional como la primera y la muestra de Klara como la segunda.

Cuadro 4.19

Cálculo del criterio al comparar distribuciones empíricas.

amarillo en la muestra nacional (n1=102)

y muestra Clara (n2 =: 800)

Posición amarilla

Frecuencias empíricas

Frecuencias empíricas

Se han acumulado detalles empíricos.

Diferencia

∑ƒ* 1 -∑ƒ* 2

∑ƒ* 1

∑ƒ* 2

La diferencia máxima entre las frecuencias empíricas acumuladas es de 0,118 y cae al segundo dígito.

De acuerdo con el párrafo 8 del algoritmo 15, calculamos el valor de λ :

Según la tabla. XI Apéndice 1 determinar el nivel de estadística
significancia del valor obtenido: p=0,16:

Construyamos un eje de significación para mayor claridad.

El eje muestra los valores críticos de λ correspondientes a los niveles de significancia aceptados: λ 0,05 = 1,36, λ 0,01 = 1,63.

La zona de significancia se extiende hacia la derecha, desde 1,63 en adelante, y la zona de insignificancia se extiende hacia la izquierda, desde 1,36 hacia valores inferiores.

λ em< λ кр

Respuesta: Pero se acepta. Las distribuciones empíricas del color amarillo en 8 posiciones en la muestra doméstica y en la muestra de X. Clara son las mismas. Por lo tanto, las distribuciones del color amarillo en las dos muestras no difieren, pero al mismo tiempo se correlacionan de manera diferente con la distribución uniforme: en Klar no se encontraron diferencias con la distribución uniforme, pero en la octava muestra nacional sí se encontraron diferencias. (pag<0,05). Возможно, картину могло бы прояснить применение другого метода?

E.V. Gubler (1978) propuso combinar el uso del criterio λ con el criterio φ* (transformada angular de Fisher).

Hablaremos de estas posibilidades de combinar los métodos λ y φ* en la próxima conferencia.

.5. Algoritmo para seleccionar un criterio para comparar distribuciones.



arriba