Métodos de análisis de regresión. El análisis de regresión es un método estadístico para estudiar la dependencia de una variable aleatoria de variables Métodos de análisis de regresión en estadística

Métodos de análisis de regresión.  El análisis de regresión es un método estadístico para estudiar la dependencia de una variable aleatoria de variables Métodos de análisis de regresión en estadística

Análisis de regresión

Regresión (lineal) análisis- un método estadístico para estudiar la influencia de una o más variables independientes sobre una variable dependiente. Las variables independientes también se denominan regresores o predictores, y las variables dependientes se denominan variables criterio. Terminología dependiente Y independiente variables refleja sólo la dependencia matemática de las variables ( ver Falsa correlación), en lugar de relaciones de causa y efecto.

Objetivos del análisis de regresión

  1. Determinación del grado de determinación de la variación de una variable criterio (dependiente) por predictores (variables independientes)
  2. Predecir el valor de una variable dependiente utilizando las variables independientes
  3. Determinar la contribución de las variables independientes individuales a la variación de la variable dependiente

El análisis de regresión no se puede utilizar para determinar si existe una relación entre variables, ya que la presencia de dicha relación es un requisito previo para aplicar el análisis.

Definición matemática de regresión

Una relación estrictamente de regresión se puede definir de la siguiente manera. Sean , variables aleatorias con una distribución de probabilidad conjunta dada. Si para cada conjunto de valores se define una expectativa matemática condicional

(ecuación de regresión en forma general),

entonces se llama a la función regresión valores de Y por valores, y su gráfica es línea de regresión por, o ecuación de regresión.

La dependencia de se manifiesta en el cambio en los valores promedio de Y con un cambio en . Aunque, para cada conjunto fijo de valores, el valor sigue siendo una variable aleatoria con cierta dispersión.

Para aclarar la cuestión de con qué precisión el análisis de regresión estima el cambio en Y cuando cambia, se utiliza el valor promedio de la dispersión de Y para diferentes conjuntos de valores (de hecho, estamos hablando de la medida de dispersión de la variable dependiente alrededor de la línea de regresión).

Método de mínimos cuadrados (cálculo de coeficientes)

En la práctica, la línea de regresión se encuentra con mayor frecuencia en forma de función lineal (regresión lineal), la mejor manera aproximando la curva deseada. Esto se hace usando el método de mínimos cuadrados, cuando se minimiza la suma de las desviaciones al cuadrado de los realmente observados de sus estimaciones (es decir, estimaciones que utilizan una línea recta que pretende representar la relación de regresión deseada):

(M - tamaño de la muestra). Este enfoque se basa en hecho conocido, que el importe que aparece en la expresión anterior adquiere un valor mínimo precisamente para el caso en que .

Para resolver el problema del análisis de regresión utilizando el método de mínimos cuadrados, se introduce el concepto funciones residuales:

Condición mínima para la función residual:

El sistema resultante es un sistema de ecuaciones lineales con incógnitas.

Si representamos los términos libres en el lado izquierdo de las ecuaciones como una matriz

y los coeficientes de las incógnitas del lado derecho son la matriz

luego obtenemos la ecuación matricial: , que se resuelve fácilmente mediante el método de Gauss. La matriz resultante será una matriz que contiene los coeficientes de la ecuación de la recta de regresión:

Para obtener las mejores estimaciones, es necesario cumplir las condiciones previas del MCO (condiciones de Gauss-Markov). En la literatura inglesa, estas estimaciones se denominan BLUE (Mejores estimadores lineales insesgados).

Interpretación de los parámetros de regresión

Los parámetros son coeficientes de correlación parcial; se interpreta como la proporción de la varianza de Y explicada fijando la influencia de los predictores restantes, es decir, mide la contribución individual a la explicación de Y. En el caso de predictores correlacionados, surge el problema de la incertidumbre en las estimaciones, que se vuelven dependientes del orden en que se incluyen los predictores en el modelo. En tales casos, es necesario utilizar métodos de análisis de correlación y regresión por pasos.

Cuando se habla de modelos no lineales de análisis de regresión, es importante prestar atención a si estamos hablando de no linealidad en variables independientes (desde un punto de vista formal, fácilmente reducido a regresión lineal), o de no linealidad en los parámetros estimados (que causan graves problemas). dificultades computacionales). En el caso de la no linealidad del primer tipo, desde un punto de vista sustantivo, es importante resaltar la aparición en el modelo de términos de la forma , , indicando la presencia de interacciones entre características , etc. (ver Multicolinealidad).

ver también

Enlaces

  • www.kgafk.ru - Conferencia sobre el tema "Análisis de regresión"
  • www.basegroup.ru - métodos para seleccionar variables en modelos de regresión

Literatura

  • Norman Draper, Harry Smith Análisis de regresión aplicado. Regresión múltiple = Análisis de regresión aplicada. - 3ª edición. - M.: “Dialéctica”, 2007. - P. 912. - ISBN 0-471-17082-8
  • Métodos robustos de estimación de modelos estadísticos: Monografía. - K.: PP "Sansparel", 2005. - P. 504. - ISBN 966-96574-0-7, UDC: 519.237.5:515.126.2, BBK 22.172+22.152
  • Radchenko Stanislav Grigorievich, Metodología del análisis de regresión: Monografía. - K.: "Korniychuk", 2011. - P. 376. - ISBN 978-966-7599-72-0

Fundación Wikimedia. 2010.

Una vez que el análisis de correlación ha revelado la presencia de relaciones estadísticas entre variables y evaluado el grado de su cercanía, generalmente pasamos a una descripción matemática de un tipo específico de dependencia mediante el análisis de regresión. Para ello, se selecciona una clase de funciones que conecta el indicador resultante y y los argumentos x 1, x 2, ..., x k, se seleccionan los argumentos más informativos, estimaciones de los valores desconocidos de los parámetros del Se calculan las ecuaciones de comunicación y se analizan las propiedades de la ecuación resultante.

La función f(x 1, x 2,..., x k) que describe la dependencia del valor promedio de la característica resultante y de los valores dados de los argumentos se llama función de regresión (ecuación). El término "regresión" (latín -regresión - retirada, regreso a algo) fue introducido por el psicólogo y antropólogo inglés F. Galton y está asociado exclusivamente con las particularidades de uno de los primeros ejemplos específicos, en el que se utilizó este concepto. Así, al procesar datos estadísticos en relación con el análisis de la herencia de la altura, F. Galton encontró que si los padres se desvían de la altura promedio de todos los padres en x pulgadas, entonces sus hijos se desvían de la altura promedio de todos los hijos en menos de x pulgadas. La tendencia identificada se denominó “regresión a la media”. Desde entonces, el término “regresión” ha sido ampliamente utilizado en la literatura estadística, aunque en muchos casos no caracteriza con precisión el concepto de dependencia estadística.

Para describir con precisión la ecuación de regresión, es necesario conocer la ley de distribución del indicador efectivo y. En la práctica estadística, normalmente uno tiene que limitarse a buscar aproximaciones adecuadas para la función de regresión verdadera desconocida, ya que el investigador no tiene un conocimiento preciso de la ley de distribución de probabilidad condicional del indicador resultante analizado y para valores dados de la argumento x.

Consideremos la relación entre verdadero f (x) = M (y1x), ¿regresión del modelo? y estimación de regresión y. Sea el indicador efectivo y relacionado con el argumento x mediante la relación:

donde es una variable aleatoria que tiene una ley de distribución normal, y Me = 0 y D e = y 2. La verdadera función de regresión en este caso tiene la forma: f (x) = M(y/x) = 2x 1,5.

Supongamos que no conocemos la forma exacta de la verdadera ecuación de regresión, pero tenemos nueve observaciones de una variable aleatoria bidimensional relacionada por la relación yi = 2x1,5 + e, y presentada en la figura. 1

Figura 1 - ¿La posición relativa de la verdad f (x) y la teórica? modelos de regresión

Ubicación de los puntos en la Fig. 1 te permite limitarte a una clase dependencias lineales¿amable? = en 0 + en 1 x. Usando el método de mínimos cuadrados, encontramos la estimación de la ecuación de regresión y = b 0 + b 1 x. A modo de comparación, en la Fig. 1 muestra gráficas de la función de regresión verdadera y = 2x 1,5, ¿la función de regresión teórica aproximada? = en 0 + en 1 x .

Dado que cometimos un error al elegir la clase de la función de regresión, y esto es bastante común en la práctica de la investigación estadística, nuestras conclusiones y estimaciones estadísticas resultarán erróneas. Y no importa cuánto aumentemos el volumen de observaciones, nuestra estimación muestral y no estará cerca de la verdadera función de regresión f(x). Si hubiéramos elegido correctamente la clase de funciones de regresión, ¿entonces la inexactitud al describir f(x) usando? sólo podría explicarse por limitaciones de la muestra.

Para restaurar mejor, a partir de los datos estadísticos originales, el valor condicional del indicador efectivo y(x) y la función de regresión desconocida f(x) = M(y/x), lo más recomendable son los siguientes criterios de adecuación (funciones de pérdida): utilizado a menudo.

Método de mínimos cuadrados. Según él, el cuadrado de la desviación de los valores observados del indicador efectivo y, (i = 1,2,..., n) de los valores del modelo,? = f(x i), donde x i es el valor del vector argumento en i-ésima observación: ?(y i - f(x i) 2 > min. La regresión resultante se llama media cuadrática.

Método de módulos más pequeños. Según él, se minimiza la suma de las desviaciones absolutas de los valores observados del indicador efectivo de los valores modulares. ¿Y lo conseguimos? = f(x i), ¿regresión media absoluta media? |y yo - f(x yo)| >mín.

El análisis de regresión es un método de análisis estadístico de la dependencia de una variable aleatoria y de las variables x j = (j = 1,2,..., k), consideradas en el análisis de regresión como variables no aleatorias, independientemente de la verdadera ley de distribución. de xj.

Generalmente se supone que una variable aleatoria y tiene una ley de distribución normal con una expectativa condicional y, que es función de los argumentos x/ (/ = 1, 2,..., k) y una varianza constante y 2 independiente de los argumentos.

Considerándolo todo Modelo lineal El análisis de regresión se ve así:

Y = Sí k j=0 V j ts j(X 1 , X 2 . . .. ,X k)+E

donde q j es alguna función de sus variables - x 1, x 2. . .. ,x k, E es una variable aleatoria con expectativa matemática cero y varianza y 2.

En el análisis de regresión, el tipo de ecuación de regresión se elige en función de la naturaleza física del fenómeno que se estudia y los resultados de la observación.

Las estimaciones de los parámetros desconocidos de la ecuación de regresión generalmente se obtienen utilizando el método de mínimos cuadrados. A continuación nos detendremos en este problema con más detalle.

Bidimensional ecuación lineal regresión. Supongamos, con base en el análisis del fenómeno en estudio, que en “promedio” y tiene función lineal de x, es decir, hay una ecuación de regresión

y=M(y/x)=en 0 + en 1 x)

donde M(y1x) es la expectativa matemática condicional de la variable aleatoria y para un x dado; en 0 y en 1: parámetros desconocidos de la población general, que deben estimarse en base a los resultados de observaciones de muestras.

Supongamos que para estimar los parámetros en 0 y en 1, se toma una muestra de tamaño n de una población bidimensional (x, y), donde (x, y,) es el resultado de la i-ésima observación (i = 1 , 2,..., n). En este caso, el modelo de análisis de regresión tiene la forma:

y j = en 0 + en 1 x+e j .

donde e j son variables aleatorias independientes distribuidas normalmente con expectativa matemática cero y varianza y 2, es decir, M e j. = 0;

D e j .= y 2 para todo i = 1, 2,..., n.

Según el método de mínimos cuadrados, como estimaciones de los parámetros desconocidos en 0 y en 1, se deben tomar valores de las características de la muestra b 0 y b 1 que minimicen la suma de las desviaciones al cuadrado de los valores de la resultante. ¿Característica para i de la expectativa matemática condicional? i

Consideraremos la metodología para determinar la influencia de las características de marketing en las ganancias de una empresa utilizando el ejemplo de diecisiete empresas típicas con tamaños e indicadores de actividad económica promedio.

A la hora de resolver el problema se tuvieron en cuenta las siguientes características, identificadas como las más significativas (importantes) como resultado de la encuesta por cuestionario:

* actividad de innovación empresas;

* planificar la gama de productos producidos;

* formación de una política de precios;

* relaciones públicas;

* sistema de ventas;

* sistema de incentivos a los empleados.

A partir de un sistema de comparaciones por factores se construyeron matrices cuadradas de adyacencia, en las que se calcularon los valores de prioridades relativas para cada factor: actividad innovadora de la empresa, planificación de la gama de productos, formación de una política de precios, publicidad. , relaciones públicas, sistema de ventas, sistema de incentivos a los empleados.

Las estimaciones de prioridades para el factor "relación con el público" se obtuvieron como resultado de una encuesta entre especialistas de empresas. Se aceptan las siguientes notaciones: > (mejor), > (mejor o igual), = (igual),< (хуже или одинаково), <

A continuación, se resolvió el problema de una evaluación integral del nivel de marketing de la empresa. Al calcular el indicador, se determinó la importancia (peso) de las características parciales consideradas y se resolvió el problema de la convolución lineal de indicadores parciales. El procesamiento de datos se llevó a cabo mediante programas especialmente desarrollados.

A continuación, se calcula una evaluación integral del nivel de marketing de la empresa: el coeficiente de marketing, que se ingresa en la Tabla 1. Además, la tabla incluye indicadores que caracterizan a la empresa en su conjunto. Los datos de la tabla se utilizarán para realizar análisis de regresión. El atributo resultante es el beneficio. Junto con el coeficiente de marketing, se utilizaron los siguientes indicadores como características de los factores: volumen de producción bruta, costo de los activos fijos, número de empleados, coeficiente de especialización.

Tabla 1 - Datos iniciales para el análisis de regresión


Según los datos de la tabla y sobre la base de factores con los valores más significativos de los coeficientes de correlación, se construyeron funciones de regresión de la dependencia de la ganancia de los factores.

La ecuación de regresión en nuestro caso tomará la forma:

La influencia cuantitativa de los factores discutidos anteriormente sobre la cantidad de ganancia está indicada por los coeficientes de la ecuación de regresión. Muestran cuántos miles de rublos cambia su valor cuando la característica del factor cambia en una unidad. Como se desprende de la ecuación, un aumento en el coeficiente de marketing mix en una unidad da un aumento en las ganancias de 1547,7 mil rublos. Esto sugiere que mejorar las actividades de marketing tiene un enorme potencial para mejorar el desempeño económico de las empresas.

Al estudiar la eficacia del marketing, el factor más interesante e importante es el factor X5: el coeficiente de marketing. De acuerdo con la teoría de la estadística, la ventaja de la ecuación de regresión múltiple existente es la capacidad de evaluar la influencia aislada de cada factor, incluido el factor de marketing.

Los resultados del análisis de regresión tienen una aplicación más amplia que para calcular los parámetros de la ecuación. El criterio para clasificar las empresas (Kef) como relativamente mejores o relativamente peores se basa en el indicador relativo del resultado:

donde Y facti es el valor real de la i-ésima empresa, miles de rublos;

Y calculado: la cantidad de ganancia de la i-ésima empresa, obtenida mediante cálculo utilizando la ecuación de regresión

En términos del problema a resolver, el valor se denomina “coeficiente de eficiencia”. La actividad de una empresa puede considerarse eficaz en los casos en que el valor del coeficiente sea superior a uno. Esto significa que el beneficio real es mayor que el beneficio medio de la muestra.

Los valores de ganancias reales y estimados se presentan en la tabla. 2.

Tabla 2 - Análisis de la característica resultante en el modelo de regresión

El análisis de la tabla muestra que en nuestro caso, las actividades de las empresas 3, 5, 7, 9, 12, 14, 15, 17 durante el período analizado pueden considerarse exitosas.

Concepto de regresión. Dependencia entre variables X Y y se puede describir de diferentes maneras. En particular, cualquier forma de conexión puede expresarse mediante una ecuación general, donde y tratada como una variable dependiente, o funciones de otro - variable independiente x, llamada argumento. La correspondencia entre un argumento y una función se puede especificar mediante una tabla, fórmula, gráfica, etc. Cambiar una función dependiendo de un cambio en uno o más argumentos se llama regresión. Todos los medios utilizados para describir las correlaciones constituyen el contenido. análisis de regresión.

Para expresar regresión, ecuaciones de correlación o ecuaciones de regresión se utilizan series de regresión calculadas empíricamente y teóricamente, sus gráficas, llamadas líneas de regresión, así como coeficientes de regresión lineal y no lineal.

Los indicadores de regresión expresan la relación de correlación de forma bilateral, teniendo en cuenta los cambios en los valores medios de la característica. Y al cambiar valores X i firmar X y, por el contrario, muestran un cambio en los valores medios de la característica X según los valores modificados y i firmar Y. La excepción son las series temporales, o series temporales, que muestran cambios en las características a lo largo del tiempo. La regresión de tales series es unilateral.

Hay muchas formas y tipos diferentes de correlaciones. La tarea se reduce a identificar la forma de la conexión en cada caso concreto y expresarla con la correspondiente ecuación de correlación, que permita anticipar posibles cambios en una característica. Y basado en cambios conocidos en otro X, relacionado con el primero correlacionalmente.

12.1 Regresión lineal

Ecuación de regresión. Resultados de observaciones realizadas sobre un objeto biológico particular basándose en características correlacionadas. X Y y, se puede representar mediante puntos en un plano construyendo un sistema de coordenadas rectangulares. El resultado es una especie de diagrama de dispersión que permite juzgar la forma y la cercanía de la relación entre diferentes características. Muy a menudo esta relación parece una línea recta o puede aproximarse a ella.

Relación lineal entre variables X Y y se describe mediante una ecuación general, donde a B C D,... – parámetros de la ecuación que determinan las relaciones entre los argumentos X 1 , X 2 , X 3 , …, X metro y funciones.

En la práctica no se tienen en cuenta todos los argumentos posibles, sino sólo algunos; en el caso más sencillo, sólo uno:

En la ecuación de regresión lineal (1) a es el término libre y el parámetro b determina la pendiente de la línea de regresión con respecto a los ejes de coordenadas rectangulares. En geometría analítica este parámetro se llama pendiente, y en biometría – coeficiente de regresion. Una representación visual de este parámetro y la posición de las líneas de regresión. Y Por X Y X Por Y en el sistema de coordenadas rectangular se muestra la Fig. 1.

Arroz. 1 Líneas de regresión de Y por X y X por Y en el sistema

coordenadas rectangulares

Las líneas de regresión, como se muestra en la Fig. 1, se cruzan en el punto O (,), correspondientes a los valores promedio aritméticos de las características correlacionadas entre sí. Y Y X. Al construir gráficos de regresión, los valores de la variable independiente X se trazan a lo largo del eje de abscisas y los valores de la variable dependiente, o función Y, se trazan a lo largo del eje de ordenadas. La línea AB que pasa por el punto O (, ) corresponde a la relación completa (funcional) entre las variables Y Y X, cuando el coeficiente de correlación . Cuanto más fuerte sea la conexión entre Y Y X, cuanto más cerca están las líneas de regresión de AB y, a la inversa, cuanto más débil es la conexión entre estas cantidades, más distantes están las líneas de regresión de AB. Si no hay conexión entre las características, las líneas de regresión forman ángulos rectos entre sí y .

Dado que los indicadores de regresión expresan la relación de correlación de forma bilateral, la ecuación de regresión (1) debe escribirse de la siguiente manera:

La primera fórmula determina los valores promedio cuando cambia la característica. X por unidad de medida, para el segundo: valores promedio al cambiar en una unidad de medida del atributo Y.

Coeficiente de regresion. El coeficiente de regresión muestra cuánto, en promedio, es el valor de una característica. y cambia cuando la medida de otro, correlacionado con, cambia en uno Y firmar X. Este indicador está determinado por la fórmula.

Aqui estan los valores s multiplicado por el tamaño de los intervalos de clase λ , si se encontraron a partir de series de variación o tablas de correlación.

El coeficiente de regresión se puede calcular sin calcular las desviaciones estándar. s y Y s X según la fórmula

Si se desconoce el coeficiente de correlación, el coeficiente de regresión se determina de la siguiente manera:

Relación entre coeficientes de regresión y correlación. Comparando las fórmulas (11.1) (tema 11) y (12.5), vemos: su numerador tiene el mismo valor, lo que indica una conexión entre estos indicadores. Esta relación se expresa por la igualdad.

Por tanto, el coeficiente de correlación es igual a la media geométrica de los coeficientes. b yx Y b xy. La fórmula (6) permite, en primer lugar, basándose en los valores conocidos de los coeficientes de regresión. b yx Y b xy determinar el coeficiente de regresión R xy y en segundo lugar, comprobar la exactitud del cálculo de este indicador de correlación. R xy entre diferentes características X Y Y.

Al igual que el coeficiente de correlación, el coeficiente de regresión caracteriza sólo una relación lineal y va acompañado de un signo más para una relación positiva y un signo menos para una relación negativa.

Determinación de parámetros de regresión lineal. Se sabe que la suma de las desviaciones al cuadrado es una variante. X i del promedio es el valor más pequeño, es decir, este teorema forma la base del método de mínimos cuadrados. En cuanto a la regresión lineal [ver fórmula (1)] el requisito de este teorema se satisface mediante un determinado sistema de ecuaciones llamado normal:

Solución conjunta de estas ecuaciones con respecto a los parámetros. a Y b conduce a los siguientes resultados:

;

;

, desde donde y.

Considerando la naturaleza bidireccional de la relación entre las variables Y Y X, fórmula para determinar el parámetro A debe expresarse así:

Y . (7)

Parámetro b, o coeficiente de regresión, se determina mediante las siguientes fórmulas:

Construcción de series de regresión empírica. Si hay una gran cantidad de observaciones, el análisis de regresión comienza con la construcción de series de regresión empírica. Serie de regresión empírica se forma calculando los valores de una característica variable X valores medios de otro, correlacionados con X firmar Y. En otras palabras, la construcción de series de regresión empírica se reduce a encontrar promedios grupales a partir de los valores correspondientes de las características Y y X.

Una serie de regresión empírica es una serie doble de números que se puede representar mediante puntos en un plano y luego, al conectar estos puntos con segmentos de línea recta, se puede obtener una línea de regresión empírica. Las series de regresión empírica, especialmente sus gráficas, llamadas líneas de regresión, dan una idea clara de la forma y la cercanía de la correlación entre diferentes características.

Alineamiento de series de regresión empírica. Los gráficos de series de regresión empírica resultan, por regla general, no ser líneas suaves, sino líneas discontinuas. Esto se explica por el hecho de que, junto con las razones principales que determinan el patrón general en la variabilidad de las características correlacionadas, su magnitud se ve afectada por la influencia de numerosas razones secundarias que causan fluctuaciones aleatorias en los puntos nodales de regresión. Para identificar la tendencia principal (tendencia) de la variación conjugada de características correlacionadas, es necesario reemplazar las líneas discontinuas con líneas de regresión suaves y fluidas. El proceso de reemplazar líneas discontinuas por líneas suaves se llama alineación de series empíricas Y líneas de regresión.

Método de alineación gráfica. Este es el método más simple que no requiere trabajo computacional. Su esencia se reduce a lo siguiente. La serie de regresión empírica se representa como un gráfico en un sistema de coordenadas rectangular. Luego, se delinean visualmente los puntos medios de regresión, a lo largo de los cuales se dibuja una línea continua usando una regla o patrón. La desventaja de este método es obvia: no excluye la influencia de las propiedades individuales del investigador en los resultados de la alineación de las líneas de regresión empírica. Por lo tanto, en los casos en que se necesita una mayor precisión al reemplazar las líneas de regresión discontinuas por líneas suaves, se utilizan otros métodos para alinear series empíricas.

Método de media móvil. La esencia de este método se reduce al cálculo secuencial de promedios aritméticos de dos o tres términos adyacentes de una serie empírica. Este método es especialmente conveniente en los casos en que la serie empírica está representada por una gran cantidad de términos, de modo que la pérdida de dos de ellos, los extremos, inevitable con este método de alineación, no afectará notablemente su estructura.

Método de mínimos cuadrados. Este método fue propuesto a principios del siglo XIX por A.M. Legendre y, independientemente de él, K. Gauss. Le permite alinear con mayor precisión series empíricas. Este método, como se muestra arriba, se basa en el supuesto de que la suma de las desviaciones al cuadrado es una opción. X i de su promedio hay un valor mínimo, es decir de ahí el nombre del método, que se utiliza no solo en ecología, sino también en tecnología. El método de mínimos cuadrados es objetivo y universal, se utiliza en una amplia variedad de casos para encontrar ecuaciones empíricas para series de regresión y determinar sus parámetros.

El requisito del método de mínimos cuadrados es que los puntos teóricos de la línea de regresión deben obtenerse de tal manera que la suma de las desviaciones al cuadrado de estos puntos para las observaciones empíricas y i era mínimo, es decir

Calculando el mínimo de esta expresión de acuerdo con los principios del análisis matemático y transformándolo de cierta manera, se puede obtener un sistema de los llamados ecuaciones normales, en el que los valores desconocidos son los parámetros requeridos de la ecuación de regresión, y los coeficientes conocidos están determinados por los valores empíricos de las características, generalmente las sumas de sus valores y sus productos cruzados.

Regresión lineal múltiple. La relación entre varias variables suele expresarse mediante una ecuación de regresión múltiple, que puede ser lineal Y no lineal. En su forma más simple, la regresión múltiple se expresa como una ecuación con dos variables independientes ( X, z):

Dónde a– término libre de la ecuación; b Y C– parámetros de la ecuación. Para encontrar los parámetros de la ecuación (10) (usando el método de mínimos cuadrados), se utiliza el siguiente sistema de ecuaciones normales:

Serie dinámica. Alineación de filas. Los cambios en las características a lo largo del tiempo forman los llamados series de tiempo o serie dinámica. Un rasgo característico de tales series es que la variable independiente X aquí es siempre el factor tiempo, y la variable dependiente Y es una característica cambiante. Dependiendo de la serie de regresión, la relación entre las variables X e Y es unilateral, ya que el factor tiempo no depende de la variabilidad de las características. A pesar de estas características, las series dinámicas pueden compararse con series de regresión y procesarse utilizando los mismos métodos.

Al igual que las series de regresión, las series empíricas de dinámica están influenciadas no solo por los factores principales, sino también por numerosos factores secundarios (aleatorios) que oscurecen la tendencia principal en la variabilidad de las características, que en el lenguaje estadístico se llama tendencia.

El análisis de series de tiempo comienza con la identificación de la forma de la tendencia. Para ello, la serie temporal se representa como un gráfico lineal en un sistema de coordenadas rectangular. En este caso, los puntos de tiempo (años, meses y otras unidades de tiempo) se trazan a lo largo del eje de abscisas y los valores de la variable dependiente Y se trazan a lo largo del eje de ordenadas. Si existe una relación lineal entre las variables X e Y (tendencia lineal), el método de mínimos cuadrados es el más apropiado para alinear las series de tiempo es una ecuación de regresión en forma de desviaciones de los términos de la serie de la variable dependiente Y de la media aritmética de la serie de la independiente variableX:

Aquí está el parámetro de regresión lineal.

Características numéricas de series dinámicas. Las principales características numéricas generalizadoras de las series dinámicas incluyen significado geometrico y una media aritmética cercana a ella. Caracterizan la tasa promedio a la que cambia el valor de la variable dependiente durante ciertos períodos de tiempo:

Una evaluación de la variabilidad de los miembros de la serie dinámica es Desviación Estándar. Al elegir ecuaciones de regresión para describir series temporales, se tiene en cuenta la forma de la tendencia, que puede ser lineal (o reducida a lineal) y no lineal. La exactitud de la elección de la ecuación de regresión generalmente se juzga por la similitud de los valores calculados y observados empíricamente de la variable dependiente. Una solución más precisa a este problema es el análisis de regresión del método de varianza (tema 12, párrafo 4).

Correlación de series temporales. A menudo es necesario comparar la dinámica de series temporales paralelas relacionadas entre sí según determinadas condiciones generales, por ejemplo, para descubrir la relación entre la producción agrícola y el crecimiento del número de cabezas de ganado durante un determinado período de tiempo. En tales casos, la característica de la relación entre las variables X e Y es coeficiente de correlación R xy (en presencia de una tendencia lineal).

Se sabe que la tendencia de las series temporales suele quedar oscurecida por las fluctuaciones en la serie de la variable dependiente Y. Esto plantea un doble problema: medir la dependencia entre series comparadas, sin excluir la tendencia, y medir la dependencia entre miembros vecinos de la misma serie, excluyendo la tendencia. En el primer caso, el indicador de la cercanía de la conexión entre las series temporales comparadas es coeficiente de correlación(si la relación es lineal), en el segundo – coeficiente de autocorrelación. Estos indicadores tienen diferentes significados, aunque se calculan utilizando las mismas fórmulas (ver tema 11).

Es fácil ver que el valor del coeficiente de autocorrelación se ve afectado por la variabilidad de los miembros de la serie de la variable dependiente: cuanto menos se desvían los miembros de la serie de la tendencia, mayor será el coeficiente de autocorrelación, y viceversa.



arriba