Metody analizy regresji. Analiza regresji to statystyczna metoda badania zależności zmiennej losowej od zmiennych. Metody analizy regresji w statystyce

Metody analizy regresji.  Analiza regresji to statystyczna metoda badania zależności zmiennej losowej od zmiennych. Metody analizy regresji w statystyce

Analiza regresji

Regresja (liniowy) analiza- statystyczna metoda badania wpływu jednej lub większej liczby zmiennych niezależnych na zmienną zależną. Zmienne niezależne nazywane są inaczej regresorami lub predyktorami, a zmienne zależne nazywane są zmiennymi kryterialnymi. Terminologia zależny I niezależny zmienne odzwierciedlają jedynie matematyczną zależność zmiennych ( zobacz Fałszywa korelacja), a nie związki przyczynowo-skutkowe.

Cele analizy regresji

  1. Określanie stopnia determinacji zmienności zmiennej kryterialnej (zależnej) przez predyktory (zmienne niezależne)
  2. Przewidywanie wartości zmiennej zależnej przy użyciu zmiennych niezależnych
  3. Wyznaczanie udziału poszczególnych zmiennych niezależnych w zmienności zmiennej zależnej

Za pomocą analizy regresji nie można określić, czy istnieje związek między zmiennymi, gdyż istnienie takiego związku jest warunkiem zastosowania analizy.

Matematyczna definicja regresji

Zależność ściśle regresyjną można zdefiniować w następujący sposób. Niech , będą zmiennymi losowymi o zadanym łącznym rozkładzie prawdopodobieństwa. Jeśli dla każdego zestawu wartości zdefiniowano warunkowe oczekiwanie matematyczne

(równanie regresji w postaci ogólnej),

następnie wywoływana jest funkcja regresja wartości Y według wartości, a jego wykres to linia regresji przez lub równanie regresji.

Zależność od objawia się zmianą średnich wartości Y wraz ze zmianą . Chociaż dla każdego ustalonego zestawu wartości wartość pozostaje zmienną losową z pewnym rozproszeniem.

Aby wyjaśnić kwestię, jak dokładnie analiza regresji szacuje zmianę Y podczas zmiany, stosuje się średnią wartość rozrzutu Y dla różnych zbiorów wartości (w rzeczywistości mówimy o mierze rozproszenia zmiennej zależnej wokół linii regresji).

Metoda najmniejszych kwadratów (obliczanie współczynników)

W praktyce linię regresji najczęściej spotyka się w postaci funkcji liniowej (regresja liniowa), Najlepszym sposobem przybliżając pożądaną krzywą. Odbywa się to metodą najmniejszych kwadratów, gdy suma kwadratów odchyleń faktycznie zaobserwowanych od ich szacunków jest minimalizowana (co oznacza szacunki wykorzystujące linię prostą, która ma przedstawiać pożądaną zależność regresji):

(M - wielkość próbki). Podejście to opiera się na znany fakt, że kwota występująca w powyższym wyrażeniu przyjmuje wartość minimalną właśnie dla przypadku, gdy .

Aby rozwiązać problem analizy regresji metodą najmniejszych kwadratów, wprowadzono koncepcję funkcje resztkowe:

Warunek minimalny funkcji resztowej:

Powstały układ jest układem równań liniowych z niewiadomymi

Jeśli przedstawimy wolne terminy po lewej stronie równań jako macierz

a współczynniki niewiadomych po prawej stronie to macierz

wówczas otrzymujemy równanie macierzowe: , które można łatwo rozwiązać metodą Gaussa. Otrzymana macierz będzie macierzą zawierającą współczynniki równania linii regresji:

Aby uzyskać najlepsze szacunki, konieczne jest spełnienie warunków wstępnych OLS (warunki Gaussa–Markowa). W literaturze angielskiej takie szacunki nazywane są BLUE (Best Linear Unbiased Estimators).

Interpretacja parametrów regresji

Parametry są częściowymi współczynnikami korelacji; interpretuje się jako proporcję wariancji Y wyjaśnionej poprzez ustalenie wpływu pozostałych predyktorów, czyli mierzy indywidualny wkład w wyjaśnienie Y. W przypadku predyktorów skorelowanych pojawia się problem niepewności oszacowań, które stają się zależne od kolejności uwzględnienia predyktorów w modelu. W takich przypadkach konieczne jest zastosowanie metod analizy korelacyjnej i regresji krokowej.

Mówiąc o nieliniowych modelach analizy regresji, należy zwrócić uwagę, czy mówimy o nieliniowości zmiennych niezależnych (z formalnego punktu widzenia łatwo sprowadzić do regresji liniowej), czy też o nieliniowości estymowanych parametrów (powodującej poważne trudności obliczeniowe). W przypadku nieliniowości pierwszego typu, z merytorycznego punktu widzenia istotne jest podkreślenie pojawienia się w modelu członów postaci , wskazujących na obecność interakcji pomiędzy cechami itp. (patrz Wielokolinearność).

Zobacz też

Spinki do mankietów

  • www.kgafk.ru - Wykład na temat „Analiza regresji”
  • www.basegroup.ru - metody selekcji zmiennych w modelach regresji

Literatura

  • Normana Drapera, Harry’ego Smitha Stosowana analiza regresji. Regresja wielokrotna = stosowana analiza regresji. - wyd. 3. - M.: „Dialektyka”, 2007. - s. 912. - ISBN 0-471-17082-8
  • Solidne metody estymacji modeli statystycznych: Monografia. - K.: PP "Sansparel", 2005. - s. 504. - ISBN 966-96574-0-7, UDC: 519.237.5:515.126.2, BBK 22.172+22.152
  • Radczenko Stanisław Grigoriewicz, Metodologia analizy regresji: Monografia. - K.: "Korniychuk", 2011. - s. 376. - ISBN 978-966-7599-72-0

Fundacja Wikimedia. 2010.

Po tym, jak analiza korelacji ujawniła istnienie zależności statystycznych pomiędzy zmiennymi i oceniła stopień ich bliskości, zwykle przystępujemy do matematycznego opisu określonego rodzaju zależności za pomocą analizy regresji. W tym celu wybiera się klasę funkcji, która łączy wynikowy wskaźnik y i argumenty x 1, x 2, ..., x k, wybierane są argumenty najbardziej informatywne, estymaty nieznanych wartości parametrów obliczane są równania komunikacji i analizowane są właściwości powstałego równania.

Funkcja f(x 1, x 2,..., x k) opisująca zależność średniej wartości wynikowej cechy y od podanych wartości argumentów nazywana jest funkcją regresji (równaniem). Termin „regresja” (łac. regresja - wycofanie się, powrót do czegoś) został wprowadzony przez angielskiego psychologa i antropologa F. Galtona i jest kojarzony wyłącznie ze specyfiką jednego z pierwszych konkretne przykłady, w którym zastosowano to pojęcie. I tak przetwarzając dane statystyczne w związku z analizą dziedziczności wzrostu, F. Galton stwierdził, że jeśli ojcowie odbiegają od średniego wzrostu wszystkich ojców o x cale, to ich synowie odbiegają od średniego wzrostu wszystkich synów o mniej niż x cale. Zidentyfikowany trend nazwano „regresją do średniej”. Od tego czasu w literaturze statystycznej powszechnie używa się terminu „regresja”, choć w wielu przypadkach nie charakteryzuje on trafnie pojęcia zależności statystycznej.

Aby dokładnie opisać równanie regresji, konieczna jest znajomość prawa rozkładu efektywnego wskaźnika y. W praktyce statystycznej zwykle trzeba ograniczyć się do poszukiwania odpowiednich przybliżeń dla nieznanej prawdziwej funkcji regresji, gdyż badacz nie posiada dokładnej wiedzy na temat prawa rozkładu prawdopodobieństwa warunkowego analizowanego wskaźnika wypadkowego y dla zadanych wartości argument x.

Rozważmy zależność pomiędzy prawdą f(x) = M(y1x), regresją modelu? i oszacowanie regresji y. Niech efektywny wskaźnik y zostanie powiązany z argumentem x zależnością:

gdzie jest zmienną losową mającą rozkład normalny, a Me = 0 i D e = y 2. Prawdziwa funkcja regresji ma w tym przypadku postać: f (x) = M(y/x) = 2x 1,5.

Załóżmy, że nie znamy dokładnej postaci prawdziwego równania regresji, ale mamy dziewięć obserwacji dwuwymiarowej zmiennej losowej powiązanej zależnością yi = 2x1,5 + e i przedstawionych na rys. 1

Rysunek 1 - Względne położenie prawdy f (x) i teoretycznej? modele regresji

Położenie punktów na rys. 1 pozwala ograniczyć się do klasy zależności liniowe Uprzejmy? = w 0 + w 1 x. Metodą najmniejszych kwadratów znajdujemy estymację równania regresji y = b 0 + b 1 x. Dla porównania na ryc. 1 pokazuje wykresy prawdziwej funkcji regresji y = 2x 1,5, teoretyczna aproksymująca funkcja regresji? = w 0 + w 1 x .

Ponieważ popełniliśmy błąd w wyborze klasy funkcji regresji, a jest to dość powszechne w praktyce badań statystycznych, nasze wnioski i szacunki statystyczne okażą się błędne. I niezależnie od tego, jak bardzo zwiększymy liczbę obserwacji, nasze oszacowanie próbki y nie będzie bliskie prawdziwej funkcji regresji f(x). Gdybyśmy poprawnie wybrali klasę funkcji regresji, to czy niedokładność w opisie f(x) za pomocą? można wyjaśnić jedynie ograniczeniami próby.

Aby jak najlepiej odtworzyć z pierwotnych danych statystycznych wartość warunkową efektywnego wskaźnika y(x) i nieznaną funkcję regresji f(x) = M(y/x), najczęściej stosuje się następujące kryteria adekwatności (funkcje straty) często używany.

Metoda najmniejszych kwadratów. Zgodnie z nim kwadrat odchylenia zaobserwowanych wartości efektywnego wskaźnika y, (i = 1,2,..., n) od wartości modelu,? = f(x i), gdzie x i jest wartością wektora argumentu in i-ta obserwacja: ?(y i - f(x i) 2 > min. Wynikową regresję nazywa się średnią kwadratową.

Metoda najmniejszych modułów. Zgodnie z nim suma bezwzględnych odchyleń obserwowanych wartości efektywnego wskaźnika od wartości modułowych jest zminimalizowana. I otrzymujemy,? = f(x i), średnia regresja mediany bezwzględnej? |y i - f(x i)| >min.

Analiza regresji to metoda statystycznej analizy zależności zmiennej losowej y od zmiennych x j = (j = 1,2,..., k), uznawanych w analizie regresji za zmienne nielosowe, niezależnie od prawdziwego prawa rozkładu z x j.

Zwykle zakłada się, że zmienna losowa y ma rozkład normalny z warunkowym oczekiwaniem y, które jest funkcją argumentów x/ (/ = 1, 2,..., k) i stałą wariancją y 2 niezależną od argumenty.

W sumie model liniowy analiza regresji wygląda następująco:

Y = Y k j=0 V J ts J(X 1 , X 2 . . .. ,X k)+E

gdzie q j jest jakąś funkcją jej zmiennych - x 1, x 2. . .. ,x k, E jest zmienną losową o zerowym oczekiwaniu matematycznym i wariancji y 2.

W analizie regresji rodzaj równania regresji dobiera się na podstawie fizycznej natury badanego zjawiska i wyników obserwacji.

Oszacowania nieznanych parametrów równania regresji zwykle wyznacza się metodą najmniejszych kwadratów. Poniżej omówimy ten problem bardziej szczegółowo.

Dwuwymiarowy równanie liniowe regresja. Załóżmy na podstawie analizy badanego zjawiska, że ​​„średnio” y ma funkcja liniowa od x, tj. istnieje równanie regresji

y=M(y/x)=w 0 + w 1 x)

gdzie M(y1x) jest warunkowym oczekiwaniem matematycznym zmiennej losowej y dla danego x; przy 0 i przy 1 - nieznane parametry populacji ogólnej, które należy oszacować na podstawie wyników obserwacji próbnych.

Załóżmy, że w celu oszacowania parametrów przy 0 i przy 1 pobierana jest próbka o wielkości n z dwuwymiarowej populacji (x, y), gdzie (x, y) jest wynikiem i-tej obserwacji (i = 1 , 2,..., n) . W tym przypadku model analizy regresji ma postać:

y jot = w 0 + w 1 x+e jot .

gdzie e j są niezależnymi zmiennymi losowymi o rozkładzie normalnym z zerowymi oczekiwaniami matematycznymi i wariancją y 2, tj. M e j. = 0;

Re mi jot .= y 2 dla wszystkich i = 1, 2,..., n.

Zgodnie z metodą najmniejszych kwadratów, jako oszacowania nieznanych parametrów przy 0 i przy 1, należy przyjmować takie wartości charakterystyk próbki b 0 i b 1, które minimalizują sumę kwadratów odchyleń wartości wynikowej charakterystyczne dla i z warunkowego oczekiwania matematycznego? I

Rozważymy metodologię określania wpływu cech marketingowych na zysk przedsiębiorstwa na przykładzie siedemnastu typowych przedsiębiorstw o ​​średniej wielkości i wskaźnikach działalności gospodarczej.

Przy rozwiązywaniu problemu wzięto pod uwagę następujące cechy, które w wyniku badania ankietowego uznano za najważniejsze (ważne):

* działalność innowacyjna przedsiębiorstwa;

* planowanie asortymentu produkowanych wyrobów;

* kształtowanie polityki cenowej;

* public relations;

* system sprzedaży;

* system motywacyjny dla pracowników.

Na podstawie systemu porównań czynnikowych skonstruowano kwadratowe macierze sąsiedztwa, w których obliczono wartości względnych priorytetów dla każdego czynnika: działalności innowacyjnej przedsiębiorstwa, planowania asortymentu produktów, kształtowania polityki cenowej, reklamy , public relations, system sprzedaży, system motywacyjny dla pracowników.

Szacunki priorytetów dla czynnika „relacje ze społeczeństwem” uzyskano w wyniku ankiety przeprowadzonej wśród specjalistów ds. przedsiębiorczości. Akceptowane są następujące oznaczenia: > (lepiej), > (lepiej lub tak samo), = (tak samo),< (хуже или одинаково), <

Następnie rozwiązano problem kompleksowej oceny poziomu marketingowego przedsiębiorstwa. Przy obliczaniu wskaźnika określono istotność (wagę) rozpatrywanych cech cząstkowych i rozwiązano problem liniowego splotu wskaźników cząstkowych. Przetwarzanie danych odbywało się za pomocą specjalnie opracowanych programów.

Następnie obliczana jest kompleksowa ocena poziomu marketingowego przedsiębiorstwa – współczynnik marketingowy, który wpisuje się w tabeli 1. Dodatkowo w tabeli uwzględniono wskaźniki charakteryzujące przedsiębiorstwo jako całość. Dane w tabeli zostaną wykorzystane do przeprowadzenia analizy regresji. Wynikowym atrybutem jest zysk. Oprócz współczynnika marketingowego jako wskaźniki czynnikowe wykorzystano następujące wskaźniki: wielkość produkcji brutto, koszt środków trwałych, liczbę pracowników oraz współczynnik specjalizacji.

Tabela 1 – Wstępne dane do analizy regresji


Na podstawie danych tabelarycznych oraz na podstawie czynników o najistotniejszych wartościach współczynników korelacji skonstruowano funkcje regresji zależności zysku od czynników.

Równanie regresji w naszym przypadku będzie miało postać:

Ilościowy wpływ omówionych powyżej czynników na wielkość zysku obrazują współczynniki równania regresji. Pokazują, o ile tysięcy rubli zmienia się jego wartość, gdy charakterystyka czynnika zmienia się o jedną jednostkę. Jak wynika z równania, zwiększenie współczynnika marketingu mix o jedną jednostkę daje wzrost zysku o 1547,7 tys. Rubli. Sugeruje to, że doskonalenie działań marketingowych ma ogromny potencjał poprawy wyników ekonomicznych przedsiębiorstw.

Przy badaniu efektywności marketingu najciekawszym i najważniejszym czynnikiem jest współczynnik X5 – współczynnik marketingowy. Zgodnie z teorią statystyki zaletą istniejącego równania regresji wielokrotnej jest możliwość oceny izolowanego wpływu każdego czynnika, w tym czynnika marketingowego.

Wyniki analizy regresji mają szersze zastosowanie niż do obliczania parametrów równania. Kryterium klasyfikacji przedsiębiorstw (Kef) jako stosunkowo lepszych lub stosunkowo gorszych opiera się na względnym wskaźniku wyniku:

gdzie Y facti to rzeczywista wartość i-tego przedsiębiorstwa, w tysiącach rubli;

Y obliczony – wysokość zysku i-tego przedsiębiorstwa, uzyskana poprzez obliczenia z wykorzystaniem równania regresji

W odniesieniu do rozwiązywanego problemu wartość tę nazywa się „współczynnikiem efektywności”. Działalność przedsiębiorstwa można uznać za efektywną w przypadkach, gdy wartość współczynnika jest większa od jedności. Oznacza to, że rzeczywisty zysk jest większy niż średni zysk w próbie.

Rzeczywiste i szacunkowe wartości zysku przedstawiono w tabeli. 2.

Tabela 2 – Analiza otrzymanej charakterystyki w modelu regresji

Z analizy tabeli wynika, że ​​w naszym przypadku działalność przedsiębiorstw nr 3, 5, 7, 9, 12, 14, 15, 17 w analizowanym okresie można uznać za udaną.

Pojęcie regresji. Zależność między zmiennymi X I y można opisywać na różne sposoby. W szczególności dowolną formę połączenia można wyrazić ogólnym równaniem, gdzie y traktowane jako zmienna zależna, lub Funkcje od innej - zmiennej niezależnej x, tzw argument. Zgodność między argumentem a funkcją można określić za pomocą tabeli, wzoru, wykresu itp. Nazywa się zmianę funkcji w zależności od zmiany jednego lub większej liczby argumentów regresja. Treść stanowią wszystkie środki użyte do opisu korelacji Analiza regresji.

Do wyrażenia regresji stosuje się równania korelacji lub równania regresji, empiryczne i obliczone teoretycznie szeregi regresji, ich wykresy, zwane liniami regresji, a także współczynniki regresji liniowej i nieliniowej.

Wskaźniki regresji wyrażają relację korelacji dwustronnie, uwzględniając zmiany średnich wartości cechy Y podczas zmiany wartości X I podpisać X i odwrotnie, pokazują zmianę średnich wartości cechy X według zmienionych wartości y I podpisać Y. Wyjątkiem są szeregi czasowe lub szeregi czasowe pokazujące zmiany charakterystyki w czasie. Regresja takiego szeregu jest jednostronna.

Istnieje wiele różnych form i typów korelacji. Zadanie sprowadza się do zidentyfikowania w każdym konkretnym przypadku formy związku i wyrażenia jej odpowiednim równaniem korelacyjnym, co pozwala przewidzieć możliwe zmiany jednej cechy Y w oparciu o znane zmiany w innym X, powiązany z pierwszym korelacyjnie.

12.1 Regresja liniowa

Równanie regresji. Wyniki obserwacji konkretnego obiektu biologicznego na podstawie skorelowanych cech X I y, można przedstawić za pomocą punktów na płaszczyźnie, konstruując układ współrzędnych prostokątnych. Rezultatem jest rodzaj diagramu punktowego, który pozwala ocenić formę i stopień powiązania pomiędzy różnymi cechami. Dość często zależność ta wygląda jak linia prosta lub można ją przybliżyć linią prostą.

Liniowa zależność pomiędzy zmiennymi X I y opisuje się ogólnym równaniem, gdzie a, b, c, d,... – parametry równania określające relacje pomiędzy argumentami X 1 , X 2 , X 3 , …, X M i funkcje.

W praktyce nie wszystkie możliwe argumenty są brane pod uwagę, a tylko niektóre, w najprostszym przypadku tylko jeden:

W równaniu regresji liniowej (1) A jest terminem wolnym i parametrem B określa nachylenie linii regresji względem prostokątnych osi współrzędnych. W geometrii analitycznej parametr ten nazywa się nachylenie oraz w biometrii – współczynnik regresji. Wizualna reprezentacja tego parametru i położenie linii regresji Y Przez X I X Przez Y w prostokątnym układzie współrzędnych daje rys. 1.

Ryż. 1 Linie regresji Y na X i X na Y w systemie

Prostokątne współrzędne

Linie regresji, jak pokazano na ryc. 1, przecinają się w punkcie O (,), odpowiadającym średnim arytmetycznym wartościom cech skorelowanych ze sobą Y I X. Podczas konstruowania wykresów regresji wartości zmiennej niezależnej X są wykreślane wzdłuż osi odciętej, a wartości zmiennej zależnej lub funkcji Y są wykreślane wzdłuż osi współrzędnych Linii AB przechodzącej przez punkt O (, ) odpowiada pełnej (funkcjonalnej) relacji pomiędzy zmiennymi Y I X, gdy współczynnik korelacji . Im silniejsze połączenie pomiędzy Y I X, im linie regresji są bliżej AB i odwrotnie, im słabszy związek między tymi wielkościami, tym linie regresji są dalej od AB. Jeżeli pomiędzy charakterystykami nie ma związku, linie regresji przebiegają względem siebie pod kątem prostym i .

Ponieważ wskaźniki regresji wyrażają zależność korelacji dwustronnie, równanie regresji (1) należy zapisać w następujący sposób:

Pierwsza formuła określa wartości średnie, gdy zmienia się charakterystyka X na jednostkę miary, dla drugiej - wartości średnie przy zmianie o jedną jednostkę miary atrybutu Y.

Współczynnik regresji. Współczynnik regresji pokazuje, ile średnio wynosi wartość jednej cechy y zmienia się, gdy miara innej, skorelowanej z, zmienia się o jeden Y podpisać X. Wskaźnik ten jest określony przez wzór

Oto wartości S pomnożona przez wielkość przerw między zajęciami λ , jeżeli zostały znalezione na podstawie szeregów zmian lub tabel korelacji.

Współczynnik regresji można obliczyć bez obliczania odchyleń standardowych S y I S X według formuły

Jeżeli współczynnik korelacji nie jest znany, współczynnik regresji wyznacza się w następujący sposób:

Zależność współczynników regresji i korelacji. Porównując wzory (11.1) (temat 11) i (12.5) widzimy: ich licznik ma tę samą wartość, co wskazuje na związek między tymi wskaźnikami. Zależność tę wyraża równość

Zatem współczynnik korelacji jest równy średniej geometrycznej współczynników B yx I B xy. Wzór (6) pozwala w pierwszej kolejności na podstawie znanych wartości współczynników regresji B yx I B xy określić współczynnik regresji R xy, a po drugie sprawdzić poprawność obliczenia tego wskaźnika korelacji R xy pomiędzy różnymi charakterystykami X I Y.

Podobnie jak współczynnik korelacji, współczynnik regresji charakteryzuje jedynie zależność liniową i towarzyszy mu znak plus dla relacji pozytywnej i znak minus dla relacji negatywnej.

Wyznaczanie parametrów regresji liniowej. Wiadomo, że suma kwadratów odchyleń jest wariantem X I ze średniej jest najmniejsza wartość, tj. twierdzenie to stanowi podstawę metody najmniejszych kwadratów. Jeśli chodzi o regresję liniową [patrz wzór (1)] Wymóg tego twierdzenia spełnia pewien układ równań zwany normalna:

Łączne rozwiązanie tych równań ze względu na parametry A I B prowadzi do następujących wyników:

;

;

, skąd i.

Uwzględnienie dwukierunkowego charakteru zależności pomiędzy zmiennymi Y I X, wzór na określenie parametru A należy wyrazić w ten sposób:

I . (7)

Parametr B, czyli współczynnik regresji, określa się za pomocą następujących wzorów:

Konstrukcja szeregów regresji empirycznej. Jeżeli liczba obserwacji jest duża, analizę regresji rozpoczyna się od skonstruowania empirycznego szeregu regresji. Szereg regresji empirycznej powstaje poprzez obliczenie wartości jednej zmiennej cechy Xśrednie wartości innego, skorelowane z X podpisać Y. Innymi słowy, konstrukcja szeregu regresji empirycznej sprowadza się do znalezienia średnich grupowych z odpowiednich wartości cech Y i X.

Szereg regresji empirycznej to podwójny ciąg liczb, który można przedstawić za pomocą punktów na płaszczyźnie, a następnie łącząc te punkty odcinkami prostymi można otrzymać empiryczną linię regresji. Szeregi regresji empirycznej, zwłaszcza ich wykresy, tzw linie regresji, dają jasne wyobrażenie o formie i bliskości korelacji między różnymi cechami.

Ujednolicenie szeregów regresji empirycznej. Wykresy szeregów regresji empirycznej okazują się z reguły nie gładkimi, ale liniami przerywanymi. Wyjaśnia to fakt, że wraz z głównymi przyczynami determinującymi ogólny wzór zmienności skorelowanych cech, na ich wielkość wpływa wpływ wielu przyczyn wtórnych, które powodują przypadkowe wahania w węzłowych punktach regresji. Aby zidentyfikować główną tendencję (trend) zmienności koniugatu skorelowanych cech, należy zastąpić linie przerywane gładkimi, płynnie przebiegającymi liniami regresji. Nazywa się proces zastępowania linii przerywanych gładkimi wyrównanie szeregów empirycznych I linie regresji.

Metoda wyrównania graficznego. Jest to najprostsza metoda, która nie wymaga pracy obliczeniowej. Jej istota sprowadza się do tego, co następuje. Empiryczną serię regresji przedstawiono w postaci wykresu w prostokątnym układzie współrzędnych. Następnie wizualnie zarysowuje się punkty środkowe regresji, wzdłuż których rysuje się linię ciągłą za pomocą linijki lub wzoru. Wada tej metody jest oczywista: nie wyklucza wpływu indywidualnych właściwości badacza na wyniki dopasowania empirycznych linii regresji. Dlatego w przypadkach, gdy wymagana jest większa dokładność przy zastępowaniu łamanych linii regresji gładkimi, stosuje się inne metody wyrównywania szeregów empirycznych.

Metoda średniej ruchomej. Istota tej metody sprowadza się do sekwencyjnego obliczania średnich arytmetycznych z dwóch lub trzech sąsiadujących ze sobą wyrazów szeregu empirycznego. Metoda ta jest szczególnie wygodna w przypadkach, gdy szereg empiryczny jest reprezentowany przez dużą liczbę wyrazów, tak że utrata dwóch z nich - skrajnych, co jest nieuniknione przy tej metodzie zestawienia, nie wpłynie zauważalnie na jego strukturę.

Metoda najmniejszych kwadratów. Metodę tę zaproponował na początku XIX wieku A.M. Legendre’a i niezależnie od niego K. Gaussa. Pozwala najdokładniej dopasować szeregi empiryczne. Metoda ta, jak pokazano powyżej, opiera się na założeniu, że suma kwadratów odchyleń jest opcją X I z ich średniej jest wartość minimalna, stąd nazwa metody, która jest stosowana nie tylko w ekologii, ale także w technologii. Metoda najmniejszych kwadratów jest obiektywna i uniwersalna; znajduje zastosowanie w najróżniejszych przypadkach przy znajdowaniu równań empirycznych szeregów regresyjnych i wyznaczaniu ich parametrów.

Wymóg metody najmniejszych kwadratów polega na tym, że teoretyczne punkty linii regresji należy otrzymać w taki sposób, aby suma kwadratów odchyleń od tych punktów dla obserwacji empirycznych y I był minimalny, tj.

Obliczając minimum tego wyrażenia zgodnie z zasadami analizy matematycznej i przekształcając je w określony sposób, można otrzymać układ tzw. normalne równania, w którym nieznane wartości są wymaganymi parametrami równania regresji, a znane współczynniki są określone przez empiryczne wartości cech, zwykle sumy ich wartości i ich iloczynów.

Wielokrotna regresja liniowa. Zależność między kilkoma zmiennymi jest zwykle wyrażana za pomocą równania regresji wielokrotnej, co może być liniowy I nieliniowy. W najprostszej formie regresję wielokrotną wyraża się jako równanie z dwiema niezależnymi zmiennymi ( X, z):

Gdzie A– dowolny wyraz równania; B I C– parametry równania. Aby znaleźć parametry równania (10) (metodą najmniejszych kwadratów), stosuje się następujący układ równań normalnych:

Seria dynamiczna. Wyrównanie rzędów. Zmiany charakterystyki w czasie tworzą tzw szereg czasowy Lub seria dynamiczna. Cechą charakterystyczną takich szeregów jest to, że zmienna niezależna X jest tu zawsze czynnikiem czasu, a zmienna zależna Y jest cechą zmienną. W zależności od szeregu regresji zależność pomiędzy zmiennymi X i Y jest jednostronna, gdyż czynnik czasu nie zależy od zmienności cech. Pomimo tych cech, szeregi dynamiki można porównać do szeregów regresji i przetwarzać tymi samymi metodami.

Podobnie jak szeregi regresji, na szeregi dynamiki empirycznej wpływają nie tylko czynniki główne, ale także liczne czynniki wtórne (losowe), które przesłaniają główny trend zmienności cech, co w języku statystyki nazywa się tendencja.

Analiza szeregów czasowych rozpoczyna się od określenia kształtu trendu. Aby to zrobić, szereg czasowy jest przedstawiany jako wykres liniowy w prostokątnym układzie współrzędnych. W tym przypadku punkty czasowe (lata, miesiące i inne jednostki czasu) są wykreślane wzdłuż osi odciętych, a wartości zmiennej zależnej Y są wykreślane wzdłuż osi współrzędnych, jeśli istnieje liniowa zależność między zmiennymi X i Y (trend liniowy), do wyrównania szeregów czasowych najwłaściwsza jest metoda najmniejszych kwadratów, jest równanie regresji w postaci odchyleń wyrazów szeregu zmiennej zależnej Y od średniej arytmetycznej szeregu niezależnego zmienna X:

Oto parametr regresji liniowej.

Charakterystyka numeryczna szeregów dynamicznych. Do głównych uogólniających cech numerycznych szeregów dynamicznych należą: Średnia geometryczna i blisko niej średnia arytmetyczna. Charakteryzują średnie tempo zmian wartości zmiennej zależnej w określonych okresach czasu:

Ocena zmienności członków szeregu dynamiki polega na tym, że: odchylenie standardowe. Wybierając równania regresji do opisu szeregów czasowych, bierze się pod uwagę kształt trendu, który może być liniowy (lub zredukowany do liniowego) i nieliniowy. Poprawność wyboru równania regresji ocenia się zwykle na podstawie podobieństwa empirycznie zaobserwowanych i obliczonych wartości zmiennej zależnej. Bardziej dokładnym rozwiązaniem tego problemu jest analiza regresyjna metody wariancji (temat 12, akapit 4).

Korelacja szeregów czasowych. Często konieczne jest porównanie dynamiki równoległych szeregów czasowych, powiązanych ze sobą pewnymi warunkami ogólnymi, np. w celu ustalenia związku pomiędzy produkcją rolną a wzrostem pogłowia zwierząt gospodarskich w określonym przedziale czasu. W takich przypadkach charakterystyką związku pomiędzy zmiennymi X i Y jest: Współczynnik korelacji R xy (w obecności trendu liniowego).

Wiadomo, że trend szeregów czasowych jest z reguły przesłaniany przez fluktuacje szeregu zmiennej zależnej Y. Rodzi to dwojaki problem: pomiar zależności pomiędzy porównywanymi szeregami, bez wykluczania trendu, oraz pomiar zależność pomiędzy sąsiednimi członkami tego samego szeregu, z wyłączeniem trendu. W pierwszym przypadku wskaźnikiem bliskości powiązania pomiędzy porównywanymi szeregami czasowymi jest Współczynnik korelacji(jeśli zależność jest liniowa), w drugim – współczynnik autokorelacji. Wskaźniki te mają różne znaczenie, chociaż obliczane są przy użyciu tych samych wzorów (patrz temat 11).

Łatwo zauważyć, że na wartość współczynnika autokorelacji wpływa zmienność członków szeregu zmiennej zależnej: im mniej członkowie szeregu odbiegają od trendu, tym wyższy jest współczynnik autokorelacji i odwrotnie.



szczyt