L'analisi di regressione è un metodo statistico per studiare la dipendenza di una variabile casuale dalle variabili. Analisi di correlazione e regressione in Excel: istruzioni di esecuzione Il metodo di regressione consente di impostare

L'analisi di regressione è un metodo statistico per studiare la dipendenza di una variabile casuale dalle variabili.  Analisi di correlazione e regressione in Excel: istruzioni di esecuzione Il metodo di regressione consente di impostare

L'analisi di regressione è un metodo per stabilire un'espressione analitica di una relazione stocastica tra le caratteristiche studiate. L'equazione di regressione mostra come, in media, cambia A quando si cambia uno dei X io , e sembra:

dove si - variabile dipendente (è sempre una);

X io - variabili indipendenti (fattori) (potrebbero essercene diversi).

Se esiste una sola variabile indipendente, si tratta di una semplice analisi di regressione. Se ce ne sono diversi P 2), allora tale analisi è chiamata multivariata.

Nel corso dell'analisi di regressione, vengono risolti due compiti principali:

    costruzione dell'equazione di regressione, cioè trovare il tipo di relazione tra l'indicatore di risultato e i fattori indipendenti X 1 , X 2 , …, X n .

    valutazione della significatività dell'equazione risultante, ad es. determinazione di quanto le caratteristiche fattoriali selezionate spiegano la variazione della caratteristica y.

L'analisi di regressione viene utilizzata principalmente per la pianificazione, nonché per lo sviluppo di un quadro normativo.

A differenza dell'analisi di correlazione, che risponde solo alla domanda se esiste una relazione tra le caratteristiche analizzate, anche l'analisi di regressione dà la sua espressione formalizzata. Inoltre, se l'analisi di correlazione studia qualsiasi relazione di fattori, l'analisi di regressione studia la dipendenza unilaterale, ad es. una connessione che mostra come un cambiamento nei segni dei fattori influisce sul segno risultante.

L'analisi di regressione è uno dei metodi più sviluppati di statistica matematica. A rigor di termini, l'implementazione dell'analisi di regressione richiede il soddisfacimento di una serie di requisiti speciali (in particolare, X l ,X 2 ,...,X n ;y devono essere variabili casuali indipendenti, normalmente distribuite con varianze costanti). Nella vita reale, il rigoroso rispetto dei requisiti di regressione e analisi di correlazione è molto raro, ma entrambi questi metodi sono molto comuni nella ricerca economica. Le dipendenze nell'economia possono essere non solo dirette, ma anche inverse e non lineari. Un modello di regressione può essere costruito in presenza di qualsiasi dipendenza, tuttavia, nell'analisi multivariata, vengono utilizzati solo modelli lineari della forma:

La costruzione dell'equazione di regressione viene eseguita, di regola, con il metodo dei minimi quadrati, la cui essenza è ridurre al minimo la somma delle deviazioni al quadrato dei valori effettivi dell'attributo risultante dai suoi valori calcolati, ovvero:

dove t - numero di osservazioni;

j =a+b 1 X 1 j +b 2 X 2 j + ... + b n X n j - valore calcolato del fattore di risultato.

Si consiglia di determinare i coefficienti di regressione utilizzando pacchetti analitici per un personal computer o uno speciale calcolatore finanziario. Nel caso più semplice, i coefficienti di regressione di un'equazione di regressione lineare a un fattore della forma y = a + bx può essere trovato utilizzando le formule:

analisi di gruppo

L'analisi dei cluster è uno dei metodi di analisi multivariata, progettato per raggruppare (raggruppare) una popolazione i cui elementi sono caratterizzati da molte caratteristiche. I valori di ciascuna delle caratteristiche servono come coordinate di ciascuna unità della popolazione studiata nello spazio multidimensionale delle caratteristiche. Ogni osservazione, caratterizzata dai valori di più indicatori, può essere rappresentata come un punto nello spazio di questi indicatori, i cui valori sono considerati coordinate in uno spazio multidimensionale. Distanza tra i punti R e q insieme a K coordinate è definito come:

Il criterio principale per il raggruppamento è che le differenze tra i cluster dovrebbero essere più significative rispetto alle osservazioni assegnate allo stesso cluster, ad es. in uno spazio multidimensionale si deve osservare la disuguaglianza:

dove r 1, 2 - distanza tra i cluster 1 e 2.

Oltre alle procedure di analisi di regressione, la procedura di clustering è piuttosto laboriosa, è consigliabile eseguirla su computer.

L'obiettivo principale dell'analisi di regressione consiste nel determinare la forma analitica della relazione, in cui la variazione dell'attributo risultante è dovuta all'influenza di uno o più segni fattoriali, e l'insieme di tutti gli altri fattori che influenzano anche l'attributo risultante è assunto come valori costanti e medi .
Compiti di analisi di regressione:
a) Stabilire la forma di dipendenza. Per quanto riguarda la natura e la forma della relazione tra i fenomeni, esistono regressioni lineari e non lineari positive e lineari e non lineari negative.
b) Definizione della funzione di regressione sotto forma di equazione matematica di un tipo o dell'altro e determinazione dell'influenza di variabili esplicative sulla variabile dipendente.
c) Stima dei valori incogniti della variabile dipendente. Utilizzando la funzione di regressione, è possibile riprodurre i valori della variabile dipendente all'interno dell'intervallo di valori dati delle variabili esplicative (ovvero risolvere il problema di interpolazione) o valutare l'andamento del processo al di fuori dell'intervallo specificato (ovvero, risolvere il problema dell'estrapolazione). Il risultato è una stima del valore della variabile dipendente.

Regressione a coppie - l'equazione della relazione di due variabili y e x: y=f(x), dove y è la variabile dipendente (segno risultante); x - variabile esplicativa indipendente (fattore di caratteristica).

Esistono regressioni lineari e non lineari.
Regressione lineare: y = a + bx + ε
Le regressioni non lineari sono suddivise in due classi: regressioni non lineari rispetto alle variabili esplicative incluse nell'analisi, ma lineari rispetto ai parametri stimati e regressioni non lineari rispetto ai parametri stimati.
Regressioni non lineari nelle variabili esplicative:

Regressioni non lineari nei parametri stimati:

  • potenza y=a x b ε
  • esponenziale y=a b x ε
  • esponenziale y=e a+b x ε
La costruzione dell'equazione di regressione si riduce alla stima dei suoi parametri. Per stimare i parametri delle regressioni che sono lineari nei parametri, viene utilizzato il metodo dei minimi quadrati (LSM). LSM consente di ottenere tali stime di parametri in base ai quali la somma delle deviazioni al quadrato dei valori effettivi della caratteristica effettiva y dai valori teorici y x è minima, ad es.
.
Per equazioni lineari e non lineari riducibili a lineari, si risolve il seguente sistema per aeb:

Puoi utilizzare formule già pronte che seguono da questo sistema:

La vicinanza della connessione tra i fenomeni studiati è stimata dal coefficiente di correlazione di coppia lineare r xy per la regressione lineare (-1≤r xy ≤1):

e indice di correlazione p xy - per la regressione non lineare (0≤p xy ≤1):

Una valutazione della qualità del modello costruito sarà data dal coefficiente (indice) di determinazione, nonché dall'errore medio di approssimazione.
L'errore medio di approssimazione è la deviazione media dei valori calcolati da quelli effettivi:
.
Limite consentito dei valori A - non più dell'8-10%.
Il coefficiente di elasticità medio E mostra di quanta percentuale, in media, il risultato y cambierà in media dal suo valore medio quando il fattore x cambia dell'1% dal suo valore medio:
.

Il compito dell'analisi della varianza è quello di analizzare la varianza della variabile dipendente:
∑(y-y )²=∑(y x -y )²+∑(y-y x)²
dove ∑(y-y)² è la somma totale delle deviazioni al quadrato;
∑(y x -y)² - somma delle deviazioni al quadrato dovute alla regressione ("spiegata" o "fattoriale");
∑(y-y x)² - somma residua delle deviazioni al quadrato.
La quota della varianza spiegata dalla regressione nella varianza totale della caratteristica effettiva y è caratterizzata dal coefficiente (indice) di determinazione R2:

Il coefficiente di determinazione è il quadrato del coefficiente o indice di correlazione.

F-test - valutazione della qualità dell'equazione di regressione - consiste nel verificare l'ipotesi Ma circa l'insignificanza statistica dell'equazione di regressione e l'indicatore della vicinanza della connessione. Per questo, viene eseguito un confronto tra il fatto F effettivo e la tabella F critica (tabulare) dei valori del criterio F di Fisher. Il fatto F è determinato dal rapporto tra i valori delle varianze fattoriali e residue calcolate per un grado di libertà:
,
dove n è il numero di unità di popolazione; m è il numero di parametri per le variabili x.
La tabella F è il valore massimo possibile del criterio sotto l'influenza di fattori casuali per determinati gradi di libertà e livello di significatività a. Livello di significatività a - la probabilità di rifiutare l'ipotesi corretta, purché sia ​​vera. Di solito a viene preso uguale a 0,05 o 0,01.
Se tabella F< F факт, то Н о - гипотеза о случайной природе оцениваемых характеристик отклоняется и признается их статистическая значимость и надежность. Если F табл >F è un fatto, quindi l'ipotesi H circa non viene rifiutata e viene riconosciuta l'irrilevanza statistica, l'inaffidabilità dell'equazione di regressione.
Per valutare la significatività statistica dei coefficienti di regressione e correlazione, vengono calcolati il ​​t-test di Student e gli intervalli di confidenza per ciascuno degli indicatori. Viene avanzata un'ipotesi H sulla natura casuale degli indicatori, ovvero sulla loro insignificante differenza da zero. La valutazione della significatività dei coefficienti di regressione e correlazione mediante il test t di Student viene effettuata confrontando i loro valori con l'entità dell'errore casuale:
; ; .
Gli errori casuali dei parametri di regressione lineare e il coefficiente di correlazione sono determinati dalle formule:



Confrontando i valori effettivi e critici (tabulari) della statistica t - t tabl e t fact - accettiamo o rifiutiamo l'ipotesi H o.
La relazione tra il test F di Fisher e la statistica t di Student è espressa dall'uguaglianza

Se t tabella< t факт то H o отклоняется, т.е. a , b и r xy не случайно отличаются от нуля и сформировались под влиянием систематически действующего фактора х. Если t табл >t il fatto che l'ipotesi H circa non viene rifiutata e viene riconosciuta la natura casuale della formazione di a, b o r xy.
Per calcolare l'intervallo di confidenza, determiniamo l'errore marginale D per ciascun indicatore:
Δ a =t tabella m a , Δ b = t tabella m b .
Le formule per il calcolo degli intervalli di confidenza sono le seguenti:
γ a \u003d aΔ a; γ a \u003d a-Δ a; γa =a+Δa
γb = bΔb ; γ b = b-Δ b ; γb =b+Δb
Se zero rientra nei limiti dell'intervallo di confidenza, cioè Se il limite inferiore è negativo e il limite superiore è positivo, si assume che il parametro stimato sia zero, poiché non può assumere contemporaneamente valori positivi e negativi.
Il valore di previsione y p è determinato sostituendo il valore (previsione) corrispondente x p nell'equazione di regressione y x =a+b·x . L'errore standard medio della previsione m y x è calcolato:
,
dove
e si costruisce l'intervallo di confidenza della previsione:
γ y x = y p Δ y p ; γ y x min=y p -Δ y p ; γ y x max=y p + Δ y p
dove Δ y x =t tabella ·m y x .

Esempio di soluzione

Compito numero 1. Per sette territori della regione degli Urali Per 199X sono noti i valori di due segni.
Tabella 1.

Necessario: 1. Per caratterizzare la dipendenza di y da x, calcolare i parametri delle seguenti funzioni:
a) lineare;
b) legge di potenza (in precedenza occorre eseguire la procedura di linearizzazione delle variabili prendendo il logaritmo di entrambe le parti);
c) dimostrativo;
d) iperbole equilatera (devi anche capire come pre-linearizzare questo modello).
2. Valutare ciascun modello attraverso l'errore di approssimazione medio A e il test F di Fisher.

Soluzione (opzione n. 1)

Per calcolare i parametri aeb della regressione lineare y=a+b·x (il calcolo può essere effettuato utilizzando una calcolatrice).
risolvere il sistema di equazioni normali rispetto a un e b:
Sulla base dei dati iniziali, calcoliamo ∑y, ∑x, ∑y x, ∑x², ∑y²:
y X yx x2 y2 y xy-y xAi
l68,8 45,1 3102,88 2034,01 4733,44 61,3 7,5 10,9
2 61,2 59,0 3610,80 3481,00 3745,44 56,5 4,7 7,7
3 59,9 57,2 3426,28 3271,84 3588,01 57,1 2,8 4,7
4 56,7 61,8 3504,06 3819,24 3214,89 55,5 1,2 2,1
5 55,0 58,8 3234,00 3457,44 3025,00 56,5 -1,5 2,7
6 54,3 47,2 2562,96 2227,84 2948,49 60,5 -6,2 11,4
7 49,3 55,2 2721,36 3047,04 2430,49 57,8 -8,5 17,2
Totale405,2 384,3 22162,34 21338,41 23685,76 405,2 0,0 56,7
mer valore (Totale/n)57,89
y
54,90
X
3166,05
x y
3048,34
3383,68
XX8,1
S 5,74 5,86 XXXXXX
s232,92 34,34 XXXXXX


a=y -b x = 57,89+0,35 54,9 ≈ 76,88

Equazione di regressione: y= 76,88 - 0,35X. Con un aumento del salario medio giornaliero di 1 rub. la quota di spesa per l'acquisto di prodotti alimentari si riduce in media di 0,35 punti percentuali.
Calcola il coefficiente lineare di correlazione di coppia:

La comunicazione è moderata, inversa.
Determiniamo il coefficiente di determinazione: r² xy =(-0,35)=0,127
La variazione del 12,7% nel risultato è spiegata dalla variazione del fattore x. Sostituendo i valori effettivi nell'equazione di regressione X, determiniamo i valori teorici (calcolati) di y x . Troviamo il valore dell'errore medio di approssimazione A :

In media, i valori calcolati si discostano da quelli effettivi dell'8,1%.
Calcoliamo il criterio F:

Il valore ottenuto indica la necessità di accettare l'ipotesi H 0 circa la natura casuale della dipendenza rivelata e l'insignificanza statistica dei parametri dell'equazione e dell'indicatore della tenuta della connessione.
1b. La costruzione del modello di potenza y=a x b è preceduta dalla procedura di linearizzazione delle variabili. Nell'esempio, la linearizzazione viene eseguita prendendo il logaritmo di entrambi i membri dell'equazione:
lg y=lg a + b lg x
Y=C+b Y
dove Y=lg(y), X=lg(x), C=lg(a).

Per i calcoli, utilizziamo i dati nella tabella. 1.3.
Tabella 1.3

YX YX Y2 x2 y xy-y x(y-yx)²Ai
1 1,8376 1,6542 3,0398 3,3768 2,7364 61,0 7,8 60,8 11,3
2 1,7868 1,7709 3,1642 3,1927 3,1361 56,3 4,9 24,0 8,0
3 1,7774 1,7574 3,1236 3,1592 3,0885 56,8 3,1 9,6 5,2
4 1,7536 1,7910 3,1407 3,0751 3,2077 55,5 1,2 1,4 2,1
5 1,7404 1,7694 3,0795 3,0290 3,1308 56,3 -1,3 1,7 2,4
6 1,7348 1,6739 2,9039 3,0095 2,8019 60,2 -5,9 34,8 10,9
7 1,6928 1,7419 2,9487 2,8656 3,0342 57,4 -8,1 65,6 16,4
Totale12,3234 12,1587 21,4003 21,7078 21,1355 403,5 1,7 197,9 56,3
Significare1,7605 1,7370 3,0572 3,1011 3,0194 XX28,27 8,0
σ 0,0425 0,0484 XXXXXXX
σ20,0018 0,0023 XXXXXXX

Calcola C e b:

C=Y -b X = 1,7605+0,298 1,7370 = 2,278126
Otteniamo un'equazione lineare: Y=2,278-0,298 X
Dopo averlo potenziato, otteniamo: y=10 2.278 x -0.298
Sostituendo in questa equazione i valori effettivi X, otteniamo i valori teorici del risultato. Sulla base di essi, calcoliamo gli indicatori: la tenuta della connessione - l'indice di correlazione p xy e l'errore medio di approssimazione A .

Le caratteristiche del modello di potenza indicano che descrive la relazione in qualche modo meglio della funzione lineare.

1c. La costruzione dell'equazione della curva esponenziale y \u003d a b x è preceduta dalla procedura di linearizzazione delle variabili quando si prende il logaritmo di entrambe le parti dell'equazione:
lg y=lg a + x lg b
Y=C+B x
Per i calcoli, utilizziamo i dati della tabella.

YX Yx Y2 x2y xy-y x(y-yx)²Ai
1 1,8376 45,1 82,8758 3,3768 2034,01 60,7 8,1 65,61 11,8
2 1,7868 59,0 105,4212 3,1927 3481,00 56,4 4,8 23,04 7,8
3 1,7774 57,2 101,6673 3,1592 3271,84 56,9 3,0 9,00 5,0
4 1,7536 61,8 108,3725 3,0751 3819,24 55,5 1,2 1,44 2,1
5 1,7404 58,8 102,3355 3,0290 3457,44 56,4 -1,4 1,96 2,5
6 1,7348 47,2 81,8826 3,0095 2227,84 60,0 -5,7 32,49 10,5
7 1,6928 55,2 93,4426 2,8656 3047,04 57,5 -8,2 67,24 16,6
Totale12,3234 384,3 675,9974 21,7078 21338,41 403,4 -1,8 200,78 56,3
mer zn.1,7605 54,9 96,5711 3,1011 3048,34 XX28,68 8,0
σ 0,0425 5,86 XXXXXXX
σ20,0018 34,339 XXXXXXX

I valori dei parametri di regressione A e A ammontava a:

A=Y -B x = 1,7605+0,0023 54,9 = 1,887
Si ottiene un'equazione lineare: Y=1,887-0,0023x. Potenziamo l'equazione risultante e la scriviamo nella solita forma:
y x =10 1,887 10 -0,0023x = 77,1 0,9947 x
Stimiamo la tenuta della relazione attraverso l'indice di correlazione p xy:

3588,01 56,9 3,0 9,00 5,0 4 56,7 0,0162 0,9175 0,000262 3214,89 55,5 1,2 1,44 2,1 5 55 0,0170 0,9354 0,000289 3025,00 56,4 -1,4 1,96 2,5 6 54,3 0,0212 1,1504 0,000449 2948,49 60,8 -6,5 42,25 12,0 7 49,3 0,0181 0,8931 0,000328 2430,49 57,5 -8,2 67,24 16,6 Totale405,2 0,1291 7,5064 0,002413 23685,76 405,2 0,0 194,90 56,5 Significare57,9 0,0184 1,0723 0,000345 3383,68 XX27,84 8,1 σ 5,74 0,002145 XXXXXXX σ232,9476 0,000005 XX

L'analisi di regressione è alla base della creazione della maggior parte dei modelli econometrici, tra i quali dovrebbero essere inclusi i modelli di stima dei costi. Per costruire modelli di valutazione, questo metodo può essere utilizzato se il numero di analoghi (oggetti confrontabili) e il numero di fattori di costo (elementi di confronto) sono correlati tra loro come segue: P> (5 -g-10) x a, quelli. dovrebbero esserci 5-10 volte più analoghi rispetto ai fattori di costo. Lo stesso requisito per il rapporto tra la quantità di dati e il numero di fattori si applica ad altri compiti: stabilire una relazione tra il costo e i parametri di consumo di un oggetto; giustificazione della procedura di calcolo degli indici correttivi; chiarimento dell'andamento dei prezzi; stabilire una relazione tra usura e cambiamenti nei fattori di influenza; ottenere dipendenze per il calcolo degli standard di costo, ecc. Il soddisfacimento di questo requisito è necessario per ridurre la probabilità di lavorare con un campione di dati che non soddisfa il requisito della distribuzione normale di variabili casuali.

La relazione di regressione riflette solo l'andamento medio della variabile risultante, ad esempio il costo, dalle variazioni di una o più variabili fattoriali, ad esempio l'ubicazione, il numero di stanze, l'area, il piano, ecc. Questa è la differenza tra una relazione di regressione e una funzionale, in cui il valore della variabile risultante è rigorosamente definito per un dato valore di variabili fattoriali.

La presenza di una relazione di regressione / tra il risultante A e variabili fattoriali x pag ..., xk(fattori) indica che questa relazione è determinata non solo dall'influenza delle variabili fattoriali selezionate, ma anche dall'influenza di variabili, alcune delle quali generalmente sconosciute, altre non possono essere valutate e prese in considerazione:

L'influenza delle variabili non contabilizzate è indicata dal secondo termine di questa equazione ?, che è chiamato errore di approssimazione.

Esistono i seguenti tipi di dipendenze di regressione:

  • ? regressione accoppiata - la relazione tra due variabili (risultante e fattoriale);
  • ? regressione multipla - dipendenza di una variabile risultante e di due o più variabili fattoriali incluse nello studio.

Il compito principale dell'analisi di regressione è quantificare la vicinanza della relazione tra variabili (nella regressione accoppiata) e variabili multiple (nella regressione multipla). La tenuta della relazione è quantificata dal coefficiente di correlazione.

L'uso dell'analisi di regressione consente di stabilire la regolarità dell'influenza dei principali fattori (caratteristiche edonico) sull'indicatore in esame, sia nella loro totalità che singolarmente ciascuno di essi. Con l'aiuto dell'analisi di regressione, come metodo di statistica matematica, è possibile, in primo luogo, trovare e descrivere la forma della dipendenza analitica della variabile risultante (desiderata) da quelle fattoriali e, in secondo luogo, stimare la vicinanza di questa dipendenza.

Risolvendo il primo problema si ottiene un modello di regressione matematica, con l'aiuto del quale viene poi calcolato l'indicatore desiderato per determinati valori di fattore. La soluzione del secondo problema permette di stabilire l'affidabilità del risultato calcolato.

Pertanto, l'analisi di regressione può essere definita come un insieme di procedure formali (matematiche) progettate per misurare la tenuta, la direzione e l'espressione analitica della forma della relazione tra le variabili risultanti e fattoriali, ad es. il risultato di tale analisi dovrebbe essere un modello statistico definito strutturalmente e quantitativamente della forma:

dove si - il valore medio della variabile risultante (l'indicatore desiderato, ad esempio, costo, affitto, tasso di capitalizzazione) oltre P le sue osservazioni; x è il valore della variabile fattore (/-esimo fattore di costo); a - numero di variabili fattoriali.

Funzione f(x l ,...,x lc), descrivere la dipendenza della variabile risultante da quelle fattoriali è chiamata equazione di regressione (funzione). Il termine "regressione" (regressione (lat.) - ritirata, ritorno a qualcosa) è associato alle specificità di uno dei compiti specifici risolti nella fase di formazione del metodo e attualmente non riflette l'intera essenza del metodo, ma continua ad essere utilizzato.

L'analisi di regressione comprende generalmente i seguenti passaggi:

  • ? formazione di un campione di oggetti omogenei e raccolta di informazioni iniziali su questi oggetti;
  • ? selezione dei principali fattori che influenzano la variabile risultante;
  • ? controllando il campione per la normalità utilizzando X 2 o criterio binomiale;
  • ? accettazione dell'ipotesi circa la forma della comunicazione;
  • ? elaborazione di dati matematici;
  • ? ottenere un modello di regressione;
  • ? valutazione dei suoi indicatori statistici;
  • ? calcoli di verifica mediante un modello di regressione;
  • ? analisi dei risultati.

La sequenza di operazioni specificata avviene nello studio sia di una relazione di coppia tra una variabile fattoriale e una variabile risultante, sia di una relazione multipla tra la variabile risultante e più variabili fattoriali.

L'uso dell'analisi di regressione impone determinati requisiti alle informazioni iniziali:

  • ? un campione statistico di oggetti dovrebbe essere omogeneo in termini funzionali e costruttivi-tecnologici;
  • ? abbastanza numerosi;
  • ? l'indicatore di costo in studio - la variabile risultante (prezzo, costo, costi) - deve essere ridotto alle stesse condizioni per il suo calcolo per tutti gli oggetti del campione;
  • ? le variabili fattoriali devono essere misurate in modo sufficientemente accurato;
  • ? le variabili fattoriali devono essere indipendenti o minimamente dipendenti.

I requisiti di omogeneità e completezza del campione sono in conflitto: più rigorosamente la selezione degli oggetti viene effettuata in base alla loro omogeneità, più piccolo è il campione e, viceversa, per ingrandire il campione, è necessario includere oggetti che non sono molto simili tra loro.

Dopo che i dati sono stati raccolti per un gruppo di oggetti omogenei, vengono analizzati per stabilire la forma della relazione tra le variabili risultanti e fattoriali sotto forma di una retta di regressione teorica. Il processo per trovare una retta di regressione teorica consiste in una scelta ragionevole di una curva approssimata e nel calcolo dei coefficienti della sua equazione. La retta di regressione è una curva liscia (in un caso particolare, una retta) che descrive, utilizzando una funzione matematica, l'andamento generale della dipendenza in studio e smussa gli outlier irregolari e casuali dall'influenza di fattori collaterali.

Per visualizzare le dipendenze di regressione accoppiate nelle attività di valutazione, vengono spesso utilizzate le seguenti funzioni: lineare - y - uno 0 + ars + s potenza - y - aj&i + c dimostrativo - si - esponenziale lineare - y - a 0 + ar * + s. Qui - e errore di approssimazione dovuto all'azione di fattori casuali non contabilizzati.

In queste funzioni, y è la variabile risultante; x - variabile fattore (fattore); un 0 , a r a 2 - parametri del modello di regressione, coefficienti di regressione.

Il modello esponenziale lineare appartiene alla classe dei cosiddetti modelli ibridi della forma:

dove

dove x (io = 1, /) - valori dei fattori;

b t (io = 0, /) sono i coefficienti dell'equazione di regressione.

In questa equazione, i componenti A, B e Z corrispondono al costo delle singole componenti del bene oggetto di valutazione, ad esempio il costo di un appezzamento di terreno e il costo delle migliorie, e il parametro Qè comune. È progettato per adeguare il valore di tutti i componenti dell'attività valutata per un fattore di influenza comune, come l'ubicazione.

I valori dei fattori che si trovano nel grado dei coefficienti corrispondenti sono variabili binarie (0 o 1). I fattori che stanno alla base del grado sono variabili discrete o continue.

Anche i fattori associati ai coefficienti dei segni di moltiplicazione sono continui o discreti.

La specificazione viene eseguita, di norma, utilizzando un approccio empirico e comprende due fasi:

  • ? tracciare i punti del campo di regressione sul grafico;
  • ? analisi grafica (visiva) del tipo di una possibile curva di approssimazione.

Il tipo di curva di regressione non è sempre immediatamente selezionabile. Per determinarlo, i punti del campo di regressione vengono prima tracciati sul grafico in base ai dati iniziali. Quindi viene tracciata visivamente una linea lungo la posizione dei punti, cercando di scoprire il modello qualitativo della relazione: crescita uniforme o diminuzione uniforme, crescita (diminuzione) con aumento (diminuzione) del tasso di dinamica, un approccio regolare alla un certo livello.

Questo approccio empirico è completato da un'analisi logica, partendo da idee già note sulla natura economica e fisica dei fattori oggetto di studio e sulla loro reciproca influenza.

Ad esempio, è noto che le dipendenze delle variabili risultanti - indicatori economici (prezzi, rendita) da una serie di variabili fattoriali - fattori di formazione del prezzo (distanza dal centro dell'insediamento, area, ecc.) non sono lineari , e possono essere descritti in modo abbastanza rigoroso da una funzione di potenza, esponenziale o quadratica. Ma con piccoli intervalli di fattori, è possibile ottenere risultati accettabili anche utilizzando una funzione lineare.

Se è ancora impossibile effettuare immediatamente una scelta sicura di una qualsiasi funzione, vengono selezionate due o tre funzioni, vengono calcolati i loro parametri e quindi, utilizzando i criteri appropriati per la tenuta della connessione, viene finalmente selezionata la funzione.

In teoria, viene chiamato il processo di regressione per trovare la forma di una curva specifica modello e i suoi coefficienti - calibrazione Modelli.

Se si trova che la variabile risultante y dipende da più variabili fattoriali (fattori) x ( , x 2 , ..., xk, quindi ricorrono alla costruzione di un modello di regressione multipla. Solitamente vengono utilizzate tre forme di comunicazione multipla: lineare - y - a 0 + a x x x + a^x 2 + ... + ak x k, dimostrativo - y - a 0 a*io a x t- a x b, potenza - y - a 0 x x ix 2 a 2. .x^ o loro combinazioni.

Le funzioni esponenziale ed esponenziale sono più universali, in quanto approssimano relazioni non lineari, che sono la maggior parte delle dipendenze studiate nella valutazione. Inoltre, possono essere applicati nella valutazione di oggetti e nel metodo di modellazione statistica per la valutazione di massa, e nel metodo di confronto diretto nella valutazione individuale quando si stabiliscono i fattori di correzione.

Nella fase di calibrazione, i parametri del modello di regressione vengono calcolati con il metodo dei minimi quadrati, la cui essenza è che la somma delle deviazioni al quadrato dei valori calcolati della variabile risultante A., cioè. calcolato in base all'equazione di relazione selezionata, dai valori effettivi dovrebbe essere minimo:

Valori j) (. e y. noto, quindi Qè una funzione dei soli coefficienti dell'equazione. Per trovare il minimo S prendere derivate parziali Q dai coefficienti dell'equazione e uguagliali a zero:

Di conseguenza, otteniamo un sistema di equazioni normali, il cui numero è uguale al numero di coefficienti determinati dell'equazione di regressione desiderata.

Supponiamo di dover trovare i coefficienti dell'equazione lineare y - a 0 + ars. La somma delle deviazioni al quadrato è:

/=1

Differenziare una funzione Q da coefficienti sconosciuti uno 0 e e uguagliare le derivate parziali a zero:

Dopo le trasformazioni otteniamo:

dove P - numero di valori effettivi originali A loro (il numero di analoghi).

La procedura di cui sopra per calcolare i coefficienti dell'equazione di regressione è applicabile anche per le dipendenze non lineari, se queste dipendenze possono essere linearizzate, ad es. portare a una forma lineare usando un cambio di variabili. Le funzioni di potenza ed esponenziali dopo aver preso il logaritmo e il corrispondente cambio di variabili acquisiscono una forma lineare. Ad esempio, una funzione di potenza dopo aver preso un logaritmo assume la forma: In y \u003d 1n 0 + una x 1ph. Dopo il cambio delle variabili Y- In y, L 0 - In e n. X- In x otteniamo una funzione lineare

Y=A0 + cijX, i cui coefficienti si trovano come descritto sopra.

Il metodo dei minimi quadrati viene utilizzato anche per calcolare i coefficienti di un modello di regressione multipla. Quindi, il sistema di equazioni normali per il calcolo di una funzione lineare con due variabili Xj e x 2 dopo una serie di trasformazioni, si presenta così:

Di solito questo sistema di equazioni viene risolto utilizzando metodi di algebra lineare. Una funzione esponenziale multipla viene portata a una forma lineare prendendo i logaritmi e modificando le variabili allo stesso modo di una funzione esponenziale accoppiata.

Quando si utilizzano modelli ibridi, si trovano coefficienti di regressione multipli utilizzando le procedure numeriche del metodo delle approssimazioni successive.

Per fare una scelta finale tra diverse equazioni di regressione, è necessario testare ciascuna equazione per la tenuta della relazione, che è misurata dal coefficiente di correlazione, varianza e coefficiente di variazione. Per la valutazione, puoi anche utilizzare i criteri di Student e Fisher. Maggiore è la tenuta della connessione rivela la curva, più è preferibile, a parità di tutte le altre condizioni.

Se un problema di una tale classe viene risolto, quando è necessario stabilire la dipendenza di un indicatore di costo dai fattori di costo, allora il desiderio di prendere in considerazione il maggior numero possibile di fattori di influenza e quindi costruire un modello di regressione multipla più accurato è comprensibile. Tuttavia, due limiti oggettivi ostacolano l'espansione del numero di fattori. In primo luogo, la creazione di un modello di regressione multipla richiede un campione di oggetti molto più ampio rispetto alla creazione di un modello accoppiato. È generalmente accettato che il numero di oggetti nel campione debba superare il numero P fattori, almeno 5-10 volte. Ne consegue che per costruire un modello con tre fattori di influenza, è necessario raccogliere un campione di circa 20 oggetti con diversi insiemi di valori dei fattori. In secondo luogo, i fattori selezionati per il modello nella loro influenza sull'indicatore di valore dovrebbero essere sufficientemente indipendenti l'uno dall'altro. Questo non è facile da garantire, poiché il campione di solito combina oggetti appartenenti alla stessa famiglia, in cui vi è un cambiamento regolare di molti fattori da un oggetto all'altro.

La qualità dei modelli di regressione viene solitamente verificata utilizzando le seguenti statistiche.

Deviazione standard dell'errore dell'equazione di regressione (errore di stima):

dove P - dimensione del campione (numero di analoghi);

a - numero di fattori (fattori di costo);

Errore non spiegato dall'equazione di regressione (Fig. 3.2);

y. - il valore effettivo della variabile risultante (ad esempio costo); y t - valore calcolato della variabile risultante.

Questo indicatore è anche chiamato errore standard di stima (errore RMS). Nella figura i punti indicano valori specifici del campione, il simbolo indica la linea dei valori medi del campione, la linea tratteggiata inclinata è la linea di regressione.


Riso. 3.2.

La deviazione standard dell'errore di stima misura la quantità di deviazione dei valori effettivi di y dai corrispondenti valori calcolati. A( , ottenuto utilizzando il modello di regressione. Se il campione su cui è costruito il modello è soggetto alla legge di distribuzione normale, allora si può sostenere che il 68% dei valori reali A sono nella gamma A ± & e dalla linea di regressione e 95% - nell'intervallo A ± 2d e. Questo indicatore è conveniente perché le unità di misura sg? abbinare le unità di misura A,. A questo proposito, può essere utilizzato per indicare l'accuratezza del risultato ottenuto nel processo di valutazione. Ad esempio, in un certificato di valore, è possibile indicare il valore del valore di mercato ottenuto utilizzando il modello di regressione V con una probabilità del 95% è nell'intervallo da (V-2d,.) prima (A + 2ds).

Coefficiente di variazione della variabile risultante:

dove si - il valore medio della variabile risultante (Figura 3.2).

Nell'analisi di regressione, il coefficiente di variazione var è la deviazione standard del risultato, espressa come percentuale della media della variabile di risultato. Il coefficiente di variazione può servire come criterio per le qualità predittive del modello di regressione risultante: minore è il valore var, maggiori sono le qualità predittive del modello. L'uso del coefficiente di variazione è preferibile all'esponente &e, poiché è un esponente relativo. Nell'uso pratico di questo indicatore si può raccomandare di non utilizzare un modello il cui coefficiente di variazione superi il 33%, poiché in questo caso non si può dire che questi campioni siano soggetti alla legge di distribuzione normale.

Coefficiente di determinazione (coefficiente di correlazione multipla al quadrato):

Questo indicatore viene utilizzato per analizzare la qualità complessiva del modello di regressione risultante. Indica quale percentuale della variazione nella variabile risultante è dovuta all'influenza di tutte le variabili fattoriali incluse nel modello. Il coefficiente di determinazione è sempre compreso tra zero e uno. Quanto più vicino è il valore del coefficiente di determinazione all'unità, tanto meglio il modello descrive le serie di dati originali. Il coefficiente di determinazione può essere rappresentato in altro modo:

Ecco l'errore spiegato dal modello di regressione,

un - errore inspiegabile

modello di regressione. Da un punto di vista economico, questo criterio permette di giudicare quale percentuale della variazione di prezzo è spiegata dall'equazione di regressione.

L'esatto limite di accettazione dell'indicatore R2è impossibile specificare per tutti i casi. Devono essere prese in considerazione sia la dimensione del campione che l'interpretazione significativa dell'equazione. Di norma, quando si studiano dati su oggetti dello stesso tipo, ottenuti all'incirca nello stesso momento, il valore R2 non supera il livello di 0,6-0,7. Se tutti gli errori di previsione sono zero, ad es. quando la relazione tra la variabile risultante e quella fattoriale è funzionale, allora R2 =1.

Coefficiente di determinazione rettificato:

La necessità di introdurre un coefficiente di determinazione corretto è spiegata dal fatto che con un aumento del numero di fattori a il solito coefficiente di determinazione aumenta quasi sempre, ma il numero dei gradi di libertà diminuisce (n - k- uno). La rettifica inserita riduce sempre il valore R2, nella misura in cui (P - 1) > (da p- a - uno). Di conseguenza, il valore R 2 CKOf) può anche diventare negativo. Ciò significa che il valore R2 era vicino a zero prima dell'aggiustamento e la proporzione di varianza spiegata dall'equazione di regressione della variabile A molto piccolo.

Delle due varianti dei modelli di regressione che differiscono per il valore del coefficiente di determinazione aggiustato, ma hanno altri criteri di qualità ugualmente buoni, è preferibile la variante con un valore elevato del coefficiente di determinazione aggiustato. Il coefficiente di determinazione non viene rettificato se (n - k): k> 20.

Rapporto Fisher:

Questo criterio viene utilizzato per valutare la significatività del coefficiente di determinazione. Somma residua dei quadrati è una misura dell'errore di previsione che utilizza una regressione di valori di costo noti A.. Il confronto con la somma dei quadrati di regressione mostra quante volte la dipendenza dalla regressione prevede il risultato meglio della media A. C'è una tabella di valori critici FR Coefficiente di Fisher dipendente dal numero di gradi di libertà del numeratore - a, denominatore v 2 = p - k- 1 e livello di significatività a. Se il valore calcolato del criterio Fisher FRè maggiore del valore di tabella, quindi l'ipotesi dell'insignificanza del coefficiente di determinazione, cioè sulla discrepanza tra le relazioni incorporate nell'equazione di regressione e quelle realmente esistenti, con una probabilità p = 1 - a viene rifiutata.

Errore di approssimazione medio(deviazione percentuale media) è calcolata come differenza relativa media, espressa in percentuale, tra i valori effettivi e calcolati della variabile risultante:

Minore è il valore di questo indicatore, migliore è la qualità predittiva del modello. Quando il valore di questo indicatore non è superiore al 7%, indicano l'elevata precisione del modello. Se un 8 > 15%, indicano l'accuratezza insoddisfacente del modello.

Errore standard del coefficiente di regressione:

dove (/I) -1 .- elemento diagonale della matrice (X G X) da ~ 1 a - numero di fattori;

X- matrice dei valori delle variabili fattoriali:

X7- matrice trasposta dei valori delle variabili fattoriali;

(JL) _| è una matrice inversa a una matrice.

Più piccoli sono questi punteggi per ciascun coefficiente di regressione, più affidabile è la stima del corrispondente coefficiente di regressione.

Test dello studente (t-statistica):

Questo criterio consente di misurare il grado di affidabilità (significatività) della relazione a causa di un determinato coefficiente di regressione. Se il valore calcolato t. maggiore del valore della tabella

t av , dove v - p - k - 1 è il numero dei gradi di libertà, quindi l'ipotesi che tale coefficiente sia statisticamente insignificante viene scartata con una probabilità di (100 - a)%. Esistono tabelle speciali della distribuzione / che consentono di determinare il valore critico del criterio mediante un determinato livello di significatività a e il numero di gradi di libertà v. Il valore più comunemente usato di a è 5%.

Multicollinearità, cioè. l'effetto delle relazioni reciproche tra variabili fattoriali porta alla necessità di accontentarsi di un numero limitato di esse. Se questo non viene preso in considerazione, puoi finire con un modello di regressione illogico. Per evitare l'effetto negativo della multicollinearità, prima di costruire un modello di regressione multipla, vengono calcolati i coefficienti di correlazione di coppia rxjxj tra le variabili selezionate X. e X

Qui XjX; - valore medio del prodotto di due variabili fattoriali;

XjXj- il prodotto dei valori medi di due variabili fattoriali;

Valutazione della varianza della variabile fattore x..

Due variabili sono considerate regressivemente correlate (cioè collineari) se il loro coefficiente di correlazione a coppie è rigorosamente maggiore di 0,8 in valore assoluto. In questo caso, una qualsiasi di queste variabili dovrebbe essere esclusa dalla considerazione.

Per ampliare le possibilità di analisi economica dei modelli di regressione risultanti, vengono utilizzate le medie coefficienti di elasticità, determinato dalla formula:

dove Xj- valore medio della corrispondente variabile fattore;

si - valore medio della variabile risultante; un io - coefficiente di regressione per la variabile fattore corrispondente.

Il coefficiente di elasticità mostra di quale percentuale il valore della variabile risultante cambierà in media quando la variabile fattore cambia dell'1%, cioè come la variabile risultante reagisce a un cambiamento nella variabile fattore. Ad esempio, come fa il prezzo di mq. m area dell'appartamento a distanza dal centro città.

Utile dal punto di vista dell'analisi della significatività di un particolare coefficiente di regressione è la stima coefficiente di determinazione privato:

Ecco la stima della varianza del risultante

variabile. Questo coefficiente mostra di quale percentuale la variazione della variabile risultante è spiegata dalla variazione della variabile fattore /-esima inclusa nell'equazione di regressione.

  • Le caratteristiche edoniche sono intese come le caratteristiche di un oggetto che riflettono le sue proprietà utili (preziose) dal punto di vista di acquirenti e venditori.

Durante i loro studi, gli studenti incontrano molto spesso una varietà di equazioni. Uno di questi - l'equazione di regressione - è considerato in questo articolo. Questo tipo di equazione viene utilizzato in modo specifico per descrivere le caratteristiche della relazione tra parametri matematici. Questo tipo di uguaglianza è utilizzato in statistica ed econometria.

Definizione di regressione

In matematica, la regressione è intesa come una certa quantità che descrive la dipendenza del valore medio di un insieme di dati dai valori di un'altra quantità. L'equazione di regressione mostra, in funzione di una particolare caratteristica, il valore medio di un'altra caratteristica. La funzione di regressione ha la forma di una semplice equazione y \u003d x, in cui y funge da variabile dipendente e x è una variabile indipendente (fattore di caratteristica). Infatti, la regressione è espressa come y = f (x).

Quali sono i tipi di relazioni tra le variabili

In generale si distinguono due tipi opposti di relazione: correlazione e regressione.

Il primo è caratterizzato dall'uguaglianza delle variabili condizionali. In questo caso, non è noto con certezza quale variabile dipenda dall'altra.

Se non c'è uguaglianza tra le variabili e le condizioni dicono quale variabile è esplicativa e quale dipendente, allora possiamo parlare della presenza di una connessione del secondo tipo. Per costruire un'equazione di regressione lineare, sarà necessario scoprire che tipo di relazione si osserva.

Tipi di regressioni

Ad oggi esistono 7 diversi tipi di regressione: iperbolica, lineare, multipla, non lineare, a coppie, inversa, logaritmicamente lineare.

Iperbolico, lineare e logaritmico

L'equazione di regressione lineare viene utilizzata in statistica per spiegare chiaramente i parametri dell'equazione. Sembra y = c + m * x + E. L'equazione iperbolica ha la forma di un'iperbole regolare y \u003d c + m / x + E. L'equazione logaritmicamente lineare esprime la relazione usando la funzione logaritmica: In y \u003d In c + m * In x + In E.

Molteplici e non lineari

Due tipi più complessi di regressione sono multipli e non lineari. L'equazione di regressione multipla è espressa dalla funzione y \u003d f (x 1, x 2 ... x c) + E. In questa situazione, y è la variabile dipendente e x è la variabile esplicativa. La variabile E è stocastica e include l'influenza di altri fattori nell'equazione. L'equazione di regressione non lineare è un po' incoerente. Da un lato, rispetto agli indicatori presi in considerazione, non è lineare, e dall'altro, nel ruolo di valutazione degli indicatori, è lineare.

Regressioni inverse e a coppie

Un inverso è un tipo di funzione che deve essere convertita in una forma lineare. Nei programmi applicativi più tradizionali, ha la forma di una funzione y \u003d 1 / c + m * x + E. L'equazione di regressione accoppiata mostra la relazione tra i dati in funzione di y = f(x) + E. Proprio come le altre equazioni, y dipende da x ed E è un parametro stocastico.

Il concetto di correlazione

Questo è un indicatore che dimostra l'esistenza di una relazione tra due fenomeni o processi. La forza della relazione è espressa come un coefficiente di correlazione. Il suo valore oscilla nell'intervallo [-1;+1]. Un indicatore negativo indica la presenza di feedback, un indicatore positivo indica uno diretto. Se il coefficiente assume un valore uguale a 0, non esiste alcuna relazione. Più il valore è vicino a 1 - più forte è la relazione tra i parametri, più vicino a 0 - più debole.

Metodi

I metodi parametrici di correlazione possono stimare la tenuta della relazione. Sono utilizzati sulla base di stime di distribuzione per studiare parametri che obbediscono alla legge di distribuzione normale.

I parametri dell'equazione di regressione lineare sono necessari per identificare il tipo di dipendenza, la funzione dell'equazione di regressione e valutare gli indicatori della formula di relazione scelta. Il campo di correlazione viene utilizzato come metodo per identificare una relazione. Per fare ciò, tutti i dati esistenti devono essere rappresentati graficamente. In un sistema di coordinate bidimensionale rettangolare, tutti i dati noti devono essere tracciati. È così che si forma il campo di correlazione. Il valore del fattore descrittivo è segnato lungo l'ascissa, mentre i valori del fattore dipendente sono segnati lungo l'ordinata. Se esiste una relazione funzionale tra i parametri, questi si allineano sotto forma di una linea.

Se il coefficiente di correlazione di tali dati è inferiore al 30%, si può parlare della quasi totale assenza di connessione. Se è compreso tra il 30% e il 70%, indica la presenza di maglie di media tenuta. Un indicatore del 100% è la prova di una connessione funzionale.

Un'equazione di regressione non lineare, proprio come una lineare, deve essere integrata con un indice di correlazione (R).

Correlazione per la regressione multipla

Il coefficiente di determinazione è un indicatore del quadrato della correlazione multipla. Parla della rigidità della relazione dell'insieme di indicatori presentato con il tratto in studio. Può anche parlare della natura dell'influenza dei parametri sul risultato. L'equazione di regressione multipla viene valutata utilizzando questo indicatore.

Per calcolare l'indice di correlazione multipla, è necessario calcolarne l'indice.

Metodo dei minimi quadrati

Questo metodo è un modo per stimare i fattori di regressione. La sua essenza sta nel minimizzare la somma delle deviazioni al quadrato ottenute a causa della dipendenza del fattore dalla funzione.

Un'equazione di regressione lineare accoppiata può essere stimata utilizzando tale metodo. Questo tipo di equazioni viene utilizzato in caso di rilevamento tra gli indicatori di una relazione lineare accoppiata.

Opzioni di equazione

Ogni parametro della funzione di regressione lineare ha un significato specifico. L'equazione di regressione lineare accoppiata contiene due parametri: c e m Il parametro t mostra la variazione media nell'indicatore finale della funzione y, soggetta a una diminuzione (aumento) della variabile x di un'unità convenzionale. Se la variabile x è zero, la funzione è uguale al parametro c. Se la variabile x non è zero, il fattore c non ha senso economico. L'unica influenza sulla funzione è il segno davanti al fattore c. Se c'è un segno negativo, allora possiamo dire di un lento cambiamento nel risultato rispetto al fattore. Se c'è un vantaggio, questo indica un cambiamento accelerato nel risultato.

Ciascun parametro che modifica il valore dell'equazione di regressione può essere espresso in termini di equazione. Ad esempio, il fattore c ha la forma c = y - mx.

Dati raggruppati

Esistono tali condizioni dell'attività in cui tutte le informazioni sono raggruppate in base all'attributo x, ma allo stesso tempo, per un determinato gruppo, vengono indicati i valori medi corrispondenti dell'indicatore dipendente. In questo caso, i valori medi caratterizzano come l'indicatore dipende da x. Pertanto, le informazioni raggruppate aiutano a trovare l'equazione di regressione. Viene utilizzato come analisi di relazione. Tuttavia, questo metodo ha i suoi svantaggi. Purtroppo, le medie sono spesso soggette a fluttuazioni esterne. Queste fluttuazioni non riflettono lo schema della relazione, ne mascherano solo il "rumore". Le medie mostrano modelli di relazione molto peggiori di un'equazione di regressione lineare. Tuttavia, possono essere utilizzati come base per trovare un'equazione. Moltiplicando la dimensione di una particolare popolazione per la media corrispondente, puoi ottenere la somma di y all'interno del gruppo. Successivamente, è necessario eliminare tutti gli importi ricevuti e trovare l'indicatore finale y. È un po' più difficile fare calcoli con l'indicatore di somma xy. Nel caso in cui gli intervalli siano piccoli, possiamo prendere condizionatamente l'indicatore x per tutte le unità (all'interno del gruppo) allo stesso modo. Moltiplicalo per la somma di y per trovare la somma dei prodotti di xey. Inoltre, tutte le somme vengono unite e si ottiene la somma totale xy.

Regressione di equazioni a coppie multiple: valutare l'importanza di una relazione

Come discusso in precedenza, la regressione multipla ha una funzione della forma y \u003d f (x 1, x 2, ..., x m) + E. Molto spesso, tale equazione viene utilizzata per risolvere il problema della domanda e dell'offerta di un prodotto, il reddito da interessi sulle azioni riacquistate, lo studio delle cause e del tipo di funzione del costo di produzione. Viene anche utilizzato attivamente in un'ampia varietà di studi e calcoli macroeconomici, ma a livello di microeconomia, questa equazione viene utilizzata un po' meno frequentemente.

Il compito principale della regressione multipla è costruire un modello di dati contenente un'enorme quantità di informazioni al fine di determinare ulteriormente quale effetto ciascuno dei fattori ha individualmente e nella loro totalità sull'indicatore da modellare e sui suoi coefficienti. L'equazione di regressione può assumere una varietà di valori. In questo caso, vengono solitamente utilizzati due tipi di funzioni per valutare la relazione: lineare e non lineare.

Una funzione lineare è rappresentata sotto forma di tale relazione: y \u003d a 0 + a 1 x 1 + a 2 x 2, + ... + a m x m. In questo caso, a2, a m , sono considerati i coefficienti di regressione "pura". Sono necessari per caratterizzare la variazione media del parametro y con una variazione (diminuzione o aumento) di ciascun parametro x corrispondente di un'unità, con la condizione di un valore stabile di altri indicatori.

Le equazioni non lineari hanno, ad esempio, la forma di una funzione di potenza y=ax 1 b1 x 2 b2 ...x m bm . In questo caso, gli indicatori b 1, b 2 ..... b m - sono chiamati coefficienti di elasticità, dimostrano come cambierà il risultato (di quanto%) con un aumento (diminuzione) nell'indicatore corrispondente x dell'1% e con un indicatore stabile di altri fattori.

Quali fattori dovrebbero essere considerati quando si costruisce una regressione multipla

Per costruire correttamente una regressione multipla, è necessario scoprire a quali fattori prestare particolare attenzione.

È necessario avere una certa comprensione della natura della relazione tra fattori economici e modellati. I fattori da includere devono soddisfare i seguenti criteri:

  • Deve essere misurabile. Per poter utilizzare un fattore che descriva la qualità di un oggetto, in ogni caso, dovrebbe essere data una forma quantitativa.
  • Non dovrebbe esserci alcuna intercorrelazione tra fattori o relazione funzionale. Tali azioni molto spesso portano a conseguenze irreversibili: il sistema di equazioni ordinarie diventa incondizionato e ciò comporta la sua inaffidabilità e stime confuse.
  • Nel caso di un enorme indicatore di correlazione, non c'è modo di scoprire l'influenza isolata dei fattori sul risultato finale dell'indicatore, pertanto i coefficienti diventano non interpretabili.

Metodi di costruzione

Esistono moltissimi metodi e modi per spiegare come scegliere i fattori per l'equazione. Tuttavia, tutti questi metodi si basano sulla selezione dei coefficienti utilizzando l'indice di correlazione. Tra questi ci sono:

  • Metodo di esclusione.
  • Attiva il metodo.
  • Analisi di regressione graduale.

Il primo metodo consiste nel setacciare tutti i coefficienti dall'insieme aggregato. Il secondo metodo prevede l'introduzione di molti fattori aggiuntivi. Bene, il terzo è l'eliminazione dei fattori che erano stati precedentemente applicati all'equazione. Ognuno di questi metodi ha il diritto di esistere. Hanno i loro pro e contro, ma possono risolvere il problema dello screening degli indicatori non necessari a modo loro. Di norma, i risultati ottenuti con ogni singolo metodo sono abbastanza vicini.

Metodi di analisi multivariata

Tali metodi per determinare i fattori si basano sulla considerazione di singole combinazioni di caratteristiche interconnesse. Questi includono l'analisi discriminante, il riconoscimento del modello, l'analisi delle componenti principali e l'analisi dei cluster. Inoltre, esiste anche l'analisi fattoriale, che tuttavia è apparsa come risultato dello sviluppo del metodo dei componenti. Tutti loro vengono applicati in determinate circostanze, in determinate condizioni e fattori.

La scienza politica moderna procede dalla posizione sulla relazione di tutti i fenomeni e processi nella società. È impossibile comprendere eventi e processi, prevedere e gestire i fenomeni della vita politica senza studiare le connessioni e le dipendenze che esistono nella sfera politica della società. Uno dei compiti più comuni della ricerca politica è studiare la relazione tra alcune variabili osservabili. Un'intera classe di metodi statistici di analisi, uniti dal nome comune "analisi di regressione" (o, come viene anche chiamata, "analisi di correlazione-regressione"), aiuta a risolvere questo problema. Tuttavia, se l'analisi di correlazione consente di valutare la forza della relazione tra due variabili, utilizzando l'analisi di regressione è possibile determinare il tipo di questa relazione, prevedere la dipendenza del valore di una qualsiasi variabile dal valore di un'altra variabile .

Innanzitutto, ricordiamo cos'è una correlazione. Correlativo chiamato il caso speciale più importante di relazione statistica, che consiste nel fatto che valori uguali di una variabile corrispondono a diversi valori medi un altro. Al variare del valore dell'attributo x, il valore medio dell'attributo y cambia naturalmente, mentre in ogni singolo caso il valore dell'attributo A(con diverse probabilità) può assumere molti valori diversi.

La comparsa del termine "correlazione" in statistica (e le scienze politiche attirano il raggiungimento della statistica per risolvere i suoi problemi, che, quindi, è una disciplina legata alle scienze politiche) è associata al nome del biologo e statistico inglese Francis Galton, che ha proposto nel XIX secolo. fondamenti teorici dell'analisi di correlazione-regressione. Il termine "correlazione" nella scienza era già noto. In particolare, in paleontologia nel 18° secolo. è stato applicato dallo scienziato francese Georges Cuvier. Ha introdotto la cosiddetta legge di correlazione, con l'aiuto della quale, in base ai resti di animali trovati durante gli scavi, è stato possibile ripristinarne l'aspetto.

C'è una storia ben nota associata al nome di questo scienziato e alla sua legge di correlazione. Così, nei giorni di una vacanza universitaria, gli studenti che hanno deciso di fare uno scherzo a un famoso professore hanno tirato una pelle di capra con le corna e gli zoccoli su uno studente. Salì alla finestra della camera di Cuvier e gridò: "Ti mangerò". Il professore si svegliò, guardò la sagoma e rispose: “Se hai le corna e gli zoccoli, allora sei un erbivoro e non puoi mangiarmi. E per ignoranza della legge di correlazione otterrai un due. Si girò e si addormentò. Uno scherzo è uno scherzo, ma in questo esempio stiamo vedendo un caso speciale di utilizzo dell'analisi di correlazione-regressione multipla. Qui il professore, in base alla conoscenza dei valori dei due tratti osservati (la presenza di corna e zoccoli), in base alla legge di correlazione, ha ricavato il valore medio del terzo tratto (la classe a cui appartiene questo animale è un erbivoro). In questo caso, non stiamo parlando del valore specifico di questa variabile (cioè, questo animale potrebbe assumere valori diversi su una scala nominale - potrebbe essere una capra, un ariete o un toro...).

Passiamo ora al termine "regressione". A rigor di termini, non è collegato al significato di quei problemi statistici che vengono risolti con l'aiuto di questo metodo. Una spiegazione del termine può essere data solo sulla base della conoscenza della storia dello sviluppo dei metodi per studiare le relazioni tra le caratteristiche. Uno dei primi esempi di studi di questo tipo è stato il lavoro degli statistici F. Galton e K. Pearson, che hanno cercato di trovare uno schema tra la crescita dei padri e dei loro figli secondo due segni osservabili (dove X- altezza del padre e U- crescita dei bambini). Nel loro studio, hanno confermato l'ipotesi iniziale che, in media, i padri alti allevano figli mediamente alti. Lo stesso principio si applica ai padri e ai figli bassi. Tuttavia, se gli scienziati si fossero fermati lì, i loro lavori non sarebbero mai stati menzionati nei libri di testo di statistica. I ricercatori hanno trovato un altro modello all'interno dell'ipotesi confermata già menzionata. Hanno dimostrato che i padri molto alti producono figli mediamente alti, ma non molto diversi in altezza dai bambini i cui padri, sebbene al di sopra della media, non sono molto diversi dall'altezza media. Lo stesso vale per i padri di statura molto piccola (che si discosta dalla media del gruppo basso): i loro figli, in media, non differivano in altezza dai coetanei i cui padri erano semplicemente bassi. Hanno chiamato la funzione che descrive questa regolarità funzione di regressione. Dopo questo studio, tutte le equazioni che descrivono funzioni simili e costruite in modo simile iniziarono a essere chiamate equazioni di regressione.

L'analisi di regressione è uno dei metodi di analisi dei dati statistici multivariati, che combina un insieme di tecniche statistiche progettate per studiare o modellare le relazioni tra una variabile dipendente e più (o una) variabili indipendenti. La variabile dipendente, secondo la tradizione accettata in statistica, è chiamata risposta ed è indicata come V Le variabili indipendenti sono chiamate predittori e sono denominate come X. Nel corso dell'analisi, alcune variabili saranno debolmente correlate alla risposta e verranno eventualmente escluse dall'analisi. Le restanti variabili associate al dipendente possono anche essere chiamate fattori.

L'analisi di regressione permette di prevedere i valori di una o più variabili dipendenti da un'altra variabile (ad esempio la propensione a comportamenti politici non convenzionali a seconda del livello di istruzione) o da più variabili. Si calcola su PC. Per compilare un'equazione di regressione che consenta di misurare il grado di dipendenza della caratteristica controllata da quella fattoriale, è necessario coinvolgere matematici-programmatori professionisti. L'analisi di regressione può fornire un servizio inestimabile nella costruzione di modelli predittivi per lo sviluppo di una situazione politica, nella valutazione delle cause della tensione sociale e nella conduzione di esperimenti teorici. L'analisi di regressione viene utilizzata attivamente per studiare l'impatto sul comportamento elettorale dei cittadini di una serie di parametri socio-demografici: sesso, età, professione, luogo di residenza, nazionalità, livello e natura del reddito.

In relazione all'analisi di regressione, i concetti indipendente e dipendente variabili. Una variabile indipendente è una variabile che spiega o provoca una modifica in un'altra variabile. Una variabile dipendente è una variabile il cui valore è spiegato dall'influenza della prima variabile. Ad esempio, nelle elezioni presidenziali del 2004, i fattori determinanti, cioè variabili indipendenti erano indicatori come la stabilizzazione della situazione finanziaria della popolazione del paese, il livello di popolarità dei candidati e il fattore incarico. In questo caso, la percentuale di voti espressi per i candidati può essere considerata una variabile dipendente. Allo stesso modo, nella coppia di variabili “età dell'elettore” e “livello di attività elettorale”, la prima è indipendente, la seconda è dipendente.

L'analisi di regressione consente di risolvere i seguenti problemi:

  • 1) stabilire il fatto stesso della presenza o meno di una relazione statisticamente significativa tra Ci X;
  • 2) costruire le migliori stime (in senso statistico) della funzione di regressione;
  • 3) secondo i valori dati X costruire una previsione per l'ignoto In
  • 4) valutare il peso specifico dell'influenza di ciascun fattore X sul In e, di conseguenza, escludere dal modello elementi non significativi;
  • 5) individuando relazioni causali tra variabili, gestire parzialmente i valori di P aggiustando i valori delle variabili esplicative X.

L'analisi di regressione è associata alla necessità di selezionare variabili reciprocamente indipendenti che influiscono sul valore dell'indicatore in studio, determinare la forma dell'equazione di regressione e valutare i parametri utilizzando metodi statistici per l'elaborazione dei dati sociologici primari. Questo tipo di analisi si basa sull'idea della forma, della direzione e della vicinanza (densità) della relazione. Distinguere bagno turco e regressione multipla a seconda del numero di caratteristiche studiate. In pratica, l'analisi di regressione viene solitamente eseguita insieme all'analisi di correlazione. Equazione di regressione descrive una relazione numerica tra quantità, espressa come la tendenza di una variabile ad aumentare o diminuire mentre un'altra aumenta o diminuisce. Allo stesso tempo, razl e h a yut l brina e regressione non lineare. Quando si descrivono i processi politici, si trovano ugualmente entrambe le varianti di regressione.

Grafico a dispersione per la distribuzione dell'interdipendenza di interesse negli articoli politici ( u) e formazione degli intervistati (X)è una regressione lineare (Fig. 30).

Riso. trenta.

Grafico a dispersione per la distribuzione del livello di attività elettorale ( u) e l'età dell'intervistato (A) (esempio condizionale) è una regressione non lineare (Fig. 31).


Riso. 31.

Per descrivere la relazione di due caratteristiche (A "e Y) in un modello di regressione accoppiata, viene utilizzata un'equazione lineare

dove a, è un valore casuale dell'errore dell'equazione al variare delle caratteristiche, cioè deviazione dell'equazione dalla "linearità".

Per valutare i coefficienti un e b utilizzare il metodo dei minimi quadrati, che presuppone che la somma delle deviazioni al quadrato di ciascun punto del grafico a dispersione dalla retta di regressione dovrebbe essere minima. Probabilità ah b può essere calcolato utilizzando il sistema di equazioni:

Il metodo della stima dei minimi quadrati fornisce tali stime dei coefficienti un e b, per cui la retta passa per il punto di coordinate X e si, quelli. c'è un rapporto A = ascia + b. Viene chiamata la rappresentazione grafica dell'equazione di regressione retta di regressione teorica. Con una dipendenza lineare, il coefficiente di regressione rappresenta sul grafico la tangente della pendenza della retta di regressione teorica all'asse x. Il segno al coefficiente indica la direzione della connessione. Se è maggiore di zero, la relazione è diretta, se è minore è inversa.

Il seguente esempio tratto dallo studio "Political Petersburg-2006" (Tabella 56) mostra una relazione lineare tra le percezioni dei cittadini sul grado di soddisfazione della propria vita nel presente e le aspettative di cambiamenti nella qualità della vita nel futuro. La connessione è diretta, lineare (il coefficiente di regressione standardizzato è 0,233, il livello di significatività è 0,000). In questo caso, il coefficiente di regressione non è elevato, ma supera il limite inferiore dell'indicatore statisticamente significativo (il limite inferiore del quadrato dell'indicatore statisticamente significativo del coefficiente di Pearson).

Tabella 56

L'impatto della qualità della vita dei cittadini nel presente sulle aspettative

(San Pietroburgo, 2006)

* Variabile dipendente: "Come pensi cambierà la tua vita nei prossimi 2-3 anni?"

Nella vita politica, il valore della variabile studiata il più delle volte contemporaneamente dipende da diverse caratteristiche. Ad esempio, il livello e la natura dell'attività politica sono contemporaneamente influenzati dal regime politico dello stato, dalle tradizioni politiche, dalle peculiarità del comportamento politico delle persone in una determinata area e dal microgruppo sociale del rispondente, dalla sua età, istruzione, reddito livello, orientamento politico, ecc. In questo caso, è necessario utilizzare l'equazione regressione multipla, che ha la seguente forma:

dove coefficiente b.- coefficiente di regressione parziale. Mostra il contributo di ciascuna variabile indipendente alla determinazione dei valori della variabile (risultato) indipendente. Se il coefficiente di regressione parziale è vicino a 0, possiamo concludere che non esiste una relazione diretta tra le variabili indipendenti e dipendenti.

Il calcolo di un tale modello può essere eseguito su un PC utilizzando l'algebra delle matrici. La regressione multipla consente di riflettere la natura multifattoriale dei legami sociali e chiarire la misura dell'impatto di ciascun fattore individualmente e tutti insieme sul tratto risultante.

Coefficiente indicato b,è chiamato coefficiente di regressione lineare e mostra la forza della relazione tra la variazione dell'attributo fattore X e variazione della caratteristica effettiva Y Questo coefficiente misura la forza della relazione in unità di misura assolute delle caratteristiche. Tuttavia, la vicinanza della correlazione delle caratteristiche può essere espressa anche in termini di deviazione standard della caratteristica risultante (tale coefficiente è chiamato coefficiente di correlazione). A differenza del coefficiente di regressione b il coefficiente di correlazione non dipende dalle unità di misura accettate delle caratteristiche e, pertanto, è comparabile per qualsiasi caratteristica. Di solito, la connessione è considerata forte se /> 0,7, tenuta media - a 0,5 g 0,5.

Come sapete, la connessione più vicina è una connessione funzionale, quando ogni singolo valore Y può essere assegnato in modo univoco al valore X. Pertanto, più il coefficiente di correlazione è vicino a 1, più la relazione è vicina a quella funzionale. Il livello di significatività per l'analisi di regressione non deve superare 0,001.

Il coefficiente di correlazione è stato a lungo considerato il principale indicatore della vicinanza della relazione delle caratteristiche. Tuttavia, in seguito il coefficiente di determinazione è diventato un tale indicatore. Il significato di questo coefficiente è il seguente: riflette la quota della varianza totale della caratteristica risultante In, spiegato dalla varianza della funzione X. Si trova semplicemente quadrando il coefficiente di correlazione (cambiando da 0 a 1) e, a sua volta, per una relazione lineare riflette la quota da 0 (0%) a 1 (100%) valori caratteristici Y, determinato dai valori dell'attributo X.È registrato come io 2 , e nelle tabelle risultanti dell'analisi di regressione nel pacchetto SPSS - senza un quadrato.

Indichiamo i principali problemi di costruzione dell'equazione di regressione multipla.

  • 1. Scelta dei fattori inclusi nell'equazione di regressione. In questa fase, il ricercatore compila prima un elenco generale delle principali cause che, secondo la teoria, determinano il fenomeno in esame. Quindi deve selezionare le caratteristiche nell'equazione di regressione. La principale regola di selezione è che i fattori inclusi nell'analisi dovrebbero correlare il meno possibile tra loro; solo in questo caso è possibile attribuire una misura quantitativa di influenza ad un determinato fattore-attributo.
  • 2. Selezione della forma dell'equazione di regressione multipla(in pratica si usa più spesso lineare o lineare-logaritmico). Quindi, per utilizzare la regressione multipla, il ricercatore deve prima costruire un modello ipotetico dell'influenza di più variabili indipendenti su quella risultante. Affinché i risultati ottenuti siano affidabili, è necessario che il modello corrisponda esattamente al processo reale, ad es. la relazione tra le variabili deve essere lineare, non può essere ignorata una singola variabile significativa indipendente, così come non può essere inclusa nell'analisi una singola variabile che non sia direttamente correlata al processo in esame. Inoltre, tutte le misurazioni delle variabili devono essere estremamente accurate.

Dalla descrizione di cui sopra derivano alcune condizioni per l'applicazione di questo metodo, senza le quali è impossibile procedere alla procedura dell'analisi di regressione multipla (MRA). Solo il rispetto di tutti i seguenti punti consente di eseguire correttamente l'analisi di regressione.



superiore