Thursday 21 September 2017

Calcola Residui In Forex Stata


AVVISO: Il gruppo di consulenza Idre statistica sarà la migrazione del sito web per il CMS WordPress nel mese di febbraio per facilitare la manutenzione e la creazione di nuovi contenuti. Alcune delle nostre pagine più vecchie verranno rimossi o archiviati in modo tale che essi non saranno più mantenuti. Cercheremo di mantenere i reindirizzamenti in modo che i vecchi URL continueranno a lavorare nel miglior modo possibile. Benvenuti al Istituto per la ricerca digitale e l'istruzione Aiuto Consulting Group Stat dando un regalo Stata Web Libri Regressione con Stata Capitolo 2 - Regressione Diagnostica scaletta del capitolo 2.0 di regressione di diagnostica 2.1 Dati insoliti e influenti 2.2 Verifica normalità dei residui 2.3 Controllo omoschedasticità 2.4 Controllo per multicollinearità 2.5 Controllo Linearità 2.6 Specifica di modello 2.7 Problemi di Indipendenza 2.8 Sintesi 2.9 Auto valutazione 2.10 per maggiori informazioni 2.0 regressione diagnostica Nel capitolo precedente, abbiamo imparato come fare ordinaria regressione lineare con Stata, concludendo con i metodi per esaminare la distribuzione delle nostre variabili. Senza verificare che i dati hanno incontrato le ipotesi sottostanti regressione OLS, i risultati possono essere fuorvianti. Questo capitolo esplorerà come è possibile utilizzare Stata per verificare quanto bene i dati soddisfano i presupposti della regressione OLS. In particolare, si prenderà in considerazione le seguenti ipotesi. Linearità - le relazioni tra i predittori e la variabile risultato dovrebbe essere normalità lineare - gli errori deve essere distribuito normalmente - tecnicamente la normalità è necessaria solo per test di ipotesi siano valide, la stima dei coefficienti richiede solo che gli errori siano Omogeneità identicamente e indipendentemente distribuite della varianza (omoschedasticità) - la varianza errore dovrebbe essere costante Indipendenza - gli errori associati con una sola osservazione non sono correlati con gli errori di altri errori di osservazione delle variabili - variabili predittore sono misurati senza errori (anche noi faremo questo nel capitolo 4) Modello specifica - il modello deve essere adeguatamente specificati (incluse tutte le variabili rilevanti, ed escludendo le variabili irrilevanti) Inoltre, ci sono problemi che possono sorgere durante l'analisi che, mentre in senso stretto non sono ipotesi di regressione, sono nondimeno, di grande preoccupazione per analisti di dati. Influenza - osservazioni individuali che esercitano influenza indebita sui coefficienti di collinearità - predittori che sono altamente allineati, cioè correlata linearmente, può causare problemi nella stima dei coefficienti di regressione. Molti metodi grafici e test numerici sono stati sviluppati nel corso degli anni per la diagnostica di regressione. Stata ha molti di questi metodi built-in, e altri sono disponibili che possono essere scaricati su Internet. In particolare, Nicholas J. Cox (Università di Durham) ha prodotto un insieme di comandi di convenienza che può essere scaricato da SSC (SSC installare nomecomando). Questi comandi includono indexplot. rvfplot2. rdplot. qfrplot e ovfplot. In questo capitolo, esploreremo questi metodi e dimostrare come verificare le ipotesi di regressione e rilevare potenziali problemi utilizzando Stata. 2.1 insolito e influente dati una sola osservazione che è sostanzialmente diverso da tutte le altre osservazioni può fare una grande differenza nei risultati delle analisi di regressione. Se una singola osservazione (o un piccolo gruppo di osservazioni) cambia sostanzialmente i risultati, si vorrebbe sapere su questo e indagare ulteriormente. Ci sono tre modi in cui un osservazione può essere insolito. Valori anomali. In regressione lineare, un outlier è un'osservazione con grande residua. In altre parole, si tratta di una osservazione il cui valore dipende variabile è insolito dato i suoi valori sulle variabili predittive. Un valore anomalo può indicare una peculiarità campione o può indicare un errore di immissione di dati o altri problemi. Leva . Un'osservazione con un valore estremo su una variabile predittore è chiamato un punto ad elevata leva. Leverage è una misura di quanto un'osservazione discosta dalla media della variabile. Questi punti di leva possono avere un effetto sulla stima dei coefficienti di regressione. Influenza . Un'osservazione è detto essere influente se rimuovere l'osservazione cambia sostanzialmente la stima dei coefficienti. L'influenza può essere pensato come il prodotto della leva finanziaria e outlierness. Come possiamo identificare questi tre tipi di osservazioni Vediamo un esempio di dati chiamato crimine. Questo set di dati appare in Metodi statistici per le scienze sociali, Terza edizione di Alan Agresti e Barbara Finlay (Prentice Hall, 1997). Le variabili sono id stato (SID), il nome dello stato (stato), i crimini violenti per 100.000 persone (criminalità), omicidi per 1.000.000 (omicidio), la percentuale della popolazione che vive nelle aree metropolitane (pctmetro), la percentuale della popolazione che è bianco (pctwhite), per cento della popolazione con una formazione di scuola superiore o superiore (pcths), per cento della popolazione che vive sotto la linea di povertà (la povertà), e per cento della popolazione che sono genitori single (singolo). Diciamo che vogliamo prevedere crimine pctmetro. povertà . e single. Vale a dire, vogliamo costruire un modello di regressione lineare tra il crimine variabile di risposta e le variabili pctmetro indipendente. povertà e singolo. Per prima cosa guardare i grafici a dispersione di crimine contro ciascuna delle variabili predittive prima della analisi di regressione così avremo alcune idee su potenziali problemi. Siamo in grado di creare una matrice di dispersione di queste variabili come illustrato di seguito. I grafici di reato con altre variabili mostrano alcuni potenziali problemi. In ogni trama, vediamo un punto dati che è lontano dal resto dei punti dati. Consente di rendere i singoli grafici di reato con pctmetro e la povertà e unico in modo che possiamo avere una migliore visione di questi grafici a dispersione. Noi aggiungeremo l'opzione mlabel (stato) per etichettare ogni indicatore con il nome dello stato per identificare gli stati periferici. Tutti i grafici a dispersione suggeriscono che l'osservazione per dc stato è un punto che richiede particolare attenzione poiché distingue lontano da tutti gli altri punti. Vi terremo a mente quando facciamo la nostra analisi di regressione. Ora consente di provare il comando di regressione predire il crimine da pctmetro povertà e singolo. Andremo passo-passo per identificare tutti i punti potenzialmente insoliti o influenti in seguito. Consente di esaminare i residui studentizzati come un primo mezzo per identificare valori anomali. Di seguito si usa il comando di prevedere con l'opzione rstudent per generare residui studentizzati e chiamiamo i residui r. Siamo in grado di scegliere qualsiasi nome ci piace finchè si tratta di una Stata nome legale variabile. residui studentizzati sono un tipo di residuo standardizzato che può essere utilizzato per identificare valori anomali. Consente di esaminare i residui con una trama stelo e foglia. Vediamo tre residui che sporgono, -3.57, 2.62 e 3.77. Il display stelo e foglia ci aiuta a vedere alcuni potenziali valori anomali, ma non possiamo vedere quale stato (quali osservazioni) sono potenziali valori anomali. Consente di ordinare i dati sui residui e mostrare i 10 grandi e 10 piccoli residui insieme all'ID dello stato e il nome dello stato. Si noti che nel secondo comando lista -10l l'ultimo valore è la lettera quotlquot, non il numero uno. Dobbiamo prestare attenzione a residui studentizzati che superano 2 o -2, e ottenere ancora più preoccupati per i residui che superano 2.5 o -2.5 e nemmeno ancora più preoccupato per i residui che superano 3 o -3. Questi risultati mostrano che DC e MS sono le osservazioni più preoccupanti seguiti da FL. Un altro modo per ottenere questo tipo di uscita è con un comando chiamato Hilo. È possibile scaricare Hilo dall'interno Stata digitando findit Hilo (vedi Come posso utilizzare il comando findit per la ricerca di programmi e ottenere ulteriore assistenza per ulteriori informazioni sull'uso findit). Una volta installato, è possibile digitare quanto segue e ottenere un risultato simile a quello sopra digitando un solo comando. Consente di visualizzare tutte le variabili nella nostra regressione in cui il residuo studentizzato supera 2 o -2, cioè quando il valore assoluto del residuo è superiore a 2. Vediamo i dati per i tre potenziali valori anomali che abbiamo identificato, cioè Florida, Mississippi e Washington DC Guardando con attenzione a queste tre osservazioni, abbiamo potuto trovare alcun errore di inserimento dati, anche se si può decidere di fare un'altra analisi di regressione con il punto estremo, come cancellato DC. Torneremo su questo argomento più avanti. Vediamo ora le leve per identificare le osservazioni che avranno potenziale grande influenza su stime dei coefficienti di regressione. Usiamo lo spettacolo (5) opzioni alti sul comando Hilo per mostrare solo i 5 più grandi osservazioni (l'opzione alta può essere abbreviato come h). Vediamo che la DC ha il più grande effetto leva. In generale, un punto con leva superiore (2k2) n deve essere attentamente esaminato. Qui k è il numero di predittori e n è il numero di osservazioni. Nel nostro esempio, siamo in grado di effettuare le seguenti operazioni. Come abbiamo visto, DC è una osservazione che sia ha una grande leva residuo e grande. Tali punti sono potenzialmente i più influenti. Possiamo fare una trama che mostra la leva finanziaria da parte del quadrato residuo e cercare le osservazioni che sono congiuntamente alto su entrambe le misure. Possiamo farlo utilizzando il comando lvr2plot. lvr2plot acronimo di leva contro trama quadrato residui. Utilizzando residua quadrato anziché sé residua, il grafico è limitato al primo quadrante e le posizioni relative dei punti dati sono conservati. Questo è un modo rapido di controllare eventuali osservazioni influenti e valori anomali allo stesso tempo. Entrambi i tipi di punti sono di grande preoccupazione per noi. Le due linee di riferimento sono i mezzi di leva, orizzontale, e per il residuo normalizzato al quadrato, verticale. I punti che catturano subito la nostra attenzione è DC (con il maggior effetto leva) e MS (con il più grande residuo al quadrato). Bene guardare quelle osservazioni con più attenzione da loro messa in vendita. Ora lascia passare a misure globali di influenza, lascia specificamente guardare Cuochi D e DFITS. Queste misure sia combinano le informazioni sul residuo e leva finanziaria. Cuochi D e DFITS sono molto simili, tranne che scalano in modo diverso, ma ci danno risposte simili. Il valore più basso che cuoce D può assumere è zero, e maggiore è il Cooks D, più influente punto. Il punto di cut-off convenzione è 4n. Possiamo elencare qualsiasi tipo di osservazione al di sopra del punto di cut-off facendo quanto segue. Noi vediamo che la Cuochi D per la DC è di gran lunga il più grande. Ora lascia dare un'occhiata a DFITS. Il punto di cut-off per DFITS è 2sqrt (kn). DFITS può essere positivo o negativo, con numeri vicino allo zero corrispondenti ai punti con piccolo o nullo influenza. Come si vede, dfit indica anche che la DC è, di gran lunga, l'osservazione più influente. Le misure di cui sopra sono misure generali di influenza. Si può anche prendere in considerazione misure più specifiche di influenza che valutare come ogni coefficiente viene modificata eliminando l'osservazione. Questa misura è chiamato DiffBeta e viene creato per ciascuno dei predittori. A quanto pare questo è più computazionale intensivo di statistiche di riepilogo, come Cuochi D a partire dagli altri predittori di un modello ha, più di calcolo può comportare. Siamo in grado di limitare la nostra attenzione ai soli predittori che siamo più preoccupati di vedere come ben educati questi predittori sono. In Stata, il comando DiffBeta produrrà i DiffBeta per ciascuno dei predittori. I nomi per le nuove variabili create sono scelti da Stata automaticamente e iniziano con le lettere DF. Questo ha creato tre variabili, DFpctmetro. DFpoverty e DFsingle. Vediamo i primi 5 valori. Il valore per DFsingle per l'Alaska è .14, il che significa che per essere inclusi nell'analisi (rispetto a esclusione), Alaska aumenta il coefficiente per il singolo di 0,14 errori standard, vale a dire 14 volte l'errore standard per BSingle o (0,14 15.5). Poiché l'inclusione di una osservazione potrebbe o contribuire ad un aumento o diminuzione in un coefficiente di regressione, DiffBeta può essere positivo o negativo. Un valore DiffBeta in eccesso di 2sqrt (n) merita ulteriori indagini. In questo esempio, saremmo preoccupati per valori assoluti superiori a 2sqrt (51) o .28. Siamo in grado di tracciare tutti e tre i valori DiffBeta contro l'id Stato in un unico grafico riportato di seguito. Aggiungiamo una linea a .28 e -.28 per aiutarci a vedere le osservazioni potenzialmente problematici. Vediamo il valore più grande è di circa 3.0 per DFsingle. Siamo in grado di ripetere questo grafico con l'opzione mlabel () nel comando grafico per etichettare i punti. Con il grafico qui sopra possiamo identificare che DiffBeta è un problema, e con il grafico sottostante possiamo associare questa osservazione con lo Stato che proviene da. Ora lascia elencare tali osservazioni con DFsingle più grandi del valore di cut-off. La tabella seguente riassume le regole generali che usiamo per queste misure per identificare le osservazioni meritevoli di ulteriori indagini (dove k è il numero di predittori e n è il numero di osservazioni). Abbiamo utilizzato il comando prevedere per creare una serie di variabili associate con l'analisi di regressione e diagnostica regressione. Il comando help regresso non solo dà aiuto sul comando regresso, ma elenca anche tutte le statistiche che possono essere generati tramite il comando prevedere. Di seguito vi mostriamo un frammento del file di aiuto Stata illustrando le varie statistiche che possono essere calcolati tramite il comando prevedere. Abbiamo esplorato una serie di statistiche che possiamo ottenere dopo il comando regresso. Ci sono anche diversi grafici che possono essere utilizzati per cercare osservazioni insolite e influenti. Il comando avplot rappresenta graficamente un diagramma variabile aggiunto. Si chiama anche una trama parziale regressione ed è molto utile per identificare punti influenti. Ad esempio, nel avplot per la singola mostrato di seguito, il grafico mostra il crimine da solo dopo che entrambi crimine e single sono stati adeguati per tutti gli altri predittori nel modello. La linea tracciata ha la stessa pendenza come il coefficiente per il singolo. Questo grafico mostra come l'osservazione per DC influenza il coefficiente. Si può vedere come la linea di regressione si tirò verso l'alto cercando di passare attraverso il valore estremo della DC. Alaska e West Virginia possono anche esercitare notevole influenza sul coefficiente di singolo. Stata ha anche il comando avplots che crea una trama variabile aggiunto per tutte le variabili, che può essere molto utile quando si hanno molte variabili. Essa produce piccoli grafici, ma questi grafici può rivelare rapidamente se avete osservazioni problematici sulla base delle trame variabili aggiunti. DC è apparso come valore aberrante e un punto influente in ogni analisi. Dal momento che DC non è in realtà uno stato, possiamo usare questo per giustificare l'omissione che dall'analisi dire che abbiamo davvero desideriamo analizzare solo gli stati. In primo luogo, permette di ripetere la nostra analisi tra cui DC semplicemente digitando regresso. Ora, consente di eseguire l'analisi omettendo DC includendo se quotdcquot stato sul comando regresso (qui sta per quotnot pari toquot ma si potrebbe anche usare per indicare la stessa cosa). Come ci aspettiamo, l'eliminazione di DC ha fatto un grande cambiamento nel coefficiente per la singola. Il coefficiente per singolo sceso 132,4-89,4. Dopo aver eliminato DC, vorremmo ripetere il processo che abbiamo illustrato in questa sezione per la ricerca di eventuali altre osservazioni periferiche e influenti. Infine, abbiamo dimostrato che il comando avplot può essere utilizzato per la ricerca di valori anomali tra le variabili esistenti nel modello, ma dobbiamo notare che il comando avplot funziona non solo per le variabili nel modello, funziona anche per le variabili che non sono in modello, che è per questo che si chiama aggiunto variabile trama. Consente di utilizzare la regressione che include DC come vogliamo continuare a vedere mal comportamento causato da DC come una dimostrazione per fare diagnosi di regressione. Possiamo fare un avplot su pctwhite variabile. Nella parte superiore della trama, abbiamo quotcoef-3.509quot. E 'il coefficiente per pctwhite se fosse messo nel modello. Possiamo controllare che facendo una regressione, come di seguito. In questa sezione, abbiamo esplorato un certo numero di metodi di valori anomali che identificano e punti influenti. In un'analisi tipica, si sarebbe probabilmente utilizzare solo alcuni di questi metodi. In generale, ci sono due tipi di metodi per valutare i valori anomali: statistiche come residui, leva, Cuochi D e DFITS, che valutano l'impatto complessivo di una osservazione sui risultati della regressione, e statistiche come DiffBeta che valutano l'impatto specifico di un osservazione sui coefficienti di regressione. Nel nostro esempio, abbiamo scoperto che la DC è stato un punto di grande preoccupazione. Abbiamo eseguito una regressione con essa e senza di essa e le equazioni di regressione sono stati molto diversi. Siamo in grado di giustificare la rimozione dalla nostra analisi dal ragionamento che il nostro modello è quello di prevedere tasso di criminalità per gli stati, non per le aree metropolitane. 2.2 Verifica normalità dei residui Molti ricercatori ritengono che la regressione multipla richiede la normalità. Questo non è il caso. La normalità dei residui è richiesto solo per la verifica di ipotesi valida, vale a dire, l'ipotesi di normalità assicura che i valori p per il T-test e F-test saranno validi. La normalità non è richiesto per ottenere stime non distorte dei coefficienti di regressione. Regressione OLS richiede semplicemente che i residui (errori) essere identicamente e indipendentemente distribuite. Inoltre, non vi è alcuna ipotesi o il requisito che le variabili predittive essere distribuiti normalmente. Se questo fosse il caso di quanto non saremmo in grado di utilizzare variabili dummy codificato nei nostri modelli. Dopo corriamo un'analisi di regressione, siamo in grado di utilizzare il comando di prevedere per creare residui e poi usare i comandi come kdensity. qnorm e pnorm per verificare la normalità dei residui. Consente di utilizzare il file di dati elemapi2 abbiamo visto nel capitolo 1 per queste analisi. Consente di prevedere il rendimento scolastico (api00) da cento ricevere pasti gratuiti (pasti), percentuale di studenti di lingua inglese (ell), e la percentuale di insegnanti con credenziali di emergenza (emer). Abbiamo quindi utilizzare il comando di prevedere per generare residui. Di seguito si usa il comando kdensity per produrre una trama densità di kernel con l'opzione normale chiedendo che una densità normale essere sovrapposta sulla trama. kdensity acronimo di stima della densità del kernel. Esso può essere pensato come un istogramma con bidoni strette e media mobile. Il comando pnorm rappresenta graficamente con una probabilità del normale standardizzata (P-P) plot mentre qnorm rappresenta i quantili di una variabile contro i quantili di una distribuzione normale. pnorm è sensibile alla non normalità nella fascia centrale dei dati e qnorm è sensibile alla non normalità in prossimità delle code. Come si vede qui sotto, i risultati mostrano pnorm indicazioni di non normalità, mentre il comando qnorm mostra una leggera deviazione dalla normale alla coda superiore, come si può vedere nella kdensity sopra. Tuttavia, questo sembra essere una deviazione minore e banale dalla normalità. Possiamo accettare che i residui sono vicini a una distribuzione normale. Ci sono anche i test numerici per testare la normalità. Uno dei test è il test scritto da Lawrence C. Hamilton, Dipartimento di Sociologia, Univ. del New Hampshire, chiamato IQR. È possibile ottenere questo programma dal Stata digitando findit IQR (vedi Come posso utilizzare il comando findit per la ricerca di programmi e ottenere ulteriore assistenza per ulteriori informazioni sull'uso findit). IQR l'acronimo di gamma inter-quartile e assume la simmetria della distribuzione. valori anomali gravi consistono in quei punti che sono o 3 inter-quartile-range al di sotto del primo quartile o 3 inter-quartile-range al di sopra del terzo quartile. La presenza di eventuali valori anomali gravi dovrebbe essere una prova sufficiente per rifiutare la normalità ad un livello di significatività 5. valori anomali lievi sono comuni nei campioni di qualsiasi dimensione. Nel nostro caso, noi non hanno alcun gravi valori anomali e la distribuzione sembra abbastanza simmetrica. I residui hanno una distribuzione approssimativamente normale. Un altro test disponibile è il test swilk che esegue il test di Shapiro-Wilk W per la normalità. Il p-value si basa sul presupposto che la distribuzione è normale. Nel nostro esempio, è molto grande (.51), che indica che non possiamo rifiutare che R è normalmente distribuito. 2.3 Controllo omoschedasticità di residui Uno dei principali presupposti per l'ordinaria minimi quadrati di regressione è l'omogeneità della varianza dei residui. Se il modello è ben attrezzata-, ci dovrebbe essere alcun motivo ai residui tracciati contro i valori adattati. Se la varianza dei residui non è costante, allora la varianza residua è detto essere quotheteroscedastic. quot Esistono metodi grafici e non grafici per la rilevazione eteroscedasticità. Un metodo grafico comunemente utilizzato è quello di tracciare i residui rispetto valori stimati (prevista). Lo facciamo con il comando rvfplot. Di seguito si usa il comando rvfplot con il yline (0) possibilità di mettere una linea di riferimento a y0. Vediamo che il modello dei punti dati sta diventando un po restringe verso l'estremità destra, che è un'indicazione di eteroscedasticità. Vediamo ora un paio di comandi che prova per eteroschedasticità. Il primo test sulla heteroskedasticity in Imest è il test bianchi e la seconda in hettest è il test Breusch-Pagan. Sia verificare l'ipotesi nulla che la varianza dei residui è omogenea. Pertanto, se il valore p è molto piccola, dovremmo rifiutare l'ipotesi e accettare l'ipotesi alternativa che la varianza non è omogenea. Quindi in questo caso, la prova è contro l'ipotesi nulla che la varianza è omogenea. Questi test sono molto sensibili al modello ipotesi, come l'assunzione di normalità. Pertanto è una pratica comune per combinare le prove con trame diagnostici per esprimere un giudizio sulla gravità della eteroscedasticità e decidere se è necessaria alcuna correzione per heteroscedasticity. Nel nostro caso, la trama di cui sopra non mostrano troppo forte una prova. Quindi non abbiamo intenzione di entrare in dettagli su come correggere eteroschedasticità anche se ci sono metodi disponibili. 2.4 Controllo di Multicollinearità Quando vi è una relazione lineare perfetta tra i predittori, le stime per un modello di regressione non può essere calcolato in modo univoco. Il termine collinearità implica che due variabili sono vicino combinazioni lineari perfetti l'uno dall'altro. Quando più di due variabili sono coinvolti è spesso chiamato multicollinearità, anche se i due termini sono spesso usati come sinonimi. La preoccupazione principale è che aumenta il grado di multicollinearità, il modello di regressione stime dei coefficienti diventano instabili e gli errori standard per i coefficienti possono ottenere selvaggiamente gonfiato. In questa sezione, esploreremo alcuni comandi Stata che aiutano a rilevare multicollinearità. Possiamo usare il comando vif dopo la regressione per verificare la presenza di multicollinearità. Vif sta per fattore di inflazione della varianza. Come regola generale, una variabile i cui valori VIF sono maggiori di 10 possono meritare ulteriori indagini. La tolleranza, definita come 1VIF, viene utilizzato da molti ricercatori per controllare il grado di collinearità. Un valore di tolleranza inferiore a 0,1 è paragonabile a un VIF 10. Ciò significa che la variabile potrebbe essere considerato come una combinazione lineare di altre variabili indipendenti. Consente innanzitutto guardare la regressione che abbiamo fatto dal ultima sezione, il modello di regressione predire api00 dai pasti, ell e Emer e quindi eseguire il comando vif. I VIFS guardano bene qui. Ecco un esempio in cui le VIFS sono più preoccupanti. In questo esempio, il VIF e tolleranza (1VIF) Valori per gradsch avged e colgrad sono preoccupanti. Tutte queste variabili misurano l'educazione dei genitori e dei valori molto elevati VIF indicano che queste variabili sono forse ridondanti. Ad esempio, dopo lo sai gradsch e colgrad. probabilmente si può prevedere avged molto bene. In questo esempio, multicollinearità deriva dal fatto che abbiamo messo in troppe variabili che misurano la stessa cosa, l'educazione dei genitori. Consente di omettere una delle variabili relative all'istruzione genitore, avged. Si noti che i valori VIF nell'analisi che segue appaiono molto meglio. Inoltre, si noti come gli errori standard sono ridotti per le variabili educazione dei genitori, gradsch e colgrad. Questo perché l'elevato grado di collinearità causato errori standard per essere gonfiati. Con la multicollinearità eliminato, il coefficiente per gradsch. che era stato non significativo, è ora significativo. Consente di introdurre un altro comando su collinearità. Il comando Collin mostra diverse misure diverse di collinearità. Per esempio, possiamo testare la collinearità tra le variabili che abbiamo usato nei due esempi precedenti. Si noti che il comando Collin non ha bisogno di essere eseguito in connessione con un comando regresso, a differenza del comando vif che segue un comando regresso. Si noti inoltre che solo predittore variabili (indipendenti) sono usati con il comando Collin. È possibile scaricare Collin dall'interno Stata digitando Collin findit (vedi Come posso utilizzare il comando findit per la ricerca di programmi e ottenere ulteriore assistenza per ulteriori informazioni sull'uso findit). Ora togliamo avged e vediamo la diagnostica collinearità migliorano considerevolmente. Il numero di condizione è un indice comunemente usato dell'instabilità globale dei coefficienti di regressione - un gran numero di condizione, 10 o più, è un'indicazione di instabilità. 2.5 Controllo della linearità Quando facciamo la regressione lineare, si assume che la relazione tra la variabile di risposta ei predittori è lineare. Questo è l'assunzione di linearità. Se questa ipotesi è violata, la regressione lineare cercherà di adattare una linea retta a dati che non segue una linea retta. Verifica l'ipotesi lineare nel caso di semplice regressione è semplice, dal momento che abbiamo un solo predittore. Tutto ciò che dobbiamo fare è un grafico a dispersione tra la variabile di risposta e il predittore per vedere se non linearità è presente, come ad esempio una banda di curva o una grande curva a forma di onda. Ad esempio, ricordiamo che abbiamo fatto una semplice regressione lineare nel Capitolo 1 utilizzando set di dati elemapi2. Di seguito si usa il comando a dispersione per mostrare un grafico a dispersione predire api00 da iscriversi e utilizzare lfit per mostrare una misura lineare, e quindi lowess a mostrare un più agevole lowess api00 prevedere da iscriversi. Vediamo chiaramente un certo grado di non linearità. Controllo l'assunzione linearità non è così semplice nel caso di regressione multipla. Cercheremo di illustrare alcune delle tecniche che è possibile utilizzare. La cosa più semplice da fare è quello di tracciare i residui standardizzati contro ciascuna delle variabili predittive del modello di regressione. Se vi è un chiaro modello non lineare, c'è un problema di non linearità. Altrimenti, dovremmo vedere per ciascuna delle piazzole solo una dispersione casuale di punti. Consente di continuare a utilizzare elemapi2 set di dati qui. Consente di utilizzare un modello diverso. I due residua rispetto predittore trame variabili di cui sopra non indicano con forza una partenza chiaro dalla linearità. Un altro comando per la rilevazione di non linearità è acprplot. acprplot Grafici una trama aumentata componente-plus-residuo, pseudonimo aumentata grafica dei residui parziale. Può essere utilizzato per identificare linearità nei dati. Consente di utilizzare il comando acprplot per i pasti e somecol e utilizzare i lsopts Lowess (bWidth (1)), le opzioni per richiedere lowess lisciatura con una larghezza di banda pari a 1. Nel primo diagramma di sotto della linea levigata è molto vicino alla linea di regressione ordinaria, e le intero modello sembra abbastanza uniforme. La trama seconda sembra più problematico all'estremità destra. Questo può venire da alcuni potenziali punti influenti. Nel complesso, essi non sembra troppo male e non dovremmo essere troppo preoccupato per non-linearità nei dati. Abbiamo visto come utilizzare acprplot per rilevare non linearità. Tuttavia il nostro ultimo esempio non ha ancora mostrato molto linearità. Vediamo un esempio più interessante. Questo esempio è tratto da quotStatistics con Stata 5quot da Lawrence C. Hamilton (1997, Duxbery Press). Il set di dati che useremo si chiama nations. dta. Siamo in grado di ottenere il set di dati da Internet. Consente di costruire un modello che prevede tasso di natalità (nascita), da pro-capite prodotto nazionale lordo (gnpcap), e la popolazione urbana (urbana). Se questo fosse un'analisi completa regressione, si inizierebbe con esaminando le variabili, ma per lo scopo di illustrare non linearità, salteremo direttamente alla regressione. Ora, consente di fare il acprplot sulle nostre predittori. La trama acprplot per gnpcap mostra chiara deviazione dalla linearità e quello per urbana non mostra quasi tanto deviazione dalla linearità. Ora, consente di guardare queste variabili più da vicino. Vediamo che la relazione tra tasso di natalità e pro-capite prodotto nazionale lordo è chiaramente non lineare e la relazione tra tasso di natalità e la popolazione urbana non è troppo lontano dall'essere lineare. Quindi, consente di concentrarsi su gnpcap variabile. In primo luogo consente di guardare la distribuzione di gnpcap. Abbiamo il sospetto che gnpcap può essere molto inclinata. Questo può influenzare l'aspetto della acprplot. Infatti, è molto inclinata. Questo ci suggerisce che qualche trasformazione della variabile può essere necessario. Una delle trasformazioni comunemente usati è log trasformazione. Proviamo qui. La trasformazione sembra aiutare a correggere l'asimmetria notevolmente. Avanti, lascia fare la regressione di nuovo sostituendo gnpcap da lggnp. Il grafico sopra mostra meno deviazione dalla linearità di prima, ma il problema di non linearità non è stato ancora completamente risolto. 2.6 Specifica di modello Un errore di specificazione del modello può verificarsi quando uno o più rilevanti variabili vengono omessi dal modello o una o più variabili irrilevanti sono inclusi nel modello. Se variabili rilevanti vengono omessi dal modello, la varianza comune che condividono con variabili incluse può essere erroneamente attribuito a queste variabili, e il termine di errore è gonfiato. D'altra parte, se le variabili irrilevanti sono inclusi nel modello, la varianza comune che condividono con variabili incluse può essere erroneamente attribuito a loro. errori di specificazione del modello possono influenzare sostanzialmente la stima dei coefficienti di regressione. Si consideri il seguente modello. Questa regressione suggerisce che la dimensione della classe aumenta le accademici aumenta le prestazioni. Prima di pubblicare i risultati dicendo che una maggiore dimensione della classe è associata a più alto rendimento scolastico, consente di controllare le specifiche del modello. Ci sono un paio di metodi per rilevare errori di specifica. Il comando linktest esegue un test di collegamento specificazione del modello per i modelli single-equazione. linktest si basa sull'idea che se una regressione è correttamente specificato, non si dovrebbe essere in grado di trovare eventuali variabili indipendenti aggiuntive che sono significativi se non per caso. linktest crea due nuove variabili, la variabile di previsione, cappello. e la variabile di previsione al quadrato, hatsq. Il modello viene poi rimontare utilizzando queste due variabili come predittori. cappello dovrebbe essere significativo in quanto è il valore previsto. D'altra parte, sognerei hatsq, perché se il nostro modello è specificato correttamente, le previsioni squadrate non dovrebbero avere molto potere esplicativo. Cioè ci andrei aspettiamo hatsq per essere un predittore significativo se il nostro modello è specificato correttamente. Quindi ci occuperemo al p-value per hatsq. Dal linktest sopra. il test di hatsq non è significativo. Questo vuol dire che linktest è riuscita a respingere l'ipotesi che il modello è specificato correttamente. Pertanto, ci sembra che non hanno un errore di specificazione. Ma ora, consente di guardare un altro test prima di saltare alla conclusione. Il comando ovtest esegue un altro test di specificazione del modello di regressione. Si esegue un test di errore di specificazione di regressione (RESET) per variabili omesse. L'idea alla base ovtest è molto simile a LinkTest. Inoltre, crea nuove variabili in base ai predittori e ripara il modello utilizzando quelle nuove variabili per vedere se qualcuno di loro sarebbe significativo. Proviamo ovtest sul nostro modello. The ovtest command indicates that there are omitted variables. So we have tried both the linktest and ovtest . and one of them ( ovtest ) tells us that we have a specification error. We therefore have to reconsider our model. Lets try adding the variable full to the model. Now, both the linktest and ovtest are significant, indicating we have a specification error. Lets try adding one more variable, meals . to the above model. The linktest is once again non-significant while the p-value for ovtest is slightly greater than .05. Note that after including meals and full . the coefficient for class size is no longer significant. While acsk3 does have a positive relationship with api00 when no other variables are in the model, when we include, and hence control for, other important variables, acsk3 is no longer significantly related to api00 and its relationship to api00 is no longer positive . linktest and ovtest are tools available in Stata for checking specification errors, though linktest can actually do more than check omitted variables as we used here, e. g. checking the correctness of link function specification. For more details on those tests, please refer to Stata manual. 2.7 Issues of Independence The statement of this assumption that the errors associated with one observation are not correlated with the errors of any other observation cover several different situations. Consider the case of collecting data from students in eight different elementary schools. It is likely that the students within each school will tend to be more like one another than students from different schools, that is, their errors are not independent. We will deal with this type of situation in Chapter 4 when we demonstrate the regress command with cluster option. Another way in which the assumption of independence can be broken is when data are collected on the same variables over time. Lets say that we collect truancy data every semester for 12 years. In this situation it is likely that the errors for observation between adjacent semesters will be more highly correlated than for observations more separated in time. This is known as autocorrelation. When you have data that can be considered to be time-series you should use the dwstat command that performs a Durbin-Watson test for correlated residuals. We dont have any time-series data, so we will use the elemapi2 dataset and pretend that snum indicates the time at which the data were collected. We will also need to use the tsset command to let Stata know which variable is the time variable. The Durbin-Watson statistic has a range from 0 to 4 with a midpoint of 2. The observed value in our example is very small, close to zero, which is not surprising since our data are not truly time-series. A simple visual check would be to plot the residuals versus the time variable. In this chapter, we have used a number of tools in Stata for determining whether our data meets the regression assumptions. Below, we list the major commands we demonstrated organized according to the assumption the command was shown to test. Detecting Unusual and Influential Data predict -- used to create predicted values, residuals, and measures of influence. rvpplot --- graphs a residual-versus-predictor plot. rvfplot -- graphs residual-versus-fitted plot. lvr2plot -- graphs a leverage-versus-squared-residual plot. dfbeta -- calculates DFBETAs for all the independent variables in the linear model. avplot -- graphs an added-variable plot, a. k.a. partial regression plot. Tests for Normality of Residuals kdensity -- produces kernel density plot with normal distribution overlayed. pnorm -- graphs a standardized normal probability (P-P) plot. qnorm --- plots the quantiles of varname against the quantiles of a normal distribution. iqr -- resistant normality check and outlier identification. swilk -- performs the Shapiro-Wilk W test for normality. Tests for Heteroscedasticity rvfplot -- graphs residual-versus-fitted plot. hettest -- performs Cook and Weisberg test for heteroscedasticity. whitetst -- computes the White general test for Heteroscedasticity. Tests for Multicollinearity vif -- calculates the variance inflation factor for the independent variables in the linear model. collin -- calculates the variance inflation factor and other multicollinearity diagnostics Tests for Non-Linearity acprplot -- graphs an augmented component-plus-residual plot. cprplot --- graphs component-plus-residual plot, a. k.a. residual plot. Tests for Model Specification linktest -- performs a link test for model specification. ovtest -- performs regression specification error test (RESET) for omitted variables. See the Stata Topics: Regression page for more information and resources on regression diagnostics in Stata. 2.9 Self Assessment 1 . The following data set consists of measured weight, measured height, reported weight and reported height of some 200 people. You can get it from within Stata by typing use ats. ucla. edustatstatawebbooksregdavis We tried to build a model to predict measured weight by reported weight, reported height and measured height. We did an lvr2plot after the regression and here is what we have. Explain what you see in the graph and try to use other STATA commands to identify the problematic observation(s). What do you think the problem is and what is your solution 2 . Using the data from the last exercise, what measure would you use if you want to know how much change an observation would make on a coefficient for a predictor For example, show how much change would it be for the coefficient of predictor reptht if we omit observation 12 from our regression analysis What are the other measures that you would use to assess the influence of an observation on regression What are the cut-off values for them 3 . The following data file is called bbwt. dta and it is from Weisbergs Applied Regression Analysis. You can obtain it from within Stata by typing use ats. ucla. edustatstatawebbooksregbbwt It consists of the body weights and brain weights of some 60 animals. We want to predict the brain weight by body weight, that is, a simple linear regression of brain weight against body weight. Show what you have to do to verify the linearity assumption. If you think that it violates the linearity assumption, show some possible remedies that you would consider. 4. We did a regression analysis using the data file elemapi2 in chapter 2. Continuing with the analysis we did, we did an avplot here. Explain what an avplot is and what type of information you would get from the plot. If variable full were put in the model, would it be a significant predictor 5 . The data set wage. dta is from a national sample of 6000 households with a male head earning less than 15,000 annually in 1966. You can get this data file by typing use ats. ucla. edustatstatawebbooksregwage from within Stata . The data were classified into 39 demographic groups for analysis. We tried to predict the average hours worked by average age of respondent and average yearly non-earned income. Both predictors are significant. Now if we add ASSET to our predictors list, neither NEIN nor ASSET is significant. Can you explain why 6. Continue to use the previous data set. This time we want to predict the average hourly wage by average percent of white respondents. Carry out the regression analysis and list the STATA commands that you can use to check for heteroscedasticity. Explain the result of your test(s). Now we want to build another model to predict the average percent of white respondents by the average hours worked. Repeat the analysis you performed on the previous regression model. Explain your results. 7. We have a data set that consists of volume, diameter and height of some objects. Someone did a regression of volume on diameter and height. Explain what tests you can use to detect model specification errors and if there is any, your solution to correct it. Click here for our answers to these self assessment questions. 2.10 For more information2.9 Regression Diagnostics All of the diagnostic measures discussed in the lecture notes can be calculated in Stata, some in more than one way. In particular, you may want to read about the command predict after regress in the Stata manual. In this section we will be working with the additive analysis of covariance model of the previous section. To save typing the model each time we need it, we can define a local macro Now we can fit our model using the following command Let us start with the residuals. The easiest way to get them is as options of the predict command. Specify the option res for the raw residuals, rstand for the standardized residuals, and rstud for the studentized (or jackknifed) residuals. Let us obtain all three: To get the diagonal elements of the hat matrix and Cooks distance we use two more options of predict. hat and cook. We are now ready to print Table 2.29 in the notes Here is an easy way to find the cases highlighted in Table 2.29, those with standardized or jackknifed residuals greater than 2 in magnitude: We will use a scalar to calculate the maximum acceptable leverage, which is 2pn in general, and then list the cases exceeding that value (if any). We find that Haiti has a lot of leverage, but very little actual influence. Let us list the six most influential countries. I will do this by sorting the data in descending order of influence and then listing the first six. Statas regular sort command sorts only in ascending order, but gsort can do descending if you specify - di. Turns out that the D. R. Cuba, and Ecuador are fairly influential observations. Try refitting the model without the D. R. to verify what I say on page 57 of the lecture notes. Residual Plots On to plots Here is the standard residual plot in Figure 2.6, produced using the following commands: Now for that lovely Q-Q-plot in Figure 2.7 of the notes: Wasnt that easy Statas qnorm evaluates the inverse normal cdf at i(n1) rather than at (i-38)(n14) or some of the other approximations discussed in the notes. Of course you can use any approximation you want, at the expense of doing a bit more work. I will illustrate the general idea by calculating Fillibens approximation to the expected order statistics or rankits, using Statas built-in system variables n for the observation number and N for the number of cases. Fortunately the Filliben correlation agrees with the value in the notes: 0 .9655. I will skip the graph because it looks almost identical to the one produced by qnorm. copy 2017 Germaacuten Rodriacuteguez, Princeton University

No comments:

Post a Comment