Kako koristiti višestruku regresiju u Excelu
Excel je moćan alat za analizu podataka, bilo da radite s jednostavnim odnosom između jedne nezavisne varijable i zavisne varijable ili postoji više nezavisnih varijabli koje treba uzeti u obzir. Naučiti kako izvesti multivarijantnu analizu u Excelu – u obliku višestruke regresije – i interpretirati rezultate bitno je ako morate obraditi komplicirane podatke. Dobra vijest je da je Excel dobro postavljen za rješavanje ovih zadataka i samo trebate naučiti kako radi jedna funkcija da biste počeli shvaćati svoje podatke.
Što je višestruka regresija?
Višestruka regresija je način povezivanja više nezavisnih varijabli s jednom zavisnom varijablom pronalaženjem jednadžbe koja opisuje kako se predmetna varijabla mijenja sa svakom od njih. Osnovniji, ali sličan alat je linearna regresija, čiji je cilj istražiti vezu između jedne nezavisne varijable, kao što je pretilost, i ovisne varijable kao što je rizik od raka, ali stvari su rijetko tako jednostavne. Nastavljajući s primjerom, broj popušenih cigareta dnevno također je povezan s rizikom od raka, kao i količina alkohola koju popijete. Da biste došli do pouzdanog predviđanja rizika od raka za pojedinca, trebali biste uzeti u obzir sve ove čimbenike (i više njih).
Opći oblik jednadžbe koja se koristi za višestruke regresije je:
Da ^ =a + b x + b x + b x …
Dakle, Y ^ je očekivana vrijednost za opažanje, b i tako dalje predstavljaju nagib pravocrtnog odnosa između x i Y ^ i x i tako dalje su varijable uključene u analizu. a govori vam smisao y -presretanje. Višestruka regresija uključuje odabir vrijednosti koeficijenata (b i tako dalje) koji minimiziraju razliku između očekivane vrijednosti Y ^ i promatranu vrijednost Y , dajući vam najbolje uklapanje između modela i podataka.
Što vam govori višestruka regresija?
Višestruke regresije stavljaju numeričke vrijednosti na povezanost između mnoštva varijabli i ishoda, tako da ih možete koristiti za predviđanja, za procjenu relativnih doprinosa različitih varijabli rezultatu ili za nekoliko drugih svrha poput odabira najrelevantnijih varijabli koristiti u matematičkom modelu.
Na primjer, recimo da imate podatke o cijenama kuća u određenom gradu (vaša zavisna varijabla), zajedno s informacijama poput ima li bazen, koliko četvornih metara zauzima, koliko spavaćih soba ima, koliko kupaonica ima , te koliko ima garaža. Višestruka regresija bi vam omogućila da pogledate kako je svaki od ovih faktora povezan s cijenom kuće, pa – nakon što ste pogledali kako su povezani s cijenom – možete upotrijebiti svoju jednadžbu za predviđanje cijene kuće na temelju ovih bodovi sami.
Također možete upotrijebiti ovu vrstu regresijske analize u Excelu da biste vidjeli kako određeni čimbenik od mnogih – kao što je ima li kuća bazen – utječe na zavisnu varijablu (cijene kuća) ako sve druge varijable ostanu konstantne. Ako pretvorite koeficijente (koji se nazivaju "koeficijenti djelomične regresije") u standardne koeficijente djelomične regresije, koji predstavljaju koliko standardnih odstupanja Y promijenio za ako ste odgovarajuću varijablu promijenili za jedno standardno odstupanje, onda vam jednadžba također govori koji su faktori važniji u određivanju rezultata.
Kako napraviti višestruku regresiju u Excelu
Možete izvesti multivarijatnu regresiju u Excelu koristeći ugrađenu funkciju kojoj možete pristupiti putem Analize podataka alat pod Podaci karticu i Analiza skupina. Kliknite Analiza podataka i pronađite opciju za regresiju u prozoru koji se pojavi označite ga i kliknite U redu . Kliknite na odaberi ćelije ikona pored unosnog raspona Y polje, a zatim odaberite stupac koji sadrži rezultate za vašu zavisnu varijablu. Zatim učinite isto za ulazni raspon X ali odaberite više stupaca za nezavisne varijable. Ovi stupci moraju biti jedan do drugoga, pa ako nisu, morate ih pomaknuti prije izrade regresije.
Regresijski prozor ima niz dodatnih opcija koje možete odabrati kako biste prilagodili proces svojim potrebama. Na primjer, ako želite, možete postaviti razinu pouzdanosti koja nije 95 posto, odabrati prikaz reziduala i odrediti gdje se izlaz nalazi u vašoj radnoj knjizi. Ova zadnja opcija automatski je postavljena na Novi sloj radnog lista tako da se rezultati prikazuju na novom listu, ali možete promijeniti ovu ili bilo koju drugu opciju kako bi odgovarala vašim potrebama. Osim toga, provjerite Oznake okvir ako stupci za vaše nezavisne varijable imaju oznake na vrhu, tako da se one prikazuju u izlazu.
Kliknite U redu za generiranje vaše regresijske analize u Excelu i odvođenje na novi list.
Izlaz regresije iz programa Excel
Postoje tri glavna odjeljka izlaza koji vam se prikazuje nakon izvođenja višestruke regresije u Excelu:regresijska statistika, ANOVA i pojedinosti o procijenjenoj regresijskoj liniji. Regresijska statistika uključuje koeficijent višestruke korelacije ("Multiple R") koji pokazuje smjer i snagu korelacije, od -1 do +1. Koeficijent determinacije, "R kvadrat", govori vam koji postotak (kao decimala) varijacije u ovisnoj varijabli objašnjavaju nezavisne varijable. "Prilagođeni R kvadrat" daje vam naznaku moći objašnjenja, ali nije ga jednostavno protumačiti, a "Standardna pogreška" daje vam mjeru varijacije između promatranih rezultata i vaše regresijske linije.
Odjeljak ANOVA sadrži statističke informacije o količini varijacije objašnjene regresijskom linijom, pri čemu vam "SS regresija" govori iznos objašnjen linijom, a "SS ostatak" predstavlja iznos koji nije objašnjen. Odjeljci "MS" označavaju "prosječni kvadrat", a "F statistika" je testna statistika koja se koristi za testiranje značajnog rezultata, a odjeljak "Značaj F" daje vam P-vrijednost.
Konačno, posljednji odjeljak govori o karakteristikama procijenjene regresijske linije, posebno o vrijednostima koeficijenata, jesu li značajno povezani s ovisnom varijablom i količini varijacije koja bi mogla biti u njima. Pozitivni koeficijenti pokazuju pozitivan odnos između dotične varijable i zavisne varijable, tako da kada jedna raste, povećava se i druga. Negativne vrijednosti znače da se zavisna varijabla smanjuje kako nezavisna varijabla raste. Dakle, ako je koeficijent "kvadratnih metara" višestruke regresije cijena kuće 300, to znači da dodatni kvadratni metar prostora povećava cijenu kuće za 300 USD u prosjeku.
Pretpostavke i ograničenja višestruke regresije
Važno je upamtiti da je višestruka regresija samo alat, a kao i većinu alata, možete je koristiti samo u određenim okolnostima, a postoje neke stvari koje jednostavno ne može.
Jedno od najvažnijih ograničenja je to što je teško zaključiti uzročnost na temelju rezultata. Na primjer, ako imate višestruku regresiju sa štetom uzrokovanom požarom i mnogim potencijalno relevantnim čimbenicima, vjerojatno ćete pronaći značajnu vezu između broja prisutnih vatrogasaca i učinjene štete. To ne znači da su ga prouzročili vatrogasci štetu jer bi drugi čimbenik poput veličine požara koji nije uključen u model mogao objasniti oba ova opažanja.
Dvije važne pretpostavke multivarijantne analize u Excelu ove vrste su pretpostavke linearnosti i normalnosti. Pretpostavljate linearni odnos između zavisnih i nezavisnih varijabli, pa biste trebali provjeriti je li to vjerojatno valjano prije izvođenja analize. Možete pogledati odnos između svake varijable zasebno da provjerite, ali to nije savršena strategija. Slično tome, test pretpostavlja da su varijable normalno raspoređene, pa biste trebali provjeriti normalnost rezultata za svaku prije provođenja testa.