Predizborne ankete: uzorak, pogreška i preciznost mjerenja

Matia Torbarina, mag. psych., autor teksta

Vrijeme izbora nam se bliži, a njime i silne ankete kojima nas iz dana u dan bombardiraju, a koje prognoziraju pobjedu ovog ili onog kandidata. Kroz sljedeće retke pokušat ću objasniti na koji način se ovakve ankete provode, te još važnije, kako se interpretiraju.

Po čemu je predviđanje izbornih rezultata specifično u odnosu na ostale predikcije?

Cilj anketa koje se provode uoči izbora je predvidjeti tko će biti sljedeći predsjednik ili kako će izgledati sljedeći saziv Sabora. Izbori su specifični za prognozu iz razloga što je vremenski period od trenutka kad se anketa počne provoditi do trenutka kada saznamo konačan rezultat veoma kratak (mjesec-dva dana). Usporedbe radi, u psihologijskim istraživanjima, kod kojih neki put želimo predvidjeti tko će biti uspješniji zaposlenik, vremenski period od inicijalnog predviđanja do konačnog rezultata može potrajati i nekoliko godina. Upravo iz razloga što nakon izbora imamo na uvid konačan rezultat, za potrebe ovog članka preuzeo sam rezultate prvog kruga predsjedničkih izbora 2019. godine sa stranice izbori.hr. U navedenoj bazi podataka nalaze se podaci o odabiru 3719141 glasača. Naravno da su rezultati anonimni te nam nisu dostupni podaci izuzev rednog broja glasača i njegovog odabira koji je mogao biti glas jednom od kandidata, neizlazak na izbore ili predaja nevažećeg listića. Za razliku od psihologijskih istraživanja gdje je, u pravilu, populacija puno šira i može uključivati sve ljude na svijetu te pravi rezultat populacije nikad ne možemo znati sa 100% sigurnošću, izbori nam nude konačnu sliku te omogućavaju priliku za jednostavnom simulacijom i evaluacijom predviđanja konačnog rezultata temeljem uzoraka različite veličine.

Uzorak sudionika u anketi

Kako bi ispitivanje 3,7 milijuna građana bilo vremenski i financijski zahtjevno, anketari se odlučuju za ispitivanje dijela populacije kojeg nazivamo uzorak. Obzirom da, na sreću, nismo svi isti ali smo dovoljno slični, pretpostavka je da možemo prilično dobro predvidjeti kako će svi građani glasati, znajući kako će glasati dio njih. Ova pretpostavka je temelj većine (ako ne i svih) istraživanja, ne samo u društvenim znanostima već i u prirodnim. Naravno da će naše predviđanje biti preciznije u slučaju da ispitamo uzorak koji nalikuje populaciji nego da ispitamo samo članove svoje uže obitelji. Kad kažem nalikuje mislim na to da u uzorku imamo podjednak omjer muškaraca i žena (kao i u populaciji), da je dob uzorka čim sličnija dobi populacije, da su u uzorku podjednako zastupljeni glasači iz svih dijelova Hrvatske, da omjer ljudi s internetom, telefonom, visokim i niskim primanjima u uzorku bude što sličniji onom u populaciji. Nažalost, takav uzorak je veoma teško prikupiti stoga se anketari okreću raznim metodama poput stratifikacije uzorka gdje populaciju podijele na nekoliko pod-uzoraka (ljudi s internetom, oženjeni, samci, zaposleni…) iz kojih zatim uzorkuju onoliko ispitanika koliko im je dovoljno da uspostave omjere iz populacije. Cilj različitih vrsta uzorkovanja je prikupiti uzorak koji je što sličniji nasumičnom uzorku koji je samim tim najsličniji populaciji, a povećanjem broja ispitanika povećavamo i njegovu reprezentativnost.

Kako se ankete provode – simulacija

Kako je ovo edukativan primjer, raspolagat ću svetim gralom društvenih istraživanja – slučajnim uzorkom – kako bismo simulirali na koji način se ankete inače provode. Slučajni uzorak definiran je jednakom vjerojatnosti za svakog ispitanika da bude uključen u uzorak bez obzira na geografsku lokaciju, digitalnu pismenost ili socioekonomski status, nešto što je u praksi rijetko (nikad) ostvarivo. Ovo je bitna napomena jer ćete vidjeti da rezultati koje predvidim pojedinim uzorcima odudaraju od konačnog rezultata što znači da će prave ankete, koje se evo trenutno, provode za parlamentarne izbore, biti još nepreciznije. Slika govori tisuću riječi stoga ću nerijetko prikazati grafički poruku koju želim prenijeti. Na Slici 1 nalazi se konačan rezultat prvog kruga predsjedničkih izbora.

Slika 1. Konačan rezultat prvog kruga izbora

Kao što se sjećate, Zoran Milanović i Kolinda Grabar Kitarović prošli su u drugi krug izbora dok je Miroslavu Škori prolaz, a KGK poraz, izmakao za jedno mjesto. Možda niste toga prije bili svjesni, ali prvi stupac je stvarni broj neglasača, no to je tema za neki drugi članak. Zaboravimo da znamo rezultat prvog kruga izbora te pokušajmo predvidjeti tko će od kandidata proći u drugi krug na temelju glasova nekoliko birača. Počnimo sa 100 ljudi u uzorku. Studenti često koriste 100 ljudi kao dovoljan broj ispitanika za ispitati postoji li neki efekt i u populaciji, pa krenimo. Na Slici 2 nalaze se grafički prikazani rezultati moje prve ankete.

Slika 2. Rezultati prvog kruga predsjedničkih izbora temeljeni na uzorku veličine N=100

Prema ovoj anketi, u drugom krugu možemo očekivati Miroslava Škoru dok drugo mjesto dijele Kolinda Grabar Kitarović i Zoran Milanović. Recimo da je ovu anketu naručila jedna TV kuća (Uzorak 1) kako bi informirala svoje gledatelje što mogu očekivati od izbora, druga TV kuća (Uzorak 2) angažirala je drugu agenciju za istraživanje tržišta koja je na uzorku jednake veličine (N=100) saznala da u drugi krug idu KGK i Škoro, treća TV kuća (Uzorak 3) svoju, u kojoj u idući krug idu KGK i Milanović, Internet portal je proveo svoju anketu (Uzorak 4), a recimo da su Slovenci proveli svoju (Uzorak 5). Obzirom na velik broj kandidata, daljnje analize biti će usmjerene na rezultate tri finalista radi preglednosti rezultata.

Slika 3. Usporedba predviđanja rezultata izbora na uzorcima N=100 i konačnog rezultata izbora

Obratimo pozornost na nekoliko sitnica. Prvo i osnovno, relativan postotak glasova je drukčiji nego na prethodna dva grafa, ali to je iz razloga što se, kao i na pravim izborima, neglasači ne uzimaju u konačan rezultat stoga je rezultat izbora određen postotkom glasova birača koji su izašli na izbore. Odnosi ostaju jednaki, no postotak osvojenih glasova je viši ako ga prikažemo kao udio u dijelu glasača, a ne kao udio u općoj populaciji. Možda bi ova činjenica mogla motivirati neglasače na izlazak na izbore. Prečesto kandidati u najavama i predizbornim obećanjima uvjeravaju građane da će biti predsjednici i onih „drugih 50%“ koji nisu glasali za njega/nju. Pobjednika prvog kruga izbora nije podržalo 40% populacije RH već 40% od polovice ljudi koji su uopće izašli na izbore..

Drugo što bi naivan promatrač zaista mogao pomisliti je da svaka stranka ima svoju agenciju za istraživanje tržišta obzirom da u dvije provedene ankete Škoro izlazi kao relativni pobjednik prvog kruga izbora, u dvije KGK, a u samo jednom uzorku Milanović. Osim toga, usporedite odnose konačnog rezultata svakog kandidata i odnose postotka glasova u uzorcima, niti ne nalikuju. Prije nego se pridružite teoretičarima zavjera kako su agencije podružnice političkih stranaka, moram napomenuti da nisam prikazao rezultate na način na koji, barem u posljednje vrijeme, novinari inzistiraju da se prikazuju, a to je uz napomenu o statističkoj pogrešci.

Pogreška i preciznost mjerenja

Ne moram vas podsjećati na situacije u kojima voditelji napomenu da je istraživanje provedeno na uzorku određene veličine pokazalo da kandidat može očekivati 20% glasova i da pogreška mjerenja ili pogreška predviđanja iznosi +/- 2%. Pogreška mjerenja je posljedica činjenice da ne ispitujemo sve pripadnike populacije nego samo neke te donosimo zaključke o konačnom rezultatu. Kao i sa svakom pogreškom, poželjno je da je ona što manja. U ovom konkretnom slučaju, anketari pogrešku mogu smanjiti na jedan od dva načina. Prvi je povećati broj ispitanika u anketi (što veći broj ljudi ispitamo bit ćemo bliži rezultatu svih ljudi), a drugi je smanjiti preciznost mjerenja. O preciznosti mjerenja možete razmisliti na sljedeći način: kad bih rekao da će Milanović osvojiti između 0 i 3719141 glasova ja bih bio u potpunosti u pravu, nepogrešivo bih predvidio rezultat izbora, no bio bih apsolutno neprecizan. Kada bih rekao da će Škoro osvojiti između 0 i 2 milijuna glasova povećao bih preciznost no istovremeno bih i povećao pogrešku jer postoji vjerojatnost (koliko god mala ona bila) da će Škoro osvojiti više od 2 milijuna glasova.  Ono što, najčešće, istraživači naprave u ovakvim situacijama je da odluče da bi bili zadovoljni kada bi u 95/100 anketiranja točno predvidjeli interval unutar kojeg se nalazi konačan rezultat (što naravno implicira da će u 5/100 anketa netočno predvidjeti da bi se rezultat jednog od kandidata npr. mogao nalaziti negdje između 25% i 35%, a u stvarnosti se nalazi na 17%).

Znajući tri podatka, veličinu populacije, veličinu uzorka i sigurnost koju želimo postići (da ćemo u 95% istraživanja točno predvidjeti konačan rezultat) možemo izračunati koliko iznosi naša pogreška mjerenja (ja sam je npr. izračunao u ovom online kalkulatoru). Na uzorku 100 ljudi iz populacije od 3,7 milijuna ona iznosi +/- 10%. Na Slici 4 je i grafički prikazana statistička pogreška svake provedene ankete.

Slika 4. Usporedba predviđanja rezultata izbora na uzorcima N=100 i konačnog rezultata izbora.

Zamislimo da smo proveli samo anketu na Uzorku 3 prema kojoj Milanović i Grabar Kitarović prolaze u drugi krug s 35% odnosno 40% glasova. No, obzirom na preciznost našeg mjerenja (veličinu horizontalnih linija na vrhu stupaca, tzv. intervala pouzdanosti, koja je određena pogreškom mjerenja) ne bismo se usudili zaključiti da Milanović i Grabar Kitarović prolaze u drugi krug zbog toga što se intervali pouzdanosti  preklapaju za svakog kandidata. To nam govori da kad bismo ispitali nekih drugih 100 ljudi da bismo mogli očekivati da će se njihov rezultat nalaziti negdje unutar tog intervala te je potpuno moguće da drugim uzorkom predvidimo da će npr. Škoro i Milanović u drugi krug (kao što jedan od uzoraka i pokazuje). Dakle, kad bismo proveli 100 različitih anketa (na uzorku veličine 100 ispitanika) očekivali bismo da će se konačan rezultat nalaziti negdje unutar tog intervala pouzdanosti.

Veći uzorak – bolja anketa

Naravno da je neopravdano predviđati rezultat u populaciji na temelju uzorka od 100 ljudi, ni profesionalne agencije ne provode istraživanja na tako malom broju ljudi. Na istom online kalkulatoru sam izračunao da kako bih smanjio pogrešku mjerenja na +/-1% morao bih prikupiti 4500 ispitanika u uzorku. Sljedeću simulaciju anketa napravio sam na uzorcima veličine N=4500 ispitanika. Rezultate sam prikazao grafički na Slici 5.

Slika 5. Usporedba predviđanja rezultata izbora na uzorcima N=4500 i konačnog rezultata izbora

Usporedimo li ove uzorke od 4500 ispitanika s onima od 100 ispitanika primjećujemo da svaki predviđa da Milanović i KGK prolaze u drugi krug. Ne samo da predviđaju točno konačan rezultat već svih 5 uzoraka izgleda gotovo jednako kao i konačan rezultat. Intervali pouzdanosti se ne preklapaju ni u jednom uzorku (osim u Uzorku 1, no sjetimo se da istraživač unaprijed pristaje da će u 95% uzoraka opaziti pravi rezultat no isto tako da će u 5% uzoraka krivo predvidjeti interval unutar kojeg se nalazi pravi rezultat).

Zaključak

Predviđanje nije tako jednostavno kakvim ga prikazuju razne vidjelice i čitaoci misli. Predviđanje budućnosti je mukotrpan posao koji je obilježen vječnom mogućnosti pogreške. Iako su često na meti raznih stranaka i kandidata, agencije za istraživanje tržišta i javnog mnijenja su komercijalne tvrtke koje žive od svog rada, a poštovanje i kredibilitet im ovisi o razlici između obećanog i ispunjenog. Kod agencija za istraživanje tržišta rok unutar kojeg možemo usporediti njihovo obećanje (da će točno prognozirati rezultate izbora) i konačan rezultat izbora je relativno kratak za razliku od političkih obećanja prije kampanje (da će zemlja prosperirati) koje možemo ocijeniti tek za nekoliko godina, a do tad, tko živ – tko mrtav.



Članak možete prokomentirati na našoj FB stranici

Predviđanje budućnosti je mukotrpan posao, obilježen vječnom mogućnošću pogreške. Premda su često na meti raznih…

Objavljuje Psihološki prostorČetvrtak, 18. lipnja 2020.