We can't find the internet
Attempting to reconnect
Something went wrong!
Attempting to reconnect
Vodič u statističku pismenost
Vodič u statističku pismenost
Mnogi zaključci u stručnoj ili akademskoj literaturi, kao i puno manje sofisticiranoj propagandi, temelje se na nekoj vrsti statistike. To je posebno slučaj zadnjih desetljeća zbog napretka računarstva i dostupnosti velikih količina podataka. Članovi šire publike obično ne mogu kritički razmatrati takve konstrukcije. Razlog može biti generalna antipatija prema matematici ili ustaljenim oblicima obrazovanja, ili to da dublje razumijevanje statistike doista zahtijeva dobro poznavanje njenih temelja u naprednijoj matematici. Ipak, ti matematički detalji za neke svrhe mogu tek maskirati jednostavnu srž koja se skriva iza njih — dakle, nisu potrebni za ono što možemo zvati statistička pismenost. Cilj ovog teksta je, s minimalnim ulaskom u matematičku pozadinu, objasniti osnovne statističke koncepte, što statistika može i ne može, i koje su moguće metode manipulacije. Te manipulacije oko sebe namjerno stvaraju privid objektivnosti i stručnosti i zato je sposobnost njihovog kritičkog odbacivanja važna za realizaciju radničke klase.
Slučajne varijable
Definicija i interpretacija
Matematička disciplina vjerojatnosti počinje od skupa \Omega čije elemente zovemo elementarni događaji. Osim toga, neki1 (moguće svi) podskupovi skupa \Omega zovu se događaji, a vjerojatnost je funkcija koja događajima pridružuje njihovu vjerojatnost tj. broj između 0 i 1 (ili 0% i 100%). Ključni pojam u teoriji vjerojatnosti i statistici je slučajna varijabla — to je funkcija X \colon \Omega \to \mathbb R.2
S matematičke strane to je obična funkcija u kojoj nema nikakve slučajnosti. Stvar je u tome da u praktičnim primjenama argument te funkcije odgovara nečemu na što gledamo kao slučajno ili što nam nije unaprijed poznato. Primjerice, argument može biti “slučajno” odabrana osoba, a slučajna varijabla vraća njezinu visinu. Argument može biti “slučajno” odabrana točka na Zemlji, a slučajna varijabla može vratiti tlak, temperaturu, nadmorsku visinu i slično.
Filozofsko pitanje je što je uopće slučajno. Ne postoje doista slučajni događaji, ali pokazuju se korisni modeli u kojima na fenomene gledamo kao slučajne kada ne razumijemo njihovu fizikalnu pozadinu, vrlo je komplicirana (npr. kod bacanja kocke), ili ju ne možemo opažati, ili kada želimo zaključke o populaciji donijeti na temelju manjeg dijela (uzorka; npr. ako želimo procijeniti prosječnu ljudsku visinu u nekoj populaciji bez da mjerimo milijune ljudi).
Distribucija
Ono što još u praksi razdvaja slučajnu varijablu od obične funkcije je da nas ne zanima (ili ne znamo) koju vrijednost poprima u kojoj točki. Zanima nas distribucija (razdioba) tj. distribucijska svojstva. Najopćenitije, riječ je o vjerojatnosti da se funkcija nađe u danom skupu (npr. koja je vjerojatnost da je pozitivna, koja je vjerojatnost da je veća od 5?). Slučajne varijable ne moraju biti doslovno iste (kao funkcije) da bi imale jednaku distribuciju.3 Neka važna distribucijska svojstva su:
- očekivanje/sredina (očekivana vrijednost, prosjek, slično aritmetičkoj sredini, eng. expected value ili mean)
- varijanca (očekivani kvadrat odmaka varijable od sredine) i druge mjere raspršenosti; korijen varijance je standardna devijacija
- percentili distribucije (npr. 95%-ti percentil je vrijednost takva da je vjerojatnost da ju se nadmaši 5%) ili općenitije kvantili
- maksimum i minimum (ako postoje)
Vrste slučajnih varijabli
Slučajne varijable (tj. distribucije) kojima modeliramo pojave iz stvarnog svijeta obično su (u matematici ovo nisu jedine mogućnosti):
- diskretne, što znači da poprimaju vrijednosti u konačnom ili prebrojivom4 skupu — slučajna varijabla s Bernoullijevom distribucijom (kažemo i naprosto Bernoullijeva sl. var.) poprima vrijednosti 0 ili 1 pa se koristi za razne binarne događanje (npr. je li na novčiću palo pismo ili glava). Poissonova slučajna varijabla poprima vrijednosti u skupu nenegativnih cijelih brojeva (0,1,2…) te se njome modeliraju frekvencije raznih događaja, npr. broj prometnih nesreća u godini.
- ili neprekidne, što znači da poprimaju vrijednosti u nekom kontinuumu, npr. na nekom intervalu ili cijelom skupu realnih brojeva (precizna definicija je malo drukčija).
Najpoznatiji primjer neprekidne distribucije je normalna distribucija. Zapravo riječ je o više distribucija, određenih parametrima sredine (\mu) i standardne devijacije (\sigma, a varijanca je \sigma^2). Standardna ili jedinična normalna distribucija ima sredinu 0 i standardnu devijaciju 1. Ta distribucija nam je poznata kao tzv. Gaussova krivulja. Gaussova krivulja zapravo prikazuje gustoću distribucije — tamo gdje je veća, vjerojatnost da varijabla padne u okolinu je veća i obratno.
Normalna distribucija je od velike važnosti iz nekoliko razloga: često tu distribuciju pokazuju pojave u prirodi, pogodna je u matematici, a postoji i treći razlog koji ćemo navesti uskoro.
Još primjera neprekidnih distribucija su eksponencijalna, \Gamma-distribucija, uniformna, \chi-kvadrat, Studentova. Ponekad se neprekidnim varijablama modeliraju pojave koje su na neki način diskretne jer je tako smislenije. Primjerice, nema smisla definirati ljudsku visinu na 5 ili više decimala (zbog dnevnih oscilacija i ograničenja metoda mjerenja). Novac isto tako nije djeljiv ispod jednog centa ili ekvivalenta u drugim valutama, ali se obično na novac gleda kao da je beskonačno djeljiv.
Diskretne slučajne varijable možemo podijeliti na još par kategorija:
- numeričke, kada njima nešto brojimo (npr. broj nekih događaja u nekom vremenu),
- kategorijske, kada predstavljaju više mogućnosti bez numeričkog značaja (npr. nacionalnost, životinjska vrsta)
- binarne, kategorijske kada postoje samo dvije kategorije (npr. spol)
- ordinalne, kada su kategorijske ali postoji poredak ili hijerarhija među kategorijama (npr. ocjene od 1 do 5 su ordinalne iako ih možemo prikazati brojevima; jasnije je ako ih prikažemo od F do A).
Gaussova krivulja i normalna distribucija često se povezuje s IQ-om, ali ljudi obično ne znaju da je rezultat na IQ testu ordinalna varijabla. Broj točnih odgovora na testu (koji uopće ne mora biti normalno distribuiran) se namjerno transformira na način da distribucija IQ-a liči na normalnu. Čak i ako prihvatimo što nije istina, da je rezultat na IQ testu objektivna mjera kognitivnih sposobnosti, sam numerički IQ i dalje nema veće značenje od samog rangiranja.
Zavisnost, korelacija i uzročnost
Da su dvije slučajne varijable nezavisne znači da poznavanjem jedne ne dobivamo informaciju o drugoj. Zapravo, nikakva informacija o prvoj ne daje nam nikakvu informaciju o drugoj. Distribucija druge se ne mijenja ako saznamo nešto o prvoj.
Korelacija je pojam blizak zavisnosti. Grubo možemo reći da mjeri tendenciju jedne varijable da raste kada druga raste, odnosno pada kada druga pada. Postoji više vrsta korelacije — kada gledamo samo rast i pad, dobivamo Spearmanov koeficijent korelacije. Pearsonov koeficijent korelacije, koji se češće koristi, mjeri linearnu korelaciju, u smislu da daje koeficijent kod u prosjeku najbolje linearne aproksimacije jedne varijable drugom. Koeficijenti korelacije nalaze se između -1 i 1. Pritom 0 znači nekoreliranost, 1 znači savršenu pozitivnu korelaciju5, a -1 savršeno negativnu korelaciju. Pojam korelacije kod sasvim apstraktnih slučajnih varijabli (za razliku od onih koje su predstavljene stvarnim podacima tj. slučajnim uzorkom, v. niže) odgovara Pearsonovom koeficijentu.
Dvije nezavisne slučajne varijable nužno su nekorelirane, ali nekorelirane varijable ne moraju biti nezavisne6. U statistici, kada nemamo potpuno znanje o varijablama, nema smisla na temelju podataka zaključiti da su varijable nezavisne. Zato u statistici uvijek govorimo o koreliranosti, koristeći ju kao proxy za zavisnost, premda ti pojmovi nisu ekvivalentni.
Poznata greška je na temelju korelacije zaključiti nešto u uzročnosti, tj. zaključiti da su promjene jedne varijable u prirodi uzrok promjena druge varijable. Važnije nego istaknuti to kao grešku je napomenuti da se statistika uopće ne bavi tome što je čemu uzrok — statistika se bavi isključivo korelacijom. Primjerice, ako za varijable uzmemo stopu pušenja i stopu pojave raka pluća u nekim populacijama, dobit ćemu jaku pozitivnu korelaciju, ali time i dalje nismo dokazali da pušenje uzrokuje rak. Da zaključimo da pušenje uzrokuje rak, trebali bismo objasniti biološke mehanizme kojima jedno vodi do drugoga, a to je područje biologije, medicine i srodnih disciplina.
Iako statistički ne možemo ništa zaključiti o uzročnosti, i dalje možemo pokušati razjasniti stvari. Moguće je pogledati i neke nove varijable. Kada su dvije varijable korelirane ali ni jedna ne uzrokuje drugu, može postojati treća koja stoji iza obje. To se zove ometanje (eng. confounding) tj. nova varijabla se zove ometajuća.
Slučajni uzorak
Temeljni pojam u statistici je slučajni uzorak. Počevši od neke distribucije, zanima nas n slučajnih varijabli X_1, X_2, \ldots, X_n koje su nezavisne, a imaju istu tu distribuciju.
U praksi, početna distribucija nam je nepoznata, a želimo nešto o njoj saznati preko slučajnog uzorka. Na varijable X_i možemo gledati kao na mjerenja na različitim nezavisnim ispitanicima u nekakvoj anketi, nezavisna ponavljanja nekog pokusa i slično. Svakoj osobi/pokusu je tada jednoznačno pridružen rezultat, ali slučajnost je a priori, tj. prije nego što znamo o kojoj je osobi riječ ili prije nego što izvedemo pokus, varijabla ima odgovarajuću distribuciju.
Pojam nezavisnosti u praksi može biti problematičan. Što znači da su dva pokusa nezavisna, ili da su mišljenja dvoje ljudi u anketi nezavisna? Jasno, svi ljudi su povezani, a i kod izvođenja pokusa potrebno je opravdati tu pretpostavku. Dok se za udaljene ljude možda može opravdati ideja da su nezavisni, puno je teže isto to tvrditi za države. Upitno je onda za “slučajni” uzorak uzeti 200-tinjak država na Zemlji.
Kod slučajnog uzorka pojavljuje se pojam statistike u užem smislu. Statistika je bilo koja funkcija slučajnog uzorka. Poznati primjeri su prosjek (aritmetička sredina)
\bar X_n = \frac 1n \sum_{k=1}^n X_k
i uzoračka varijanca7
S_n^2 = \frac 1{n-1} \sum_{k=1}^n (X_k - \bar X_n)^2.
Ovo su ujedno nepristrani procjenitelji8 za redom sredinu i varijancu distribucije. To su primjeri kako se preko slučajnog uzorka može doći do informacija o stvarnoj distribuciji. Postavlja se pitanje — koliko su takve procjene pouzdane? Jasno je da načelno nikad nećemo dobiti u dlaku točni rezultat, ali jesmo li barem blizu? Precizno odgovoriti na takva pitanja je jedna od temeljnih zadaća statistike. Jedan osnovni zaključak je da veći uzorak daje pouzdanije procjene — varijanca od \bar X_n (ona je i sama slučajna varijabla) se smanji n puta u odnosu na varijancu distribucije (sve X_1, X_2, \ldots, X_n imaju istu distribuciju, pa i istu varijancu), što znači da ima manju tendenciju odstupati od vlastitog očekivanja, a ono je sredina distribucije.
Statistički testovi
Želimo odgovoriti na ovakva pitanja.
- Igramo Monopoly s prijateljem i on dobije dvije šestice 5 puta za redom. Je li mu se samo posrećilo ili koristi neki trik pri bacanju kocaka?
- Jednoj skupini osoba s visokim krvnim tlakom dali smo lijek, a drugoj skupini placebo. Nakon nekog vremena im je izmjeren tlak i doista je zamijećen pad tlaka kod onih koji su primali lijek? Znači li to da lijek doista smanjuje tlak?
- Slučajnom uzorku neke vrste riba izmjerena je duljina trupa. Je li ta duljina normalno distribuirana?
Nulta i alternativna hipoteza
U svakom slučaju, imamo nultu hipotezu — u prvom slučaju, da je vjerojatnost da padne 6 na kocki jednaka 1/6, u drugom slučaju moguća je hipoteza da su prosjeci tlaka u dvije skupine jednaki9, ili u trećem da je distribucija doista normalna (neka konkretna normalna, ili bilo koja). Nasuprot nultoj hipotezi je alternativna, koja može biti jednostavno negacija prve (npr. u trećem slučaju da distribucija nije normalna) ili jednostrana, npr. da je vjerojatnost da u prvom slučaju na kocki padne 6 veća (a ne samo različita) od 1/6.
Statistički test je bilo koja procedura kojom se na temelju slučajnog uzorka odlučuje hoće li se nulta hipoteza odbaciti u korist alternativne. U principu test nastoji odvagati snagu statističkih dokaza tj. ispitati čini li se nulta hipoteza slaba u odnosu na alternativnu. Ovdje je sretnija engleska terminologija — na našem jeziku će se i proof i evidence prevesti kao dokaz. Proof je definitivni dokaz, a evidence korisne informacije koje podržavaju tvrdnje, ali nisu definitivne — ovdje je to svakako evidence.
Ako ne odlučimo odbaciti nultu hipotezu, tada ne kažemo da ju prihvaćamo. Nulta hipoteza je nešto na neki način defaultno s čim se da lakše raditi. Ako ne nađemo dovoljno jaki dokaz da se nulta hipoteza opovrgne, ne znači da je odmah istinita. Ne samo zato jer zbog slučajnosti statističkim testom možemo donijeti krivu odluku, nego i zato jer nulta hipoteza zna biti vrlo specifična, pa ne mora vrijediti taj specifični slučaj samo zato jer ga nismo odbacili.
Statistički test koristi testnu statistiku (dakle, nekakvu funkciju slučajnog uzorka) i promatra njezinu distribuciju u slučaju da doista vrijedi nulta hipoteza. Ako vrijednost testne statistike baš i ne odgovara distribuciji (često to znači da je vrlo velika ili vrlo mala), onda odbacujemo nultu hipotezu. U primjeru s Monopolyjem, testna statistika može biti ukupni broj dobivenih šestica. Ako vrijedi nulta hipoteza, ta testna statistika ima binomnu distribuciju čiji su parametri ukupni broj bacanja i 1/610. Poznavanjem te distribucije, možemo na neki način odrediti koliko je rezultat našeg prijatelja ekstreman.
p-vrijednost
Način da se kvantificira koliko je ekstremna vrijednost testne statistike je p-vrijednost. Ona odgovara na pitanje: kolika je vjerojatnost, uz pretpostavku da je istinita nulta hipoteza, da se dobije rezultat koji je barem toliko ekstreman koliko taj kojeg smo dobili? Ovdje ekstremnost treba shvatiti u terminima vjerojatnosti. Na primjeru s kockama, p-vrijednost dobijemo tako da zbrojimo vjerojatnosti svih slučajeva čija je vjerojatnost najviše tolika kolika je za 10 šestica (koje su to, ovisi i o ukupnom broju bacanja). To ćemo zapravo napraviti ako nam je alternativna hipoteza dvostrana (vjerojatnost da padne 6 je različita od 1/6), dok ako je jednostrana (vjerojatnost da padne 6 je veća od 1/6) ćemo zbrojiti samo vjerojatnosti događaja koji su ekstremni jer je broj šestica velik (inače ekstremni su i oni događaji kod kojih je broj šestica mali). Kada radimo s neprekidnom distribucijom, umjesto o zbroju je riječ o integralu. Primjerice, ako nam testna statistika pod nultom hipotezom ima standardnu normalnu distribuciju, vrijednost testne statistike od 1.96 znači p-vrijednost od 5% (dobije se integriranjem funkcije gustoće na području \le -1.96 i \ge 1.96, a za jednostranu alternativu samo jedno od toga).
Kada je p-vrijednost mala, to znači da je vrijednost testne statistike u neskladu s nultom hipotezom. Koliko mala? Obično se uzima manja od 5%, ali taj izbor je sasvim proizvoljan. Tada ako je p-vrijednost manja od 5% se nulta hipoteza odbacuje u korist alternativne. Primijetimo što to znači — u 5% slučajeva kada je nulta hipoteza točna, svejedno ćemo ju odbaciti.
Osjetljivost i specifičnost
Može se dogoditi da p-vrijednost bude manja od 5% samo zbog slučajnosti. Zbog načina na koji je p-vrijednost definirana, vjerojatnost da se to dogodi je upravo 5%. Alternativno, može se dogoditi da je p-vrijednost relativno velika iako je nulta hipoteza neistinita. Postoje dakle dvije vrste pogrešnog zaključka statističkog testa:
-
Ako je nulta hipoteza istinita, a odbacimo ju, tada je riječ o pogreški prve vrste ili lažnom pozitivu. Sposobnost testa da ne odbaci istinitu hipotezu zove se specifičnost. Na konkretnim rezultatima testa, specifičnost će biti udio točnih negativa (ili
1-udio lažnih negativa). -
Ako je nulta hipoteza neistinita, a ne odbacimo ju, tada je riječ o pogreški druge vrste ili lažnom negativu. Sposobnost testa da odbaci netočnu nultu hipotezu zove se snaga ili osjetljivost. Na konkretnim rezultatima testa, osjetljivost će biti udio točnih pozitiva (ili
1-udio lažnih pozitiva).
Već smo rekli, vjerojatnost pogreške prve vrste je 5%. Granica od 5% može se zamijeniti drugom. Općenito, naziva se razina značajnosti i često se označava s \alpha. To koju razinu značajnosti koristimo ovisi o praktičnim potrebama. Ako ju smanjujemo, tada nam treba više dokaza (manja p-vrijednost) za odbaciti nultu hipotezu — imat ćemo više lažnih negativa. U suprotnom, povećavanjem razine značajnosti, imat ćemo više lažnih pozitiva. Kod testiranja na rak oboje je problem — ne želimo da nam promaknu ljudi s rakom, ali daljnja testiranja (biopsija) su na razne načine skupa. Statistički testovi s vrlo malim razinama značajnosti koriste se i za potvrđivanje otkrića u fizici čestica pa tako CERN javlja razinu značajnosti od 0.00006% što kod normalne distribucije znači odstupanje od 5 standardnih devijacija. Koliko jake dokaze želimo prije nego prijatelja optužimo da vara u Monopolyju? Što ako igramo s djetetom, a što ako želimo nekoga optužiti javno?
Kao što terminologija sugerira, statistički testovi pojavljuje se u medicini, iako se termini lažni pozitiv/negativ koriste kod pretraga općenito. Na linku vidimo kako se koncentracija antigena PSA koristi kao svojevrsna testna statistika. Kada je prevelika, postoji sumnja na rak prostate. Što znači prevelika? Ovdje nema teorijske distribucije, nego se naprosto bira granica na način da se ostvari čim bolja ravnoteža između lažnih pozitiva i lažnih negativa. Naravno da u tom odlučivanju mogu dominantnu ulogu igrati interesi kapitala i zato je bitno informirati se o osjetljivosti i specifičnosti pretraga na koje idemo.
Manipulacija statistikom
Statistika s razlogom nema dobru reputaciju, što dobro oslikava citat koji se (najvjerojatnije pogrešno) pripisuje Marku Twainu: “Postoje tri vrste laži: laž, prokleta laž i statistika.”
Postoji široki spektar grešaka i manipulacija koje se javljaju kad se statistika pokušava primijeniti u praksi. Mogu biti banalne i suptilne, namjerne i nehotične. Mogu i doći od samih vladajućih struktura kao dio informacijskih kampanja. Ponekad problem i nije u samoj statistici, nego u tome kako se statistički rezultati pokušavaju ekstrapolirati u nešto sasvim drugo — potvrdu sustava vrijednosti i političkih narativa.
Skupljanje i odabir podataka
Moguće je manipulirati rezultate na način da se naprosto falsificiraju podaci. Zvuči banalno, kao da se nitko nebi usudio, ili nebi htio srozati na tu razinu. Kad god pretpostavimo neku razinu dostojanstva od organizacija u kapitalističkom sustavu, uvijek na teži način saznamo da smo u krivu. Jedan vrlo nedavni primjer je Francesca Gino, ugledni psiholog s Harvarda, uhvaćena u falsificiranju podataka. Što onda očekivati od kapitalističkih korporacija i vlada?
Problemi se javljaju i kod pronalaska slučajnog uzorka. Moguće je, namjerno ili ne, uvesti pristranost u slučajni uzorak. Poznati primjer nalazimo u priči o američkim avionima koji su se vraćali iz borbe s oštećenjima na pojedinim dijelovima. Prva ideja može biti pojačati dijelove na kojima su oštećenja najveća. Zapravo, upravo to su dijelovi na kojima je šteta podnošljiva — avioni koje vidimo su oni koji nisu uništeni. Uzorak aviona je vrlo pristran (survivorship bias), ali to možemo i ne primijetiti.
Nakon što su skupljeni podaci, može se neke od njih odbaciti jer su outlieri tj. vrlo mali ili vrlo veliki u odnosu na ostale. To ima smisla u fizici kada jedno mjerenje jako odskače od ostalih, pa je izgledno da je došlo do greške u izvedbi pokusa ili u mjernim uređajima. To zapravo i je jedini razlog za izostavljanje podataka — ako nisu vjerodostojni. U protivnom, nije opravdano micati outliere samo zato jer se ne uklapaju u neki model. Outlieri su normalni dio slučajnog uzorka, pogotovo iz nekih distribucija. Micanjem outliera stvaramo neku sasvim novu distribuciju. Još je gore kada micanje outliera publici nije transparentno napomenuto, nego se izostavljaju post-hoc11 kako bi hipoteza izgledala jača.
Greške u interpretaciji
Neke greške proizlaze iz nerazumijevanja statističkih pojmova. Na primjer, treba imati na umu da statistički testovi mogu pogriješiti (čak se i namještaju tako da se ostvari konkretna vjerojatnost pogreške prve vrste) i zato se njihovi rezultati ne smiju predstavljati kao definitivni dokaz neke hipoteze. Isto vrijedi za razliku između korelacije i uzročnosti — u statistici možemo govoriti samo o korelaciji podataka ili varijabli, a ni tamo nema potpune sigurnosti. Čak i kada autori statističkih analiza naglase te činjenice, ne znači da se u medijima neće pojaviti Znanost kaže ili Znanstvenici otkrili, ili da će se vladajuće institucije suzdržati od provođenja politika koje takvim istraživanjima žele opravdati. Samo pojavljivanje neke hipoteze u renomiranom izvoru treba tretirati kao politički čin s materijalnim posljedicama.
Toga se nismo ovdje dotaknuli, ali neki statistički rezultati su asimptotski, što znači da vrijede tek na velikim uzorcima. Nema jedinstvenog odgovora na pitanje koliko velikim, ali npr. će problematične distribucije biti one sklonije outlierima. Slično tome, statistički testovi obično imaju neke pretpostavke na koje se u praksi zna odmahnuti rukom. Primjerice, ranije pitanje o tlaku riješilo bi se poznatim t-testom čija je pretpostavka normalna distribuiranost podataka. Tek tada vrijedi distribucija testne statistike u uvjetima nulte hipoteze koja je temelj za sam test.
Manipulativna post-hoc analiza
Postoji više vrsta post-hoc analize. Jedan od najpoznatiji je p-hacking, gdje p dolazi od p-vrijednosti. Zamislimo da promatramo korelaciju između stope neke bolesti i 100 različitih gena na način da provedemo 100 puta statistički test (nulta hipoteza je da su varijable nekorelirane). Čak i da ni u kom slučaju nema prave korelacije, i dalje očekujemo da ćemo u 5 slučajeva odbiti nultu hipotezu ako radimo s razinom značajnosti (dakle, i vjerojatnosti pogreške prve vrste) od 5%. Provođenje 100 testova nije samo po sebi loše12, ali sasvim je druga priča ako se javno objavi tek tih pet (pretpostavljamo, lažnih) pozitiva, a prešuti sve one ostale: “Uspjeli smo povezati 5 novih gena s tom bolesti!”
Još neke mogućnosti:
- Odabir statističkog testa. Primjerice, postoji više statističkih testova za normalnost (Liliefors, Shapiro–Wilk, Jarque–Bera, Anderson–Darling i dr.), a svaki od njih “gleda” različite vrste odstupanja distribucije od normalne. Moguće je (netransparentno13) odabrati baš onaj test koji nam nudi zaključak koji želimo. Jer su testovi različiti, ne moraju donijeti istu odluku.
- Kao što smo već rekli, moguće je izostaviti dio podataka koji se ne uklapaju u priču, bilo uz nekakvo opravdanje ili prešućujući da su ikad postojali.
- U radu s vremenskim podacima (vremenskim nizovima), moguće je ograničiti se samo na neki vremenski interval. Ispitivanjem različitih mogućnosti, možemo odabrati interval koji nam je najpovoljniji.
Ovakve vrste prevara su naročito opasne: lako ih je izvesti, teško ih je prozvati (bez pristupa samim podacima je i nemoguće) i mogu se iskoristiti da se stvori kredibilitet oko svega i svačega.
Politički narativi
Često se rezultati statističkih analiza pokušavaju prikazati kao nešto sasvim drugo, naizgled blisko. Desničari, u pokušajima legitimiziranja rasizma, znaju reći da statistika ne laže. Tako će se američki rasisti pozvati na veće stope uhićenja ili zatvaranja crnaca naspram ostalih rasnih skupina. Moguće je da griješe negdje u skupljanju ili prezentiranju podataka, ali nisu od pomoći odgovori koji se fokusiraju na tehničke detalje. Ne pomažu, jer ono što je zaista potrebno je osporiti rasističke pretpostavke — da je za pojavu nasilja odgovorna marginalizirana skupina, a ne sustav koji joj nikad nije dozvolio normalni život.
Kad su u pitanju komplicirane pojave, da ih se opiše se koriste razni proxyji — umjesto mentalnog zdravlja tu je broj “točnih” odgovora na nekakvom upitniku, umjesto inteligencije tu je IQ (još jedno omiljeno oružje rasizma), umjesto blagostanja tu su BDP, HDI, GINI ili stopa nezaposlenosti. Ti proxyji nalaze se na spektru između uvjetno korisnih i krajnje nebuloznih. Svaka zamjena komplicirane pojave nekim brojem neće pokriti svu kompleksnost pojave i bit će podložna manipulacijama.
Neko vrijeme u medicini, psihologiji i sličnim disciplinama vlada želja da se sve pripiše genetskim uzrocima. Rak, depresija, ovisnosti — sve navodno ima barem djelomično genetski uzrok. Naravno, pripisivati problematične pojave nepromjenjivim individualnim karakteristikama je vrlo pogodno kapitalističkom sistemu, jer je on tada potpuno oslobođen odgovornosti za katastrofalne posljedice koje stvara. Ovdje se još jednom trebamo sjetiti razlike korelacije (npr. prisutnosti nekog gena i ovisnosti) i uzročnosti. Ali čak i kada bi se pokazao biokemijski efekt nekog gena koji pogoduje razvoju bolesti, to i dalje ne opravdava narativ da su za te probleme odgovorni geni. Kakve god specifičnosti imao pojedinac, u različitim društvenim sustavima one mogu imati različite rezultate. Opet se u ovoj naizgled znanstvenoj priči skriva pretpostavka — društveni sustav je prirodan i nepromjenjiv, a propitkivati ga je neprimjereno. Umjesto toga, trebamo se posvetiti genima, koji doista jesu prirodni i nepromjenjivi.
Manipulacija u vizualizaciji podataka
Vizualizacija podataka raznim vrstama grafova služi tome da se prikaže poruka koja nije toliko vidljiva u običnim (npr. tabličnim) prikazima. U pripremi i interpretaciji podataka moguće su sve manipulacije o kojima smo govorili do sada, ali i neke nove vezane specifično za oblikovanje grafa.
U školi se obično uči da se grafovi14 crtaju tako da je na obje osi prikazana neka okolina nule. Kada su podaci na jednoj od osi svi daleko udaljeni od nule, onda nema smisla prikazivati cijelu os od nule, već ju eng. trunceati. Nije uvijek jasno je li to opravdano, ili s druge strane čak jedino opravdano — ako tako napravimo povećat ćemo vizualni značaj razlika među podacima, a ako tako ne napravimo će podaci djelovati homogeniji. Kada pogledamo graf s vrijednostima nekih dionica, možda će nas iznenaditi turbulentnost, prije nego vidimo da raspon iznosi samo par centi, a da je vremenski raspon jedan dan. Nama to možda nije korisno, ali bit će korisno trgovcima koji prate i male fluktuacije iz sata u sat. Dakle, nema općenito pravog ili krivog izbora, nego korisnost odluka ovisi o tome kome je graf namijenjen.
Slična je stvar s transformacijama podataka. Štoviše, neke metrike (npr. pH vrijednost ili Richterova skala za snagu potresa) su same po sebi logaritamske. Logaritmiranjem podataka smanjit ćemo razlike među njima. Ako ih ne logaritmiramo (ili poništimo logaritmiranje u pH vrijednosti i sl.) ćemo napuhati razlike gdje to možda nije potrebno.
Literatura
Iako nesumnjivo postoji još “popularnih” tekstova o statistici, cilj ovog teksta je bio, prvo, da (umjesto pojednostavljenja do beskorisne površnosti) doista omogući ljudima kritičko razmišljanje kad je u pitanju statistika ili ih barem k tome usmjeri, i drugo, da tome doda politički kontekst i jasno usmjerenje. Sadržaj teksta nema specifične izvore (osim tamo gdje su navedeni). Što se tiče matematičke strane, korisna literatura su svi sveučilišni udžbenici ili skripte koji se pojavljuju kao literatura na preddiplomskim studijima na našim ili stranim sveučilištima jer svi sadrže slično gradivo prezentirano na slični način. Za specifična pitanja, bolji izvor je Wikipedia jer dobro balansira stručnost i pristupačnost. Nisu preporučljivi razni SEO-frizirani siteovi koji će se pojaviti prvi, između ostalog jer znaju sadržavati netočne informacije. Na kraju, Dr. Fatima ima video na temu vizualizacije podataka.
-
↩
Za znatiželjne o matematičkim detaljima: ta familija podskupova, često označena
\mathcal F, je\sigma-algebra skupova, što znači\emptyset \in \mathcal Fi zatvorenost na komplemente i prebrojive unije. Za\Omega = \mathbb Robično\mathcal Fobuhvaća Borelove skupove. -
↩
Za znatiželjne o matematičkim detaljima: zahtijeva se još da je
X^{-1}(B) \in \mathcal Fza svaki Borelov skupB. Sve “pristojne” funkcije to zadovoljavaju (i svi “pristojni” skupovi su Borelovi) tako da nam ovdje to nije od važnosti. -
↩
npr. ako
Xima standardnu normalnu distribuciju,-Xima istu distribuciju ali nije ista kao funkcija; također, moguće je i realizirati istu distribuciju varijablama na različitim\Omega. -
↩
Primjeri prebrojivih skupova su skup prirodnih brojeva (1,2,3…) i cijelih brojeva (…,-2,-1,0,1,2…). Skup je prebrojiv ako ima jednako elemenata kao skup prirodnih brojeva, u smislu da postoji bijekcija između njega i skupa prirodnih brojeva.
-
↩
Rast jedne uvijek odgovara rastu druge, odnosno jednu možemo točno pogoditi linearnom funkcijom druge te je nagib te funkcije pozitivan, primjerice
X=2Y+3. Savršeno negativna korelacija znači da rast uvijek odgovara padu ili npr.X=-2Y+3. -
↩
npr. ako je
Xstandardna normalna varijabla, tada suXiX^2nekorelirane ali zavisne -
↩
zato se stvarna varijanca ponekad zove populacijska varijanca
-
↩
nepristrani procjenitelj za neko distribucijsko svojstvo je statistika koja u prosjeku pogađa pravu vrijednost (preciznije, očekivanje odstupanja je
0) -
↩
zapravo znamo točno koji je prosjek tlaka u kojoj skupini, tako da je to pitanje riješeno — ono što nas zapravo zanima je li razlika statistički značajna, što znači da je razlika veća nego što bismo očekivali da se dogodi zbog čiste slučajnosti
- ↩
-
↩
izraz post-hoc ovdje označava razne manipulacije koje se događaju nakon što se već ispitaju podaci, odnosno snaga hipoteza i modela; to nije legitimno jer na taj odabir utječe i element slučajnosti
-
↩
može biti i korisno za eksplorativne svrhe tj. tako da nas uputi u kojem smjeru možemo gledati dalje; pitanje je i jesu li dobivene male p-vrijednosti tek nešto manje od 5%, ili su vrlo male kakve se traži u fizici
-
↩
moguće je to napraviti transparentno i tako ispasti manje manipulativan, ali i dalje je neopravdano
-
↩
ovdje se misli na grafove s x-osi i y-osi, no postoje još vrsta grafičkih prikaza kao što su piechartovi