Statistici pur și simplu

Analize statistice

Cu câteva zile în urmă, o drăguță studentă la psihologie mi-a cerut ajutor pe un subiect și, după ce am discutat despre asta, mi-a sugerat că ar mai exista un subiect aici care să aibă nevoie de ajutorul echipei sale. Deși inițial nu am vrut să mă ocup de acest lucru, m-am gândit să încerc să ajut echipa să se pregătească pentru următorul ZH. Problema pe care a ridicat-o a fost rezumată de fapt într-un tabel:

cerere

Adică, întrebarea a fost ce fel de teste de ipoteză pot fi utilizate pentru a examina valorile medii ale seturilor de date care au un număr mic de itemi, dar care nu sunt distribuite în mod normal. Mai precis, întrebarea era ce este acoperit de „numele codurilor secrete” marcate în coloana „Deoarece”. M-am mai ocupat de testul cu un singur eșantion (Brewer-ul care a revoluționat statisticile și Cum se face cu Minitab - Un singur eșantion t-test), dar încă nu am făcut testele non-parametrice. În plus, nici celelalte nume din coloană nu-mi spun prea multe (să spunem că nu sunt mândru de asta). Dar am decis să îmbrac mănușile și să fac față provocării. Nu am promis că voi merge la coadă, așa că acum voi introduce o metodă numită „Wilcoxon Signed Rank Test for a Median” - un nume care nu îmi spune absolut nimic. Numele maghiar este și mai plictisitor și nici măcar nu se întâmplă să lămurească la ce servește. Obișnuiam să mă otrăvesc din nou și încerc să descriu într-un limbaj de înțeles pentru muritorii pământești ca mine ce este cu adevărat.

Acest test a fost inventat de un domn numit Frank Wilcoxon în 1945 și a fost unul dintre primele teste neparametrice din istoria statisticilor, ceea ce înseamnă că nu există constrângeri deosebite cu privire la distribuția setului de date studiat. Există doar două condiții pentru utilizarea testului:

  • Variabila studiată ar trebui să fie continuă
  • Funcția de densitate a distribuției setului de date ar trebui să fie simetrică

Scopul testului este de a determina dacă mediana probei aleatorii examinate este egală cu mediana presupusă a unei populații. Pe baza acestui fapt, ipoteza nulă presupusă este următoarea:

Contra-ipoteza este în consecință

sau în cazul unei contraipoteze unilaterale

Dar de ce luăm mediana ca bază și de ce nu media? Când a fost vorba despre măsurătorile medii ale seriei de date (măsurători ale valorilor medii ale seturilor de date), am menționat că media este foarte sensibilă la valorile lipsă, dar mediana nu are această proprietate. Atâta timp cât setul de date în studiu este distribuit în mod normal, nu contează cu adevărat dacă ne referim la medie sau mediană, dar dacă distribuția setului de date este înclinată sau asimetrică, mediana are șanse mai mari de a estima media setul de date decât media sau modul.

În acest exemplu, examinăm lungimea indivizilor selectați aleatoriu de biban pitic negru (vezi imaginea de mai sus). Dimensiunile peștilor selectați sunt după cum urmează:

5,0; 3,9; 5.2; 5,5; 2,8; 6.1; 6,4; 2,6; 1,7; 4.3

Întrebarea este dacă mediana lungimilor bibanului pitic diferă semnificativ de 3,7?

Pentru a decide această întrebare, trebuie să creăm un tabel. Prima coloană a tabelului va fi un număr de serie, iar în a doua coloană am tastat datele de mai sus.

Ca prim pas, trebuie să calculăm pentru fiecare valoare cât de departe sunt de mediana dată „m0”. Aceasta este o poveste familiară, la începutul blogului, când descriem dispersia seriei de date (Scatter of the elements of the data sets - The deviation standard and variance), același lucru a venit doar atunci când am luat media din seria de date, nu mediana.

Cu toate acestea, și aici, problema este că unele dintre abateri sunt mai mari decât zero, iar altele sunt mai mici. Pentru a sorta elementele seriilor de date în funcție de distanța lor față de mediană, să luăm valoarea absolută a acestor distanțe:

Ok, atunci vom sorta acum valorile absolute ale diferențelor dintre „Lungime” și „m0” în ordine crescătoare de mărime și vom scrie alături de fiecare bucată de date câte persoane se află în clasament. De exemplu, în a patra coloană, 1.3 este a cincea distanță cea mai mică de mediană, deci obține numărul cinci și 0,2 este cea mai mică distanță, deci obține cea. Nu am complicat prea mult acest lucru, am rearanjat tabelul în ordine crescătoare pe baza celei de-a patra coloane, am completat câmpul ‘Rank (Ri)’ cu numere de serie și apoi am rearanjat întregul tabel în ordine crescătoare conform primei coloane.

Acest lucru are sens, deoarece, pentru restul testului, vom continua să lucrăm doar cu ranguri pentru care distanța de la „Lungime” la mediană este o valoare pozitivă. Cred că acesta este motivul pentru care distribuția datelor ar trebui să fie simetrică, deoarece testul ia în considerare doar abaterile standard. În caz contrar, acest lucru poate fi realizat într-un alt mod prin definirea unei variabile „Zi” a cărei valoare este 0 dacă distanța „Lungimea” de la mediană este negativă și 1 dacă această distanță este pozitivă. Produsul „RiZi” poate fi apoi însumat pentru a da valoarea W.

Așa că am obținut statisticile procesului. Acum ar trebui să definim limita prin care putem decide dacă mediana seriei de date poate fi egală cu valoarea presupusă „m0”, adică 3.7. Pentru a face acest lucru, totuși, ar trebui să știm cum este distribuit W!

Pentru a înțelege distribuția statisticii testului W, trebuie să facem un mic ocol. Deoarece valorile posibile ale lui W vor fi date discrete datorită logicii determinării rangului, definiția limitei lui W va fi, de asemenea, puțin diferită de cea obișnuită. În primul rând, să analizăm care poate fi cea mai mică valoare posibilă pe care o poate lua W. Datorită definiției lui W, acesta va fi zero, deoarece dacă toate elementele eșantionului sunt mai mici decât valoarea mediană a „m0” dată de noi (amintiți-vă că m0 nu este mediana eșantionului, ci valoarea pe care o dăm), atunci diferența tuturor elementelor va fi negativă, deci niciunul nu va fi luat în considerare la calcularea lui W.

Și care este cea mai mare valoare pe care o poate lua W? Acest lucru se poate întâmpla dacă toate elementele din eșantion sunt mai mari decât limita „m0” specificată. Apoi distanța tuturor elementelor de date este pozitivă și este astfel luată în considerare la calcularea W.

Deoarece adăugăm numărul secvenței datelor atunci când calculăm W (și ‘Zi’ va fi întotdeauna 1), obținem W după cum urmează:

Dacă luăm aceste numere naturale și le asociem în felul următor, obținem acest lucru

Adică, pentru un număr par de elemente, valoarea fiecărei perechi va fi 7, adică n + 1 și vom obține n/2 astfel de perechi. Pentru numerele impare, logica este similară, să vedem:

Și aici, suma perechilor va fi n + 1, dar se vor forma n/2-1 perechi. Cu toate acestea, există o „jumătate de pereche” suplimentară a cărei valoare este exact (n + 1)/2. Iată cum se modifică suma:

Adică, dacă avem n-1 n + 1 sume în contor și adăugăm din nou n + 1, vom avea n n + 1 sume, adică obținem relația de mai sus la fel de frumos. Pe baza acestora, putem spune că W este o variabilă discretă aleatorie ale cărei valori pot varia între 0 și n (n + 1)/2.

Să mergem un pas mai departe. Să presupunem că n = 2, adică setul nostru de date constă din două elemente, 1 și 2. Atunci ce valori poate lua W în funcție de dacă 1 sau 2 are un semn pozitiv sau negativ?

După cum puteți vedea, valoarea lui W poate ocupa 0, 1, 2 sau 3 cu probabilitate egală. Adică, în cazul unui număr suficient de mare de probe, probabilitatea ca oricare dintre aceste numere să fie prelevate este aceeași, în mod specific 1/4 sau 0,25.

Ce se întâmplă atunci când eșantionul nostru are trei elemente?

Apoi avem 8 combinații diferite posibile, ale căror rezultate pot lua valori între 0 și 6. După cum puteți vedea, 3 poate ieși în două moduri, astfel încât probabilitatea apariției a 3 poate fi 2/8 pentru un număr suficient de mare de experimente, în timp ce toate celelalte numere pot ieși cu 1/8 probabilitate.

Și dacă avem un eșantion de 4 articole?

Iată de câte ori ies diferitele valori?

După cum puteți vedea, 0, 1 și doi, precum și 8, 9 și 10, apar doar o singură dată, dar 3, 4, 5, 6 și 7 pot ieși în două moduri. Apoi acum creșteți numărul de elemente din eșantion cu încă unul:

Reexaminarea frecvenței fiecărei valori W dă un rezultat similar. Și aici se poate observa că valorile extreme apar mai rar, în timp ce cele din mijloc apar mai frecvent. aceasta deoarece valorile din mijloc pot fi redate în mai multe combinații.

Hei, asta e familiar de undeva! Am mai făcut un experiment similar cu zaruri (de ce are loc distribuția normală atât de des în natură?) Unde s-au obținut rezultate foarte similare. Adică, putem presupune că pentru un n destul de mare, frecvențele lui W urmează o distribuție normală. Dacă valoarea lui n este mică, nu ar trebui să ne fie frică să facem seria de exerciții de mai sus, în orice caz, din fericire, cineva de la 4 la 12 a făcut deja lucrarea mică pentru noi și a făcut un tabel cu probabilitățile pe care le căutăm:

Cum se folosește tabelul de mai sus? Valoarea lui n din partea stângă a tabelului și apoi următoarele două coloane conțin intervalele extreme ale valorilor W pentru acel n, adică coloana „w1 *” conține probabilitățile dacă W este mic și coloana „w2 * 'conține când W este mare. A treia coloană arată valorile P. Dacă căutăm valoarea calculată a lui W în tabel pentru un n dat, valoarea P corespunzătoare dă probabilitatea ca W să ia o astfel de valoare extremă sau mai mult. Această valoare P va fi comparată cu limita de încredere selectată în timpul testului (0,05 sau 0,01). Dacă valoarea P este mai mare decât limita de încredere, se acceptă ipoteza nulă, dacă este mai mică, este respinsă. Un lucru la care trebuie să fim atenți este: Deoarece observăm numai partea pozitivă a distribuției eșantionului în timpul testului, dar testul ipotezei este bilateral, trebuie să luăm întotdeauna dublul valorii P.

Să vedem acest lucru în exemplul nostru de mai sus:

Deoarece sunt disponibile datele pentru 10 biban pitic negru, vom lucra cu n = 10, adică cu această parte a tabelului. Aici trebuie să găsim valoarea W = 40 obținută mai sus. De asemenea, am găsit o probabilitate corespunzătoare de 0.116. Încă trebuie să înmulțim acest lucru cu două, deci 2 x 0,166 = 0,232 iese pentru P. Acesta este mult mai mare decât 0,05 selectat inițial, deci acceptăm ipoteza nulă, adică mediana populației reprezentată de eșantion poate fi de 3,7.

Pentru un număr suficient de mare de eșantioane (cred că aceasta înseamnă mai mult de 30 de valori, deoarece această metodă se bazează pe teorema Distribuției centrale a limitelor) trebuie să abordăm povestea cu o metodă diferită. Atunci W 'poate fi calculat folosind următoarea formulă:

Dacă W este calculat prin această formulă, atunci W1 urmează o distribuție normală standard (În primul rând între egali - Distribuția normală standard). Hooray, atunci, în acest caz, putem folosi ca criteriu de acceptare limitele de încredere ale distribuției normale standard cunoscute în timpul testului Z cu un singur eșantion (testul Z ca Z - Un eșantion):

Rezumat: La început, semnificația numelui testului nu mi-a fost neapărat clară, dar am devenit puțin „luminat” în timpul procesării detaliate. Indicatorul „rang” indică în mod evident că în timpul testului, acesta sortează elementele eșantionului pe baza „rangului” lor și folosește aceste ranguri pentru a calcula statisticile testului. Calculul limitei W este probabil puțin mai greoi decât sarcina obișnuită, dar nu imposibilă. Din păcate, tabelul atașat conține doar probabilitățile căutate până la n = 12, dar formula W ’(după părerea mea) poate fi aplicată doar probelor de peste 30 de bucăți. Ce se poate face cu eșantioane cu un număr de articole între 13 și 29? Hmm, probabil că nu există altă cale decât să parcurgeți combinațiile posibile și să calculați frecvențele așa cum este descris mai sus ...