Greșeli în medicină Partea 6 - Greșeli de gândire de la diagnostic până la luarea în considerare accidentală

THEz în secțiunea anterioară am învățat elementele de bază ale celei mai importante metode pentru tratarea fluctuațiilor aleatorii care afectează rezultatul tuturor cercetărilor medicale. Am văzut că folosește un fel de logică inversă: nu răspunde cât de probabil este că medicamentul este de fapt ineficient în lumina rezultatelor cercetării noastre, dar că, dacă ar fi cu adevărat ineficient, am fi mai probabil să obținem fel de rezultat pe care l-am obținut. Cu toate acestea, această inversare poate fi o sursă de neînțelegeri grave - și această eroare de gândire este departe de a fi găsită aici.

medicină

Secțiunea anterioară poate fi citită aici

Nu putem lua niciodată o decizie clară din cauza fluctuațiilor aleatorii: chiar dacă un medicament se dovedește a fi eficient în cercetare, există întotdeauna posibilitatea ca acesta să nu funcționeze cu adevărat, am avut doar ghinion din cauza fluctuațiilor aleatorii (la fel ca o monedă obișnuită poate avea 10 - aruncăm 10 capete din el - cel puțin puțin probabil). Pentru a putea lua o decizie, trebuie să trasăm o linie undeva: dacă această probabilitate este foarte mică, atunci (presupunând că putem face o greșeală cu ea) spunem că „medicamentul funcționează cu siguranță” - deși a spus că probabilitatea mică aparține de fapt Deci nu. Cu toate acestea, spunem că acționează: această mică probabilitate va fi, prin urmare, probabilitatea ca medicamentul ineficient să fie eficient. Acolo, recent am încetat să ajustăm acest lucru la 5% în funcție de rata utilizată în mod obișnuit astăzi: ne ajustăm rigurozitatea pentru a spune că este eficient cu o probabilitate de 5% a unui medicament ineficient. (Acest lucru ar putea fi redus, dar ar crește probabilitatea ca medicamentele eficiente să nu fie înregistrate.)

După această scurtă repetare, să vedem acum care este cea mai comună eroare de gândire menționată în această legătură.!

Să începem cu o enigmă aparent complet netăiată! (Întrebare reală: și drag, cititor, simțiți-vă liber să ghiciți! 100 de infractori căutați (versiune mai dramatică: terorist). Orașul va instala un sistem de camere bazat pe o bază de date înconjurată cu recunoaștere automată a feței pentru a localiza teroriștii. Acest sistem de recunoaștere facială funcționează foarte bine: dacă un terorist intră în imagine, este cu 99% probabil să afirme că este terorist, iar dacă un nevinovat intră în imagine, este probabil ca 99% să spună că sunt nevinovați. Întrebarea este: un bărbat intră în imaginea camerei și apare sub inscripția că este terorist. Care este probabilitatea ca sistemul nostru de camere cu o precizie de 99% să fie bine ghicit, adică persoana în cauză este cu adevărat un terorist?

Și acum, doamnelor și domnilor, vă rugăm să faceți pariuri!
Majoritatea oamenilor ghicesc cifre de 90-95% sau mai mult; cel mai frecvent este 99% - deci am spus că camera este atât de precisă, care este întrebarea aici? Cu toate acestea, acest răspuns este complet greșit. În realitate, probabilitatea ca o persoană să fie cu adevărat teroristă, odată ce aparatul este declarat terorist, este de fapt mai mică de 1%!

Ceea ce uită mulți este că există doar 100 de teroriști dintr-o populație de 1 milion. „Frecvența de bază” a teroriștilor este mică, adică probabilitatea ca persoana din fața camerei să fie terorist chiar înainte de a ne uita chiar la ce a scris mașina. În termeni tehnici, probabilitatea a priori ca o persoană să fie teroristă este foarte mică, doar 100/1 milioane. (Un prior în latină, face acest lucru: preliminar; în sensul „probabilității preliminare”, probabilitatea ca o persoană să fie teroristă înainte de a colecta informații, vizualizând în acest caz identificarea tipărită de mașină.)

Problema este că atunci când o mașină indică faptul că vede un terorist, în marea majoritate a cazurilor nu se va datora faptului că un terorist adevărat a intrat și a identificat corect software-ul, ci pentru că un nevinovat a intrat în imagine și a făcut o greșeală. el ca terorist. Este adevărat că acesta din urmă are o probabilitate de doar 1 la sută, dar atât de mulți, mulți, mulți, mulți mai mulți inocenți vor merge în fața camerei, încât chiar și 1% din asta va însemna mult mai mulți oameni decât doar 100 de teroriști.% - . De asemenea, putem cuantifica lucrul. Imaginați-vă că trimiteți fiecare rezident în fața camerei: 1% din cei 999 900 de inocenți dau 9999 (false) semnale teroriste, 99% din 100 teroriști dau 99 semnale (corecte), adică persoanele clasificate doar ca teroriști 99/(99 + 9999 ) = 0,98% vor fi de fapt teroriști - acesta este răspunsul la întrebare! Logica acestui calcul se numește teorema Bayes în matematică.

Care este motivul pentru un răspuns foarte diferit de 99%? Că am întors întrebarea! Nu am întrebat, având în vedere că cineva este terorist, cât de probabil este să-l clasifice (adică 99%), dar, având în vedere că a clasificat pe cineva drept terorist, cât de probabil este cu adevărat. Ceea ce, la rândul său, nu mai este de 99%! Teorema Bayes ne permite astfel să inversăm astfel de probabilități condiționale - dar acest lucru necesită și o probabilitate anterioară.

Este demn de remarcat faptul că 0,98% este denumit în mod obișnuit probabilitatea posterioară de a fi terorist: 100/1 milioane au fost probabilitatea înainte de a afla informațiile despre sistemul de recunoaștere facială și 0,98% au urmat-o. Dacă o privim astfel, aplicarea teoremei Bayes ne-a permis să încorporăm o informație în probabilitate: am fost în măsură să determinăm exact modul în care informațiile pe care mașina le-a scris ca fiind terorist modifică probabilitatea de a fi terorist. Desigur, lucrul nu trebuie să se termine aici: este posibil să se utilizeze, să zicem, un scaner de găsire a bombelor după recunoașterea imaginii, din acest punct de vedere, 0,98% va fi probabilitatea anterioară! Apoi, în lumina rezultatului găsirii bombelor, va crește sau scădea și așa mai departe. Procedura bayesiană permite astfel probabilitatea să fie actualizată continuu pe baza informațiilor disponibile.

Oricine a ghicit 99% sau o valoare similară a ignorat astfel în mod esențial probabilitatea anterioară, adică frecvența de bază. Aceasta este o greșeală generală de gândire, căreia i s-ar putea da nenumărate exemple precum cele de mai sus. Înainte de a trece la subiectul nostru actual, aparatul pentru a face față fluctuațiilor aleatorii, să menționăm încă unul dintre aceste exemple, deoarece este atât medical, cât și interesant - nu este altceva decât diagnosticare.!

Dacă cineva se uită la fostul exemplu cu un astfel de ochi, probabil că va vedea conexiunile foarte curând. Locuitorii sunt oamenii, teroriștii sunt bolnavi, camera este metoda noastră de diagnostic și, în cele din urmă, teroriștii, adică incidența de bază a pacienților din populație - 100/1 milioane - chiar dacă boala este predominantă, medicii chemați-l la prevalență. Probabilitatea ca o cameră să spună unui terorist că este terorist nu este altceva decât probabilitatea ca testul nostru de diagnostic să detecteze boala la o persoană bolnavă, la care medicii se referă adesea ca sensibilitate sau sensibilitate a testului. Celălalt 99% este cât de probabil este camera de a spune unui nevinovat că este nevinovat (probabilitatea ca o persoană sănătoasă să fie clasificată ca fiind sănătoasă prin test), chiar dacă specificitatea sau specificitatea.

Deci, ce ne spune exemplul anterior când îl privim cu un asemenea ochi? Faptul că, dacă o boală este rară, chiar și folosind un test foarte excelent - cu 99% sensibilitate și 99% specificitate - este adevărat că o constatare pozitivă înseamnă doar că suntem cu adevărat mai puțin de 1% susceptibili să fim bolnavi!

Acest lucru are consecințe de anvergură atunci când se proiectează programe de screening pentru sănătatea publică, de exemplu: dacă încercăm să depistăm o astfel de boală rară, chiar și folosind un test altfel excelent, va fi adevărat că mai mult de 99% dintre persoanele clasificate ca bolnave nu sunt de fapt bolnav! (Acest lucru ar trebui să fie luat în considerare la proiectarea screening-urilor, deoarece clasificarea unui pacient implică de obicei examinări suplimentare, uneori mai periculoase sau mai costisitoare, și pune o sarcină mentală asupra subiectului.)

Desigur, încorporarea de informații noi funcționează și aici - o serie de teste pot rafina continuu probabilitatea, de exemplu, dacă laboratorul fetei devine pozitiv, poate catapulta diagnosticul de infarct până la primul loc în lista diagnosticelor potențiale. Dar nu doar aceste teste pot fi gândite: este, de asemenea, un fel de metodă de diagnostic pentru care medicul poate examina pacientul sau chiar doar să-i întrebe ceva - de exemplu, se pare că familia fetei a avut o serie de inimi premature decese. Medicul va pune diagnosticul urmând acești pași, chiar dacă nu este cuantificat în creier (deși de multe ori ar fi extrem de util!).

În acest moment, ideea își vine în sine: de ce nu automatizăm totul? La urma urmei, acest lucru este în întregime posibil cu mașina, nici măcar nu aveți nevoie de un medic aici! Într-o bază de date imensă stocăm, pe de o parte, cât de probabil este fiecare boală de a provoca un anumit simptom sau rezultat al testului (aceasta este în esență o problemă medicală, biologică, deci este destul de stabilă) și, pe de altă parte, cât de des este fiecare boală probabilitatea anterioară (acesta este timpul și populația poate varia) și atât. De aici, computerul face multiplicarea, imprimă rezultatul, selectează cel mai probabil diagnosticul ca fiind cel mai bun și am terminat!

Ideea nu este atât de copleșită pe cât sună la început; au experimentat, de asemenea, cu astfel de sisteme încă din anii '70. Principala problemă este că nu trebuie să luăm în considerare un singur simptom. De exemplu, dacă nu numai durerea capului pacientului, ci și abdomenul, atunci nu mai trebuie să stocăm o singură probabilitate, ci trei. Dacă avem trei simptome, atunci trebuie să stocăm șapte probabilități și așa mai departe, în timp ce în realitate există, evident, sute sau chiar mii de simptome posibile, mai ales dacă include istoricul medical, datele testelor și rezultatele testelor. Numărul probabilităților care trebuie tratate este deja de 100 de miimi de miliard (descris ca treizeci și unu de cifre) și apoi chiar am presupus că toate simptomele noastre erau binare.

… Cu excepția cazului în care ne dăm seama cât de clar este totul dacă facem o imagine a acestuia! Desenați puncte, acestea ar trebui să denumească boli, simptome, factori de risc (din motive de simplitate, să fie toate binare acum: există sau nu) și desenați săgeți între ele pentru a arăta ce afectează în mod direct ceea ce. Vor exista puncte în care nu se execută nici o săgeată - nu depind de nimic, trebuie doar să notăm cât de probabil sunt să se ridice. În ce moment se execută o săgeată sau săgeți, probabilitatea existenței depinde de punctele din care provin săgețile (numiți părinți), deci acolo trebuie să scriem un mic tabel care să dea probabilitatea posibilă a punctului pentru toate combinațiile posibile de părinte noduri, dacă părinții au o valoare dată. Aceasta este denumită în mod obișnuit o plasă bayesiană, iar Figura 1 prezintă un exemplu.

Figura 1: Rețea bayesiană a unui sistem simplu de diagnostic respirator (exemplu de Wiegerinck, Burgers și Kappen). Colorarea nu are nicio semnificație de calcul, ci grupează doar punctele: albastru pal pentru simptome, verde pentru boli, roșu pentru factorii de risc. În tabele, cuvântul dinaintea liniei verticale arată ce probabilitate este dată și după linie, în ce condiție.

Acidul-piperul plasei bayesiene este dat prin indentarea săgeților pentru a descrie condițiile de independență. Mai precis, trebuie să se îndeplinească faptul că un nod poate depinde doar de părinții săi și de punctele care pot fi accesate de pe el pe săgeți - dar nu de celelalte. Ce este fantastic în acest sens este că, dacă facem acest lucru, toate probabilitățile pot fi calculate din puținele probabilități de lângă puncte! În cazul prezentat în figură, de exemplu, o descriere completă ar necesita introducerea a peste 2.000 de probabilități, în timp ce în rețeaua bayesiană există doar 33. Și totuși, din aceste 33, toate cele 2.000 sunt calculabile - acest lucru necesită independența de care rețeaua bayesiană oferă o reprezentare foarte utilă.

Dar la ce bun toate acestea? Sistemele inițiale ale experților medicali erau diagnostice: conțineau reguli de genul care conduceau de la observații la cauze, „dacă pacientul tuse, este atât de probabil să aibă bronșită”. Interesant, chiar dacă pare evident, a devenit curând clar că acest lucru a fost greșit. Un sistem expert bun ar trebui să stabilească reguli cauzale, care să conducă la observații din motive: „dacă un pacient are bronșită, este atât de probabil să tusească”. Acestea sunt denumite în mod obișnuit sisteme expert bazate pe modele - punctul mesh Bayesian corespunde acestei filozofii. Regulile de diagnostic sunt mai puțin stabile (dacă apare o epidemie, întregul set de reguli este transformat), sunt de obicei necesare mai multe reguli de diagnostic, iar probabilitățile lor sunt adesea mai puțin ușor de determinat, iar în sistemele mari, probabilitățile sunt uneori atribuite dependențelor nenaturale.

Da, dar „direcția” regulilor cauzale este inversată, cum o folosim pentru diagnosticare? Răspunsul scurt este că, fără alte întrebări! Inversul nu este o problemă: odată ce avem rețeaua bayesiană, putem calcula toate probabilitățile din aceasta - și asta include determinarea probabilităților bolilor pe baza simptomelor! Deci, rețelei bayesiene nu îi pasă ce „direcție” deducem din ea. Important este să descriem realitatea (și asta înseamnă regulile cauzale!), Dacă o avem, atunci o putem deduce de acolo în toate direcțiile. Sunt disponibili algoritmi eficienți pentru rețelele bayesiene care „rulează” această concluzie peste rețea și determină probabilitățile necesare.

În Figura 2, vedem exemple de acest lucru: am dat rețelei ceea ce știam despre pacient (adică, anumite noduri nu erau probabile, dar i-am stabilit valoarea specifică), apoi i-am cerut să o ruleze prin rețea folosind probabilitățile condiționale am introdus pentru celelalte puncte și am întrebat rezultatul final pe nodurile care ne interesează. (Dacă cititorul dorește să încerce el însuși un sistem de diagnosticare similar, se poate juca cu acest exemplu cu aplicația disponibilă la http://research.physcon.uni-obuda.hu/ sau chiar să-și construiască propriul sistem.)

Sistemele medicale adevărate pot avea, desigur, sute sau chiar mii de noduri.

După acest ocol imens, să revenim la subiectul nostru specific, deoarece întreaga poveste are o legătură mai directă cu întrebarea noastră actuală. Probabil că mulți oameni văd deja despre ce este vorba: modelul este exact același. Abordarea efectului fluctuațiilor aleatorii în modul de mai sus oferă, de asemenea, un răspuns la întrebarea opusă în comparație cu o întrebare naturală, așa cum am stabilit deja la introducerea metodei. La urma urmei, întrebarea firească este „cu condiția să obținem acest rezultat în cercetare, care este probabilitatea ca medicamentul să nu funcționeze efectiv?”, Dar răspundem cu ajutorul aparatului nostru care „cu condiția ca acesta să nu funcționează de fapt? medicamentul are efect, care este probabilitatea ca noi să obținem acest lucru și altul în cercetarea noastră? ”. Mulți, făcând aceeași greșeală, cred că dacă efectul medicamentului este semnificativ la 5%, înseamnă că există o probabilitate de eroare de 5%, astfel încât medicamentul să nu funcționeze efectiv.

Imaginați-vă că în 1000 de universuri paralele, cercetătorii sunt disponibili pentru a testa noul medicament. Din aceste lumi, medicamentul este de așteptat să fie de 100 de ori eficient, de 900 de ori nu - aici apare probabilitatea anterioară. În primele cazuri, atunci când medicamentul funcționează cu adevărat, îl putem detecta cu 80% probabilitate (concentrație), adică clasificăm preparatul - corect - de 80 de ori. În ultimele cazuri, adică atunci când medicamentul nu funcționează efectiv, acesta se pierde cu o probabilitate de 5% (nivel de semnificație), adică medicamentul este clasificat de 45 de ori - incorect - ca fiind eficient. Per total, în 80 + 45 = 125 de cazuri, evaluarea va fi „eficientă”. Desigur, nu știm dacă aparținem 80 sau 45, deci putem spune că, cu eticheta „eficientă”, 45/125 = 36% probabilitate ca medicamentul să nu funcționeze efectiv! Ceea ce nu este cu adevărat de 5%! Întrebarea evidentă și direct relevantă („cât de probabil este medicamentul să fie ineficient pe baza rezultatului cercetării?”) Nu este răspunsă de nivelul de semnificație, ci de calculul - Bayesian - de mai sus.

Apoi apare întrebarea: dacă acesta este cazul și metoda bayesiană răspunde la întrebarea naturală - și mai importantă - pentru noi, atunci de ce nu folosim întotdeauna acest lucru? De ce îl folosim deloc, mai ales de ce este decisiv principiul bazat pe „logica inversă”? În plus față de faptul că există anumite motive istorice pentru aceasta (de exemplu, procedurile bayesiene sunt, în general, intensive din punct de vedere al calculului, ceea ce a reprezentat o problemă gravă până în ultimele decenii), probabil cel mai important motiv fiind necesitatea unor probabilități anterioare. Mulți oameni sunt reticenți să dea acest lucru, deoarece consideră că este subiectiv care este probabilitatea anterioară a eficacității medicamentului, consideră că este un parametru nerezonabil care poate fi setat la orice valoare și, astfel, scoate cu adevărat ceva din studiu. De fapt, majoritatea cercetătorilor în acest sens sunt de acord că în procedura utilizată astăzi, nu există opțiuni decizionale mai puțin subiective, cel mult acestea sunt mai puțin în minte, mai puțin explicite, dar acest lucru nu este neapărat un avantaj, de fapt. Mai degrabă, inerția din spatele acestui lucru este factorul important - așa am învățat, toți ceilalți fac la fel, toate analizele anterioare au fost făcute în acest fel - ceea ce este valabil mai ales într-un domeniu conservator, cum ar fi medicina.

După ocolul nostru actual către zona bayesiană, ne întoarcem la metoda obișnuită de a face față fluctuațiilor aleatorii. Acum cunoaștem bine această metodă, deci putem răspunde la una dintre cele mai evidente întrebări: totuși, ce putem face cu privire la fluctuațiile aleatorii? Am văzut că nu îl putem elimina niciodată, dar cum putem reduce impactul acestuia? Nu în ultimul rând, cum să luați în considerare acest efect atunci când proiectați cercetări medicale?