Diagnoza z komputera

Automatyczna komputerowa diagnoza chorób przez dekady pozostawała tylko marzeniem. Dziś zaczyna być realna, a znikające przeszkody technologiczne zaczynają ujawniać trudności prawne i etyczne.

Pierwsze programy komputerowe mające spełniać rolę lekarza-diagnosty zaczęły powstawać w latach 70. na fali entuzjazmu wobec „pierwszej fali AI”. Stosowana wówczas metoda zdominowała myślenie o sztucznej inteligencji aż do końca XX wieku. Idea była następująca: najpierw odtwórzmy sposób myślenia człowieka-lekarza w czasie diagnozowania pacjenta. Następnie „przetłumaczmy” go na algorytm, czyli sztywny schemat postępowania, najlepiej od razu wyrażony w jednym z języków programowania. Czysto teoretycznie, komputer zaprogramowany w ten sposób powinien zachowywać się dokładnie tak samo, jak lekarz.

Dziś wiemy już, że ludzie nie myślą algorytmicznie – a jeśli rzeczywiście tak jest, to są to algorytmy tak subtelne i tak „głębokiego poziomu”, że nie da się ich w żaden sposób spisać do postaci zestawu sztywnych reguł. Na przełomie XX i XXI wieku wyłonił się alternatywny sposób programowania komputerów, zwany uczeniem maszynowym (ML), i to on prowadzi dziś do najbardziej spektakularnych rezultatów w medycynie. Zilustrujmy logikę ML na przykładzie.

Lepiej niż człowiek

W styczniu 2020 roku w czasopiśmie „Nature” opisano (S. McKinney i in.: „International evaluation of an AI system for breast cancer screening”) program komputerowy diagnozujący raka piersi na podstawie mammogramu z dokładnością zbliżoną do poziomu osiąganego przez ludzkich diagnostów, a w pewnych warunkach nawet ich przewyższający. Przyjęta przez autorów metoda była następująca:

Punktem wyjścia był zbiór danych „gotowych”, tj. par mammogram-zweryfikowana diagnoza. Dane te pochodziły z brytyjskich i amerykańskich zapisów medycznych, odpowiednio zanonimizowanych. Łącznie dotyczyły one 28953 kobiet, u których wykonano mammografię, a następnie stan ich zdrowia był monitorowany przez okres od roku do 3 lat, kiedy to badanie obrazowe przeprowadzono ponownie. Jeśli w tym drugim badaniu lekarze stwierdzili występowanie guza, wykonano ponadto biopsję, aby potwierdzić jego charakter. W ten sposób udało się stwierdzić 686 przypadków nowotworu piersi. Ostatecznie więc naukowcy weszli w posiadanie niemal 30 tysięcy par zdjęcie-diagnoza. Dopiero na tych danych „treningowych” uczony był algorytm, którego zadanie polegało na „wypluciu” diagnozy wyłącznie na podstawie mammogramu. Idea samo-uczącego się algorytmu polega na ciągłym korygowaniu swojej własnej struktury wraz z napływającymi danymi – tak, aby z każdym kolejnym zdjęciem przypuszczenia jego były coraz lepsze.

Ostatecznie porównano skuteczność algorytmu ze skutecznością ludzkich diagnostów na próbce 500 mammogramów, pośród których w 125 przypadkach potwierdzono wystąpienie guza nowotworowego. Osobno porównywano algorytm z opinią lekarzy brytyjskich i amerykańskich ze względu na odmienne procedury diagnostyczne w tych dwóch krajach. W Wielkiej Brytanii diagnozy dokonuje dwójka lekarzy, a gdy ich opinia jest niezgodna, do akcji wkracza trzeci „arbiter”. W USA diagnozy dokonuje tylko jeden lekarz. Opracowany przez naukowców algorytm był lepszy od diagnosty amerykańskiego i od pierwszego lekarza brytyjskiego i mniej więcej tak samo skuteczny, co zespół lekarzy brytyjskich (a więc osiągnięty przez nich konsensus). Algorytm był też skuteczniejszy od ludzi w wyznaczaniu tzw. ROI, czyli Region of Interest: obszaru na mammogramie obejmującego niepokojącą zmianę.

Nowe terytorium

Ponieważ liczba tego typu doniesień rośnie, coraz częściej zadaje się pytania o ich praktyczne konsekwencje. Czy prawnie wykonalne i etyczne byłoby zastąpienie lekarzy programami komputerowymi? W tym konkretnym przypadku autorzy pracy zaproponowali formę pośrednią, wzorowaną na modelu brytyjskim: pierwszej diagnozy dokonuje lekarz, drugiej – komputer. Jeśli są ze sobą zgodne, diagnozę tę uważa się za finalną. Drugi człowiek wkraczałby tylko wtedy, gdy diagnozy człowieka i maszyny różnią się. Z wykonanej na potrzeby artykułu symulacji wynika, że system taki cechowałby się taką samą skutecznością (mierzoną zarówno liczbą poprawnych diagnoz, która musi być jak najwyższa, jak i liczbą diagnoz fałszywych, którą trzeba minimalizować), co zespół ludzki, jednak obecność drugiego lekarza byłaby potrzebna tylko w 12% przypadków. Z punktu widzenia zarządzania służbą zdrowia, jest to gigantyczna oszczędność czasu i pieniędzy, co ma niebagatelne znaczenie zwłaszcza w tych krajach, w których występuje szczególnie niski odsetek lekarzy przypadających na 1 pacjenta. Co więcej, przy przyjęciu takiej procedury za diagnozę i tak zawsze odpowiadałby człowiek – całkowita automatyzacja procesu diagnozy budzi wątpliwości prawne: jeżeli diagnozy dokonuje komputer, to kto właściwie powinien ponosić odpowiedzialność za „błąd w sztuce”?

Istnieje dziś kilka obszarów w diagnostyce obrazowej, w przypadku których udało się potwierdzić względną skuteczność AI. Jedną z nich jest wczesny etap diagnostyki nowotworów skóry, zwłaszcza czerniaka. Jest to szczególnie interesujący obszar badań, ponieważ ML pozwala na trenowanie algorytmów nawet na zdjęciach wykonywanych telefonem komórkowym – co mogłoby oznaczać, że zwykły smartfon wyposażony w odpowiednią aplikację mógłby stać się w przyszłości „pierwszą linią diagnozy”, ratując potencjalnie życie milionom ludzi. Warto bowiem pamiętać, że przy ocenianiu różnych usług medycznych należy porównywać nie tylko ich jakość, ale też dostępność. Trudno przecenić wartość techniki diagnostycznej, która dostępna jest każdemu praktycznie człowiekowi, za darmo, 24 godziny na dobę. W kontekście tego typu aplikacji tym bardziej istotne stają się jednak wyniki fałszywie negatywne, czyli niezdiagnozowanie rzeczywistego czerniaka. O ile bowiem wynik fałszywie pozytywny prowadzi w praktyce najwyżej do nadprogramowej wizyty u dermatologa i najedzenia się niepotrzebnie strachu, to wynik fałszywie negatywny może opóźnić terapię i przyczynić się wręcz do śmierci. Nie jest jasne, czy zwyczajowe zgody i ostrzeżenia, jakie wyświetlają się po zainstalowaniu nowej aplikacji, to wystarczająca „podkładka” prawna w przypadku czegoś, co trudno rozumieć inaczej niż poradę medyczną, i czy twórcy aplikacji mobilnych wezmą na siebie takie ryzyko. Poruszamy się po nowym terytorium.

Łukasz Lamża

Nauka na żywo II: wielkie debaty – zadanie finansowane w ramach umowy 761/P-DUN/2019 ze środków Ministra Nauki i Szkolnictwa Wyższego przeznaczonych na działalność upowszechniającą naukę.

Zobacz wykład Tomasza Rożka o rewolucji w medycynie