Önvezető autó és az endokapszula
Egy Tesla önvezető autó halad az autópályán. Digitális kamerái másodpercenként harminc képet küldenek az autó központi számítógépére, ahol egy mesterséges intelligencia (MI) képelemző algoritmus kiértékeli azokat. Felismeri, hogy a kép közepén előtte egy személyautó halad, a kép bal szélén bokrok vannak, a jobbon pedig egy sebességkorlátozó táblát helyeztek el. Az autó ezt látva lassítani kezd.
A rendszert mérnökök és képzetlen – adott esetben kínai vagy indiai – bérmunkások tanították be. Az volt a bérmunkások feladata, hogy sok tízezer képen rajzolják körbe a különböző felismerendő tereptárgyakat és élőlényeket. Majd a mérnökök ezeket a tanító mintákat egy gépi tanulási algoritmuson futtatták keresztül. Eredményül egy olyan rendszert kaptak, ami új képeken már magától képes megcsinálni ugyanazt, amit a bérmunkások végeztek, megjelölni a képen, hogy hol vannak az általa ismert objektumok.
Nem sokkal messzebb egy orvosokból álló csoport endoszkópos felvételeken jelöli meg a felismerendő elváltozásokat, majd egy kollégájuk lefuttatja ugyanazt a gépi tanulásos algoritmust, mint az önvezető autót fejlesztő mérnökök. A kapott modell felismerési teljesítménye – olyan eseteknél, amikről sok tanító kép állt rendelkezésre – összemérhető az orvosi szakértők átlagával. Egy endokapszulás vizsgálat során a kamera két képet készít másodpercenként. Ezt beszorozva az emberen történő áthaladás óráival, könnyen kiszámolható, hogy végül több tízezer képet kéne az orvosnak átnéznie. Szerencsére már most is megpróbálja kiszűrni a megtekintő szoftver az érdektelen képeket, sőt, képes például vérzések észlelésére is.
A fenti módon betanított rendszer már képes az elváltozások észrevételére és a diagnosztizáló orvosnak csak a releváns képeket kell elbírálnia, miközben egyfajta másodvéleményt is kap. Ha a képfelismerési rendszert egy olyan számítógépre kötik, amely azt valós időben képes futtatni, akkor az endoszkópos, kolonoszkópos vizsgálat közben a monitoron megjelenő képen be tudja jelölni a gyanús területeket, segítve ezzel egy kezdő vagy akár egy szakértő munkáját is.
A kísérletek abba az irányba mutatnak, hogy az ilyen ember és gép együttműködés a külön-külön elért eredményeket is túlszárnyalja. Az MI-re tehát nem konkurenciaként, hanem segítőként érdemes tekinteni. (1)
Az adat az új olaj
Az előző történetben – bizonyára feltűnt a kedves olvasónak – a gépi tanulással foglalkozó mérnök nem kérdezte meg a szakértő orvostól, hogy hogyan jutott az adott diagnózisra, csupán csak a bemeneti képre és a hozzá tartozó kimeneti eredményre volt szüksége. A tanító példákat olyan algoritmuson futtatta át, amiben egyébként semmilyen gasztroenterológiai, de még orvosi tudás sem volt.
A szomorú igazság az, hogy ebben a történetben nem az orvos és az informatikus lesz a nélkülözhetetlen szereplő, hanem az adat. Hiába találják ki ők ketten, hogy holnap indítanak egy MI startupot, ha nem áll rendelkezésükre a rendszer betanításához szükséges nagy mennyiségű adat. Ha egy korlátlan pénzű befektetőt találnának is, elég sok időbe kerülne, mire begyűjtik a szükséges adatokat.
Az adatnak van/lesz értéke, és minél több van belőle, annál nagyobb. A gépi tanuló algoritmusok jellegzetessége, hogy annál jobban működnek, minél több adat áll rendelkezésre és ezek minél inkább variábilisak, vagyis lefedik a különböző lehetséges eseteket. Az adatban implicit módon kódolva van az emberi és a folyamatokba beépített tudás. A tanuló algoritmusok ezeket tudják kinyerni és ezáltal értéket teremteni. Ahogy minden iparág digitalizálódik, hatalmas adathalmok jönnek létre és minden területen megindul az ezekben található információk kibányászása, kitermelése. Ezért mondják, hogy az adat az új olaj!
Adatalapú orvoslás
Az orvosoknak relatív rövid idő áll rendelkezésre, hogy a beteg leleteit, korábbi kórtörténetét tanulmányozzák. A digitalizált és egységesített egészségügyi rendszernek köszönhetően a figyelembe vehető adatok köre felrobban. A lehetőség megnyílhat, hogy az orvos teljesebb képet lásson, az adatbázishoz hozzáférjen, de a rengeteg adat feldolgozására, értelmezésére nem lesz ideje, kapacitása és tudása. Az orvosoknak szükségük lesz olyan felületekre és eszközökre, ahol ezeket gyorsan és hatékonyan át tudják tekinteni. Korábban a döntéshozó vállalati vezetők kiváltsága volt, hogy szép dashboardokon összegezve lássák az információkat, aztán ezen adatok alapján tudtak döntést hozni. A BI (business intelligence) üzleti hírszerzés eszközeit az orvosoknak is meg kell kapniuk immár egészségügyi adatokra alkalmazva.
A mesterséges intelligencia a gasztroenterológia számos területén felhasználható
A döntésüket segíthetjük azzal is, ha megmutatják nekik, hogy hasonló helyzetben korábban mások milyen döntést hoztak és milyet hoznának most. Egy predikciós mesterséges intelligencia modellre tekinthetünk úgy, hogy a kollégák korábbi döntései alapján megjósolja, hogy hasonló helyzetben (hasonló adatok alapján) mit döntenének.
Honnan jön a sok adat?
Egészségügyben a legtriviálisabb adatforrás a betegek leletei: vérnyomás, vérvétel, EKG, különböző képalkotó eljárások stb. Ezek alapján születnek az orvosi vizsgálatok – jóval nehezebben feldolgozható – szöveges adatai. Adatok keletkeznek a betegéletút során, mennyit kell várakoznia és mennyi ideig foglalja le a szakembereket, hány napot foglalja az ágyat, mennyibe kerülnek az eszközök és vizsgálatok. Adat a szakirodalom és publikációk összessége, melyből az orvos szeretné könnyen megtalálni egy adott esethez kapcsolódó releváns tartalmakat. Adat a környezetet jellemző szobahőmérséklet, a páratartalom-szenzor a kórteremben, az időjárás, a hőmérséklet és a légnyomás értéke. Sokan gondolkoznak azon, hogyan lehet a konzumer hordható szenzorok, okosórák adatait felhasználni, és vélhetően jó lenne az orvosokat is ellátni ilyen eszközökkel, hogy visszamérhető és előre jelezhető legyen, mikor csökken a döntéshozatali képességük. A Google próbálkozik azzal, hogyha a felhasználók közül többen rosszullétre keresnek, akkor megvizsgálja a helyadatok alapján, hogy nem jártak-e pl. ugyanabban az étteremben. Az adatok tehát értékesek, ezért vigyázni kell rájuk, ha már vannak, és gyűjteni kell, ha még nincsenek. Az az intézmény, vállalat, ország, régió, amelyik nem tudatosan gyűjti, rendszerezi és annotálja az adatait, a jövőben versenyhátrányba fog kerülni.
Automatizáció
Az egészségügyi rendszernek arra kell törekednie, hogy a kreatív, új dolgok felfedezésére, a normálistól eltérő helyzeteket is kezelni képes embert felszabadítsa az ismétlődő, unalmas, lélekölő feladatok alól. A mesterséges intelligencia alkalmazása kiszélesíti az automatizálható feladatok körét. Két nagy területet különíthetünk el egymástól: az orvosi szakértelmet igénylő gyógyítást és egészségmegőrzést, valamint az ezekhez kapcsolódó adminisztrációt és menedzsmentet.
Az adminisztráció az első számú bevetési terület, ahol meg kell vizsgálni, hogy miben tudnak az okoseszközök segíteni. Riportok automatikus generálása, diktálás, ügyfélszolgálati és tudástár chatbotok, ajánlórendszerek, szoftverrobotok (RPA) vagy a fizikai robotok bevetése logisztikai feladatokra olyan példák, ahol más iparágaktól is lehet tanulni.
Az automatizáció diagnosztikai és gyógyítási folyamatokba történő alkalmazásának most állunk a kapujában. Az Egyesült Államok Élelmiszer és Gyógyszer Hatósága (FDA) már megkezdte az ilyen rendszerek számára az engedélyek kiadását. (2) Az első egy diabéteszes retinopathiát diagnosztizáló szoftver volt, mely egy retina kamerafelvételét értékelte ki deep learning módszerrel. (3)
Egyetlenegy szakember sem fog tiltakozni az ellen, ha az adminisztrációval kevesebbet kell foglalkoznia. Ha azonban a szakmai munkájáról van szó, akkor esetleg megijed, hogy a mesterséges intelligencia és a robotok elveszik a munkáját. Hogy ettől mennyire kell félni, ahhoz nézzük meg, valójában hogyan is működik az MI, mi kell a sikeres működéséhez, és mi a helyzet a szabályozással.
Intelligens-e a mesterséges intelligencia?
A mesterséges intelligencián belül a ma legelterjedtebb technikák halmazát gépi tanulásnak nevezzük. A gépi tanulási módszerek közül pedig csak az egyik a neurális hálók, amiről egyből mindenki az agyra asszociál. Az MI kapcsán a köztudatban összekapcsolódtak az agy, intelligens, tanulás szavak. Az emberek az olvasott tudományos-fantasztikus irodalom, a látott filmek hatására öntudatra ébredő gépekről beszélnek. Sajnos a sajtó és az informatikai beszállítók is felültek az ígéretek és ködösítések vonatára, ami kontraproduktívan pont nem segíti a gyakorlati alkalmazások terjedését.
Kimondhatjuk, hogy jelenleg az MI nem intelligens. Amit a közhiedelem elképzel, azt az MI-kutatók általános MI-nek (General Artificial Intelligence – AGI) nevezik, és (nagyon) messzire teszik a megvalósulását. Ami van, létezik, az a specifikus feladatok elvégzésére képes szűk MI (Narrow AI). A legközelebb akkor vagyunk az igazsághoz a létező tudások leírásakor, ha azokat egy függvénynek, egy leképezésnek képzeljük el, ahol jól körülhatárolt feladaton belül különböző bemenetekhez megfelelő kimenetet adnak vissza.
Nézzünk pár egyszerűsített példát:
- Bemenet: Műtét előtt felvett adatok (életkor, BMI, vérvétel, EKG, gyógyszerérzékenység stb.) Kimenet: túléli-e a beteg a műtétet?
- Bemenet: bevitt tápanyag, kimenet: fél óra múlva mennyi lesz a vér inzulinszintje.
- Bemenet: digitális fotó, kimenet: a kép melyik részén látható rákos elváltozás és mennyire bizonyos ebben a rendszer.
A fenti példákat a gépi tanulás két nagy területbe csoportosítja. Amikor folytonos értéket szeretnénk kimenetként kapni (inzulinszint, várható élettartam), akkor regressziós (regression) feladatról beszélünk. Ha előre meghatározott kategóriák közül szeretnénk megtudni, hogy melyikbe tartozik az eset (túléli-e vagy sem, milyen típusú a rákos elváltozás), akkor kategorizálást, osztályozást (classification) végzünk. További két témakör a kilógó értékek, anomáliák észrevétele (outlier detection, anomaly detection) és az adathalmon belül a hasonló esetek csoportosítása (clustering).
Az MI-megoldásokat aszerint is csoportosíthatjuk, hogy milyen típusú adattal tudunk dolgozni. Az alap az úgynevezett strukturált adatok, amire kézenfekvő példa egy Excel-tábla. Egy ilyen táblában az egyes sorok lehetnek az adatpontok, az oszlopokban pedig a tulajdonságai. Például: lakás azonosítója, négyzetméter, szobák száma, ár. Az ilyen formátumban meglévő adatokra régóta léteznek sikeresen használható megoldások. Kép lehet fotó, röntgen, mikroszkóp, ultrahang vagy akár hőkamerás felvétel, de ide sorolhatók a videók és a 3 dimenziós CT-felvételek is. A képfelismerésben történt 2012-ben egy nagy áttörés a konvolúciós neurális hálókra (deep learning) épülő megoldásokkal, és sokan ehhez kötik a mostani MI-forradalom kezdetét. Ezek a megoldások is megfelelő mennyiségű adat rendelkezésre állása esetén nagyon jó eredményeket tudnak elérni. A szöveg egy problémásabb terület. Itt is óriási a fejlődés, de nem minden területén értek el olyan szintet, ami valós helyzetben bevethető, különösen nem az orvoslás területén.
Hogyan történik a tanítás?
Hogy az MI-t ne valami csodaszernek és mindent tudó varázslónak képzeljük el, nézzük meg, hogyan hozza meg a döntéseit. Képzeljünk el egy állatbiológust, aki mezei pockok és mókusok életét tanulmányozza. Az állatokat ellátta nyomkövetővel, így monitoron nyomon tudja követni, hogy merre vannak éppen. A képernyő bal oldali kétharmadán kék pöttyök jelzik a pockokat, a jobb oldali részen pedig pirosan világítanak a mókusok jeladói.
Az egyik nap újabb állatokat küldtek a központból. Sajnos a kutató nem volt a bázison, amikor a postás érkezett, és mire visszaért, az állatok kirágták magukat a dobozból. Bár a központban rátették az állatokra a nyomkövetőket, nem jegyezték fel, hogy melyik állaton melyik van. Így az állatbiológus a monitorján fehér pöttyöket is lát a kékek és pirosok közé keveredve. Hogyan tudná megmondani, milyen fajta állathoz tartozik a fehér jelzés? Feltételezheti, hogy az új állatok ugyanúgy viselkednek, mint a régebbiek, a pockok a pockok, a mókusok a mókusok közelében lesznek.
Az első megoldás az lehet, hogy egy adott fehér pöttyről megnézi, hogy milyen állatok vannak hozzá legközelebb, és többségi szavazással dönt. Ha például három pontot vizsgálva 2 pocok és 1 mókus jön ki, akkor pocoknak fogja minősíteni a vizsgált új állatot. Ezt az egyszerű módszert ‘k’ legközelebbi szomszéd (k-nn, k-neareast neighbors) algoritmusnak nevezik. Bár meglepően hangozhat, ez egy mesterséges intelligencia algoritmus.
Koncentráljunk egy pillanatra a távolság kiszámítására. Ezt úgy tudjuk megtenni, hogy a jeladók K−NY irányú egyik és az É−D irányú második koordinátáját használtuk fel a távolság kiszámítására. A koordinátákat az adatokkal foglalkozó világban tulajdonságnak (feature) nevezik. Ha például egy páciens testsúlyát és testmagasságát megmérjük, akkor ezeket is ábrázolni tudjuk egy koordinátarendszerben, ahol a testsúly a vízszintes, a testmagasság pedig a függőleges tengely lesz. Ha valaki titokban a testtömegindex alapján beszínezi kékre a nem túlsúlyos és pirosra a túlsúlyos páciensek pontjait, akkor mi anélkül, hogy tudnánk, hogy a BMI-t hogyan kell kiszámolni, egyszerűen a k-NN módszerrel be tudunk sorolni egy új pácienst normál és elhízott kategóriába! Sajnos a k-NN módszer egyik hátránya, hogy minden pontra ki kell számolnia a távolságot, hogy eldönthető legyen, melyek vannak a legközelebb. A hátrány elkerülése érdekében ennél okosabb megoldást dolgoztak ki.
Az állatbiológus ránézett a kék és piros halmazra, és egyszerűen a kettő közé behúzott egy vonalat. Majd a vonaltól a pockok felé eső részen lévő új pontokat pockoknak, a túloldali mókustérfélen lévőket pedig mókusoknak kategorizálta. A ma használatban lévő gépi tanulásos kategorizálási módszerek többsége lényegében abban tér el egymástól, hogy milyen módon és milyen bonyolult elválasztó vonalat tudnak behúzni. Az elválasztó elem lesz a megtanult tudás. (Vagyis a mesterséges intelligenciát a Terminátor helyett inkább a berlini falhoz lehet hasonlítani.)
A tulajdonság térben a határoló felület megtalálása a tanító minták alapján történik. Egy kicsit belenézünk ebbe is. Tegyük fel, hogy mi ülünk ott a pockok és mókusok (ha valakinek szimpatikusabb, akkor a testtömeg és testmagasság) grafikon előtt és a képernyő közepén megjelenik egy hosszú egyenes fektetve, és kapunk két forgatható gombot. Az egyikkel az egyenes meredekségét tudjuk állítani (mint amikor az óramutatót forgatjuk) a másikkal pedig el tudjuk tolni az egyenest függőleges irányban. Ahogy próbálkozunk a tekerőket forgatva, a képernyő mindig kiírja, hogy a vonal éppen aktuális állása szerint hány pont van az egyenes rossz oldalán. Ez a hibafüggvény. Mi azt a beállítást fogjuk keresni, ahol ez a szám a legkisebb. A számítógép is ezt csinálja, csak képes akár több millió tekerőgomb, vagyis paraméter esetén is eljátszani ugyanezt.
Etika, biztonság, átláthatóság, általánosítás
A gépi tanulásos rendszer számára az adatok jelentés nélküli számok, és csak az éppen felhasznált adatok alapján dönt. Úgy is fogalmazhatunk, hogy az adatokból kinyerhető információt tükrözi vissza. Vagyis ha előítéletesek a döntések, akkor azt az előítéletet az adatokat előállító emberek okozzák.
Ha a MI döntéshozása az adatokon keresztül befolyásolható, akkor biztonsági kérdéssé válik, hogy az adathalmon ne történhessen olyan módosítás, amivel egy bizonyos viselkedés titokban beültethető. A másik támadási módszer, amikor már egy betanított algoritmus működési jellegzetességeit használják ki, és az emberi szem számára észrevehetetlen vagy nem feltűnő módosításokkal az MI téves következtetésre jut.
Az adatvédelmi GDPR törvény előírja, hogyha valakivel kapcsolatban döntést hoznak, akkor az érintett megtudhassa, hogy mi alapján jutottak arra a következtetésre. Miért nem kapja meg a hitelt, miért nem kapja meg a kezelést? Problémát jelent, hogy a gépi tanulásos algoritmusok közül a lineáris regresszió és döntési fák jól magyarázhatók, de az összetett modelleket és a neurális hálókat laikusok nehezen értik meg. Pedig ezek a fejlettebb algoritmusok hoznak általában jobb eredményeket. Ezeken a területeken aktív kutatások zajlanak.
Az MI-kutatók részéről is időnként elbizakodott nyilatkozatok jelennek meg. A deep learning rendszerek egyik atyjának tekintett Geoffrey Hinton a képfelismerőknek egy kísérletben nyújtott remek teljesítménye után azt nyilatkozta, hogy pár éven belül meg is lehet szüntetni a radiológiai képzést. Ezek a nyilatkozatok abból adódtak, hogy az informatikusok nem tudták, a radiológusok munkája nem egyszerűen abból áll, hogy egy bemenő kép alapján mondanak véleményt. Másrészt kiderült, hogy a modellek a valós életben nem teljesítenek mindig jól, egy másik kórházban, másik gépen, másik kezelőszemélyzettel készült felvételeken nem tudtak ugyanolyan jó eredményeket elérni.
Hogyan vehetünk részt benne?
Nem attól kell félni, hogy az MI jön, hanem attól, hogy nem használjuk, nem élünk vele. Ki kell használni az automatizáció adta lehetőségeket, hogy több idő maradjon az értéket adó munkára. Igénybe kell venni az MI-t, hogy az adatok feldolgozásában, értelmezésében segítsen, és egyéni tudásunkat kiegészítse a közös tudással.
- Keressük azokat az eszközöket és funkciókat, amik akár mesterséges intelligenciával, akár anélkül automatizálni tudják a repetitív feladatokat, lépéseket, illetve kiegészíthetik (augmentálják) a saját, illetve a munkavállalóink képességét.
- Az MI nem varázspálca, ami mindent megold. Legyünk tisztában az alkalmazhatóságával, tanuljunk bele egy kicsit a működési elvébe.
- Ha szeretnénk MI-t fejleszteni, nézzünk át az egészségügy más területeire, vagy akár más szolgáltató- és iparágakba sikeres példákért. A gépi tanulásos algoritmusoknál nem a módszer, csak az adat szakterület specifikus. Próbáljunk kis célokat kitűzni, egyszerűségre törekedni és inkább sokszor iterálni. A belépési küszöb nem nagy, akár elsőre is biztató sikereket lehet elérni. Számítsunk azonban arra, hogy az utolsó teljesítmény százalékokat exponenciálisan nehezebb lesz elérni.