Microsoft dhe Providence hapin si open-source modelin e AI-së “GigaTIME” për të ulur kostot e kërkimit kundër kancerit

foto

Microsoft Research dhe Providence Health kanë anashkaluar në mënyrë efektive koston e lartë të onkologjisë precize, duke publikuar të martën një model të inteligjencës artificiale që gjeneron të dhëna komplekse të proteinave nga lamellat standarde të indeve. I quajtur GigaTIME, sistemi përdor inteligjencën artificiale gjeneruese për të parashikuar mikroambientet e tumorit pa analiza kimike të kushtueshme.

foto

I trajnuar në 40 milionë qeliza, modeli transformon imazhet e hematoksilinës dhe eozinës (H&E), standardin prej 15 dollarësh për patologji, në kopje virtuale të të dhënave të imunofluoreshencës multiplekse (mIF) që zakonisht kushtojnë mbi 500 dollarë për diapozitiv. Për të përshpejtuar kërkimin mbi kancerin, partnerët e kanë bërë kodin të hapur në Hugging Face.

foto

GigaTIME ndryshon rrënjësisht strukturën e kostos së profilizimit të tumorit duke zëvendësuar kiminë e laboratorit të lagësht me llogaritjen GPU. Analizat standarde të mIF kërkojnë antitrupa të shtrenjtë dhe pajisje të specializuara imazherike, që shpesh tejkalojnë 550 dollarë për lamë. Në të kundërt, ngjyrosja H&E është një teknikë shekullore e disponueshme në pothuajse çdo laborator patologjie për afërsisht 15 dollarë.

Duke funksionuar si një “përkthyes ndërmodal”, modeli parashikon praninë e 21 shënuesve të dallueshëm të proteinave vetëm nga modelet morfologjike në imazhet H&E. Në themel të kësaj aftësie është një grup i gjerë të dhënash pronësore prej 40 milionë qelizash me imazhe H&E dhe mIF të çiftëzuara në mënyrë perfekte nga të njëjtat mostra indesh.

Studimi i rishikuar nga kolegët në Cell detajon qasjen e detajuar të modelit. Në vend që thjesht të gjenerojë një mbivendosje gjenerike, GigaTIME funksionon si një klasifikues binar me rezolucion të lartë. Për secilin kanal proteine ​​të synuar, IA vlerëson çdo piksel individual në imazhin H&E, duke i caktuar atij një status specifik “aktiv” ose “joaktiv” për të ndërtuar një hartë të saktë dixhitale të mjedisit të tumorit.

Efikasiteti i nxjerrjes së përfundimeve është një përparim i rëndësishëm; modeli mund të përpunojë një imazh të tërë diapozitivash në afërsisht 20 minuta në një GPU standarde V100. Studiuesit si pasojë mund të analizojnë mijëra mostra indesh të arkivuara pa shkatërruar mostrën origjinale.

Ndryshe nga metodat tradicionale që mbështeten në reagentë fizikë, qasja virtuale e GigaTIME shkëput gjenerimin e të dhënave nga disponueshmëria e mostrave biologjike. Një ndryshim i tillë mundëson studime retrospektive në shkallë të gjerë që më parë ishin ekonomikisht të parealizueshme.

Për të vërtetuar dobinë e modelit, ekipi gjeneroi një “popullatë virtuale” prej 14,256 pacientësh nga të dhënat e Providence Health. Duke përfaqësuar një rritje të rendit të madhësisë krahasuar me studimet tipike të mIF, ky grup të dhënash kapërcen barrierat e kostos që zakonisht i kufizojnë grupet në disa qindra pacientë.

Duke diskutuar vlerën strategjike të të dhënave, Hoifung Poon, Drejtor i Përgjithshëm në Microsoft Research Real-World Evidence, vuri në dukje se “GigaTIME ka të bëjë me zhbllokimin e njohurive që më parë ishin të paarritshme”.

Analiza e grupit virtual zbuloi 1,234 lidhje statistikisht të rëndësishme midis shprehjes së proteinave dhe biomarkuesve klinikë. Një gjetje kyçe lidhi mutacionet KMT2D, një ndryshim i zakonshëm gjenetik, me rritjen e infiltrimit të qelizave imune, një lidhje që më parë ishte e vështirë të përcaktohej në shkallë të gjerë.

Carlo Bifulco, Drejtor Kryesor Mjekësor në Providence Genomics, theksoi implikimet më të gjera për zhvillimin e trajtimit, duke deklaruar se “duke analizuar mikroambientin tumoral të mijëra pacientëve, GigaTIME ka potencialin të përshpejtojë zbulimet që do të formësojnë të ardhmen e onkologjisë precize dhe do të përmirësojnë rezultatet e pacientëve”.

Validimi u krye kundrejt një grupi të dhënash të jashtëm prej 10,200 pacientësh nga Atlasi i Gjenomit të Kancerit (TCGA), duke arritur një korrelacion prej 0.88. Sistemi identifikoi gjithashtu modele “kombinuese”, ku bashkë-ndodhja e proteinave (p.sh., CD138 dhe CD68) parashikoi mbijetesën e pacientit më mirë sesa shënuesit e vetëm.

Metodologjia e përshkruar në punim përshkruan një proces të sofistikuar trajnimi ku IA funksionon si një “përkthyes ndërmodal”. Duke përthithur një grup të dhënash prej 40 milionë qelizash – secila që përmban të dhëna H&E dhe mIF të çiftëzuara në mënyrë të përsosur – modeli mësoi të hartëzonte modelet e indeve vizuale me praninë e 21 proteinave specifike.

Ky trajnim i mundësoi ekipit të vendoste sistemin në një grup masiv të botës reale të nxjerrë nga rrjeti i Providence Health prej 51 spitalesh dhe mbi 1,000 klinikash. Në total, studimi analizoi të dhëna nga 14,256 pacientë në shtatë shtete, duke gjeneruar gati 300,000 imazhe virtuale të tëra që mbulojnë një spektër të larmishëm prej 24 llojesh kanceri dhe 306 nëntipesh të dallueshme.

Këto rezultate sugjerojnë që ngjyrosja virtuale mund të replikojë sinjale komplekse biologjike me besueshmëri të lartë, duke shërbyer potencialisht si një përfaqësues i besueshëm për analizat e shtrenjta në laboratorin e lagësht në kërkimet paraprake.

Pavarësisht korrelacionit të lartë, “ngjyrosja virtuale” mbetet një parashikim probabilistik, jo një matje biologjike. IA gjenerative në patologji mbart një rrezik unik të “halucinacionit”, ku modeli mund të shpikë struktura indesh që duken të besueshme, por nuk ekzistojnë.

Konkurrentët si Lunit dhe PathAI kanë komercializuar tashmë teknologji të ngjashme, por shpesh i mbajnë modelet e tyre pronësore. Vendimi i Microsoft për të hapur peshat e modeleve në Hugging Face prish këtë ekosistem të mbyllur, duke potencialisht duke e bërë teknologjinë kryesore të tregtueshme.

Ndërsa teknologjia premton ulje të konsiderueshme të kostove, pengesat rregullatore mbeten pengesa kryesore. Organet rregullatore si FDA ende nuk kanë miratuar një model gjenerues të IA-së për diagnozën primare pa verifikim njerëzor. Për momentin, GigaTIME është etiketuar në mënyrë strikte si “Vetëm për Përdorim Kërkimor”, duke kufizuar ndikimin e saj të menjëhershëm në kujdesin ndaj pacientit në studime retrospektive dhe zbulimin e barnave.

Publikimi i GigaTIME vjen pas një trendi më të gjerë të gjigantëve të teknologjisë që aplikojnë inteligjencën artificiale në sfidat biologjike. Më herët këtë vit, modeli i proteinave BioEmu-1 i Microsoft demonstroi aftësinë për të parashikuar dinamikën e proteinave, ndërsa inteligjenca artificiale e kancerit C2S-Scale e Google zbuloi rrugë të reja terapie. Në mënyrë të ngjashme, modeli popEVE i Harvardit tregoi kohët e fundit premtime në identifikimin e gjeneve të sëmundjeve, dhe ndikimi i inteligjencës artificiale në radiologji vazhdon të jetë subjekt i debatit të ashpër në lidhje me integrimin e rrjedhës së punës.