Si AI gjeneruese mund të ndihmojë në përshpejtimin e kërkimit biomjekësor
Shpërthimi i fundit i mjeteve gjeneruese të AI ka nxitur shumë diskutime në pothuajse të gjitha fushat rreth përfitimeve dhe rreziqeve të këtyre teknologjive. Këto mjete, duke përfshirë ChatGPT, Bard dhe të tjerë, janë trajnuar për sasi të mëdha të përmbajtjes dhe mund të prodhojnë tekst dhe imazhe që shpesh duken në mënyrë të frikshme si përmbajtje të krijuara nga njeriu.
Në Institutin e gjerë të MIT dhe Harvardit, një grup studiuesish, inxhinierësh softuerësh , administratorësh dhe komunikuesish (po, ne) ka eksploruar përdorimin e këtyre chatbot-eve dhe mjeteve të ngjashme, duke anketuar komunitetin dhe duke zhvilluar rekomandime.
Për t’u zhytur më thellë në këtë temë, ne folëm me Mehrtash Babadi, një shkencëtar instituti, drejtor i metodave llogaritëse dhe një ekspert i mësimit të makinerive dhe AI në Platformën e Shkencave të të Dhënave të Broad. Ai foli se si teknikat gjeneruese të AI mund të përdoren jo vetëm për të analizuar gjuhën njerëzore , por edhe gjuhën e gjeneve dhe qelizave – të dhëna të papërpunuara biologjike – për të hedhur dritë mbi mënyrën se si funksionojnë qelizat dhe indet në shëndet dhe sëmundje.
Ai ndau gjithashtu mendimet e tij mbi përfitimet e modeleve gjeneruese të bazuara në gjuhë si ChatGPT, Bard dhe GitHub Copilot për shkrimin e kodit kompjuterik, zhvillimin e hipotezave dhe detyra të tjera.
“Unë mendoj se këto sisteme do të bëhen gjithnjë e më të dobishme jo vetëm për inxhinierët dhe programuesit e softuerit, por edhe për të gjithë të tjerët në çdo profesion në të njëjtin kuptim që një motor kërkimi është bërë një pjesë e domosdoshme e jetës sonë për të aksesuar informacionin,” tha Babadi. i cili përdor në mënyrë rutinore ChatGPT për të kërkuar në internet dhe për të shkruar email dhe përmbledhje kërkimore.
Biseda e mëposhtme u redaktua (nga njerëzit) për gjatësi dhe qartësi.
Inteligjenca artificiale gjeneruese është diçka që është krijuar për një kohë të gjatë në komunitetin e të mësuarit të makinerive, duke u kthyer në parimet themelore të statistikave Bayesian. Ne i kemi përdorur ato për një kohë të gjatë, për modelimin e aspekteve të ndryshme të biologjisë si variacioni gjenomik, artefaktet eksperimentale, biologjia njëqelizore dhe fusha të tjera.
Tani me avancimin e këtyre modeleve, kombinimin e tyre me rrjete të thella nervore , sasi të mëdha të të dhënave të trajnimit dhe fuqisë kompjuterike, dhe në veçanti përparimin e këtyre modeleve në gjenerimin e imazheve dhe gjuhës natyrore, ato kanë shpërthyer me të vërtetë dhe krejt papritur të gjithë janë i emocionuar për to.
Tani po mendojmë se si të njëjtat qasje që kanë qenë kaq të suksesshme në modelimin e gjuhës natyrore dhe imazheve mund të përdoren për të mësuar gjuhën e brendshme, të lindur të sistemeve biologjike si qelizat dhe indet, dhe për të parashikuar fatin dhe përgjigjen e tyre ndaj stimujve të ndryshëm në silikon. Kjo është një fushë e kërkimit aktiv për ne, dhe ne kemi bërë pak përparim, por ka shumë punë që duhet bërë.
Për momentin, ka shumë entuziazëm për ChatGPT dhe sisteme të ngjashme me AI, dhe për arsye të mira, sepse këto janë sisteme vërtet të afta dhe të fuqishme, dhe gjithashtu ka shumë punë në zhvillim në terren që tregojnë se këto modele kanë gjithashtu një zotërim të mirë të biologjisë. Ju mund t’u bëni pyetje të tilla si “cili është funksioni i këtij gjeni?” dhe ata do t’ju thonë sepse kanë lexuar tekste dhe punime. Pra, modelet kanë mësuar atë që ne dimë për biologjinë.
Dhe pikërisht ky është problemi, sepse ne nuk dimë shumë për shumë aspekte të biologjisë! Kuptimi ynë i biologjisë është ende në zhvillim dhe është shumë i njëanshëm dhe një pjesë e literaturës nuk është as e riprodhueshme. Modelet e gjuhëve natyrore janë trajnuar mbi atë substrat, dhe kështu ato i nënshtrohen të njëjtave paragjykime dhe kuptime jo të plota të biologjisë që ne i nënshtrohemi.
Pra, ne po përpiqemi të mësojmë drejtpërdrejt gjuhën e sistemeve biologjike nga matjet dhe të dhënat e papërpunuara biologjike pa ndonjë interpretim njerëzor në mes.
Për shembull, mund të imagjinoni një model gjenerues që është trajnuar mbi të dhënat biologjike që përshkruan se si funksionojnë indet ose qelizat e caktuara, dhe më pas duke përdorur atë model për të gjeneruar të dhëna që përshkruajnë gjendje të reja qelizore ose inde të reja. Ju madje mund të bëni modele që mund t’i nxisni me diçka të tillë si “ja një qelizë në një ind, gjeneroni një qelizë tjetër afër” për të bërë parashikime se si qeliza të ndryshme mund të punojnë së bashku për të formuar një ind, si shembull.
Këto modele gjithashtu mund të rregullohen mirë në të dhënat ndërhyrëse, të tilla si ekranet gjenetike ose farmakologjike, për të mësuar të parashikojnë ekranet e ardhshme. Me pak fjalë, modelet gjeneruese kanë potencialin për të llogaritur shumë aspekte të biologjisë së qelizave dhe indeve dhe ekranet e shqetësimeve.
Ajo që bëhet shumë interesante tani është ndërlidhja e këtyre modeleve të qelizave dhe indeve me modelet e gjuhës natyrore. Pra, ne mund të marrim modelet e gjuhës natyrore dhe modelet më të paanshme dhe më gjithëpërfshirëse të qelizave, dhe më pas t’i bashkojmë ato në një sistem që është më i fuqishëm se secili prej tyre veç e veç. Kjo është një fushë aktive e kërkimit të AI e quajtur AI gjeneruese multimodale, ku në thelb kombinohen modele gjeneruese të modaliteteve të ndryshme, ose i ndërlidhin ato së bashku dhe i lejojnë ata të flasin me njëri-tjetrin.
Avantazhi i kësaj është se me modelet e bazuara në gjuhën e lindur të biologjisë, ju shmangni paragjykimet që janë të natyrshme në modelet e gjuhës natyrore të biologjisë. Por ju mund të përdorni modelet e gjuhës natyrore për të lejuar një shkencëtar njerëzor të vendosë kërkesat e duhura.
Tani kemi AI gjeneruese multimodale të gjuhës natyrore dhe tekstit, gjuhës natyrore dhe imazheve, por modelet gjeneruese të AI të sistemeve biologjike janë ende në fillimet e tyre. Ne ende nuk kemi parë sisteme multimodale të AI që kombinojnë gjuhën natyrore me gjuhën e sistemeve biologjike.
Një shembull i mundshëm që mund të mendoj është një projekt tipik i zhvillimit të barnave, ku ne duam të kuptojmë mekanizmin themelor për një sëmundje dhe më pas të identifikojmë një objektiv terapeutik. Tani për tani, kjo zakonisht bëhet përmes një kombinimi të njohurive të ekspertëve të lëndës dhe dizajnimit të eksperimenteve shumë të zgjuara që testojnë hipoteza inteligjente duke përdorur teknika novatore për të manipuluar qelizat dhe çfarëdo tjetër.
Por ndërsa bëjmë gjithnjë e më shumë nga këto lloje eksperimentesh, secili prej këtyre eksperimenteve është një lloj mësimi për një sistem gjenerues të AI që thotë “ja një qelizë dhe ja se si ndërhymë dhe ja çfarë ndodhi”. Dhe sa më shumë nga këto mësime të katalogojmë, aq më shumë mund të mësojmë një sistem gjenerues të AI për të parashikuar eksperimentet e ardhshme pa qenë nevoja që ne t’i bëjmë të gjitha ato në laborator. Ekziston kjo mundësi e jashtëzakonshme për të ripërdorur të gjitha të dhënat eksperimentale që kemi mbledhur deri më tani.
Edhe nëse këto modele gjeneruese ndonjëherë janë të gabuara, ato nuk janë krejtësisht të gabuara. Kjo do të thotë se nëse, për shembull, i përdorni ato për të identifikuar një objektiv të caktuar terapeutik, nëse sistemet janë të trajnuar siç duhet, ka shumë të ngjarë që të paktën disa nga ato objektiva të kenë kuptim.
Ky është ndoshta një nga aplikimet më të mira të këtyre sistemeve: të merren rezultatet e tyre si hipoteza të mundshme dhe më pas t’i nënshtrohen vërtetimit eksperimental. Në varësi të natyrës së rezultatit, të dhënat që rezultojnë nga eksperimentet vijuese ose do të përforcojnë besimin e modelit ose do ta korrigjojnë atë, duke e bërë atë pak më të saktë për pyetjet e ardhshme.
Disa prej nesh përdorin GitHub Copilot, i cili është një sistem që ndihmon koduesit dhe programuesit të shkruajnë disa nga pjesët më standarde të kodit, në vend të pjesëve më inovative dhe sfiduese. Këto sisteme janë vërtet të mira për t’ju ndihmuar të shkruani pjesë të kodit tuaj që të gjithë dinë t’i shkruajnë, por ju gjithsesi duhet ta bëni atë.
Këto sisteme janë gjithashtu shumë të mira për t’ju ndihmuar të dokumentoni kodin tuaj dhe të komentoni mbi kodin tuaj. Pra, ne po i përdorim këto sisteme tani për këto qëllime dhe si versione më të zgjuara të sistemeve konvencionale të plotësimit të kodit.
Sfida është se këto modele dihet se “halucinojnë” herë pas here ose thjesht gënjejnë me shumë besim. Kështu që ju duhet të bëni vetë verifikimin e fakteve. Sa i përket keqpërdorimit, unë jam më pak i shqetësuar për komunitetet e shkencës dhe inxhinierisë, sepse shkencëtarët dhe inxhinierët, nga trajnimi, janë skeptikë dhe ata priren të mos i marrin gjërat në vlerën e parë. Pra, edhe nëse ata përdorin një sistem gjenerues të AI për t’i ndihmuar ata të zgjidhin një problem, ata do të testonin rezultatin e këtyre sistemeve.
Mendoj se ajo që do të shqetësohesha më shumë është se si këto sisteme mund të shfrytëzohen në fusha të tjera, si p.sh. gjenerimi i dezinformatave dhe në diskurse të tjera ku njerëzit nuk janë aq të prirur për të bërë verifikimin e tyre të fakteve. Kjo është ajo ku unë jam i shqetësuar, veçanërisht sepse këto sisteme mund të gjenerojnë përmbajtje shumë, shumë më shpejt se ne. Pra, është shumë e lehtë të vërshosh hapësirën, si të thuash, me shumë përmbajtje qëllimisht të rreme, të krijuara nga AI.
Por si mjete për kërkimin biologjik dhe zhvillimin e softuerit, mendoj se ka shumë premtime për të ndihmuar që disa pjesë të kërkimit të bëhen më efikase. Ritmi me të cilin ne po gjenerojmë të dhëna, i cili po rritet në mënyrë eksponenciale, është shumë më i madh se aftësitë tona të ekspertëve për t’i kuptuar ato të dhëna. Pikërisht këtu AI gjeneruese dhe në përgjithësi, mësimi i makinerive dhe metodat e tjera të AI, mund të bëhen jashtëzakonisht të dobishme për të na ndihmuar të zbulojmë rregullsitë, të përbashkëtat dhe ndryshimet në të gjitha këto të dhëna në një mënyrë që është më pak e njëanshme dhe gjithashtu më efikase dhe më e shpejtë se ne njerëzit. mund te bej.