Meta alum lançon modelin e biologjisë së AI që simulon 500 milionë vjet evolucion

foto

Ndërsa bota vazhdon të eksplorojë potencialin e GPT-4o duke mposhtur Claude 3.5 Sonnet, EvolutionaryScale, një laborator kërkimor i AI i themeluar nga ish-inxhinierë të Meta, të cilët drejtonin ekipin e kompanisë tani të shpërbërë për palosjen e proteinave, po lëviz në një fushë krejtësisht të ndryshme: duke bërë biologjia e programueshme.

foto

Detyra tingëllon e ndërlikuar, por kompania njëvjeçare tashmë po bën bujë. Sot, ajo njoftoi lëshimin e ESM3, një model gjuhësor multimodal dhe gjenerues që mund të ndjekë udhëzimet dhe të dizajnojë proteina të reja. Në teste, modeli ishte në gjendje të gjeneronte një proteinë të re fluoreshente të gjelbër (esmGFP), së cilës do t’i duheshin qindra miliona vjet për të evoluar natyrshëm.

foto

“esmGFP…ka një sekuencë që është vetëm 58% e ngjashme me proteinën fluoreshente më të afërt të njohur. Nga shkalla e diversifikimit të GFP-ve të gjetura në natyrë, ne vlerësojmë se kjo gjeneratë e një proteine ​​të re fluoreshente është ekuivalente me simulimin e mbi 500 milionë vjetëve të evolucionit, “shkruan kompania në një artikull para-printuar të postuar në faqen e saj të internetit të martën.

Përveç modelit të ri, i cili vjen në tre madhësi, startup-i njoftoi se ka mbledhur 142 milionë dollarë në një raund financimi, të udhëhequr nga Nat Friedman, Daniel Gross dhe Lux Capital. Amazon dhe krahu i kapitalit sipërmarrës të Nvidia gjithashtu morën pjesë në raund. Modeli më i vogël ka qenë gjithashtu me burim të hapur për të përshpejtuar kërkimin me modelet e reja.

Megjithatë, ndërtimi i modelit është vetëm fillimi dhe mbetet për t’u parë se sa ndikim do të jetë në botën reale.

Ndërsa modelet gjeneruese të AI kanë evoluar shumë, veçanërisht në kuptimin dhe arsyetimin me gjuhën njerëzore, shumë kanë pyetur veten nëse mund t’i trajnojmë këto modele për të deshifruar gjuhën thelbësore të jetës dhe më pas t’i përdorim ato për të zhvilluar molekula të reja. Molekulat thelbësore të jetës – ARN, proteinat dhe ADN-ja – evoluan gjatë 3.5 miliardë viteve të fundit përmes reaksioneve kimike natyrore. Pra, të kesh një mënyrë për të programuar biologjinë dhe për të dizajnuar molekula të reja mund të hapë rrugën për të zgjidhur disa nga sfidat më të mëdha me të cilat përballet njerëzimi, duke përfshirë ndryshimin e klimës, ndotjen plastike dhe kushtet si kanceri.

Organizata të shumta, duke përfshirë Google Deepmind dhe Isomorphic Labs, janë tashmë në këtë hapësirë, dhe më e fundit që iu bashkua përleshjes është EvolutionaryScale. Kompania, e themeluar në vitin 2023, zhvilloi disa modele të gjuhëve proteinike gjatë muajve të fundit, por oferta e saj më e fundit, ESM3, është më e madhja nga të gjitha — dhe në natyrë multimodale dhe gjeneruese.

I përshkruar si një model gjenerues kufitar për biologjinë, ESM3 u trajnua me 1 trilion teraflops fuqi llogaritëse në 2.78 miliardë proteina natyrore të kampionuara nga organizma dhe biome të ndryshme dhe 771 miliardë tokena unike. Mund të arsyetojë së bashku tre vetitë themelore biologjike të proteinave: sekuencën, strukturën dhe funksionin. Këto tre modalitete të dhënash përfaqësohen si gjurmë të shenjave diskrete në hyrje dhe dalje të ESM3. Si rezultat, përdoruesi mund ta paraqesë modelin me një kombinim të hyrjeve të pjesshme nëpër gjurmët dhe modeli do të sigurojë parashikime të daljes për të gjitha gjurmët, duke gjeneruar proteina të reja.

“Fuqia arsyetuese multimodale e ESM3 u mundëson shkencëtarëve të gjenerojnë proteina të reja me një shkallë kontrolli të paparë. Për shembull, modeli mund të nxitet të kombinojë strukturën, sekuencën dhe funksionin për të propozuar një skelë të mundshme për vendin aktiv të PETazës, një enzimë që degradon polietilen tereftalatin (PET), një objektiv me interes për inxhinierët e proteinave për zbërthimin e mbetjeve plastike. ”, shpjegoi kompania.

Në një rast, kompania ishte në gjendje të përdorte modelin me zinxhir mendimesh duke nxitur të hartonte një version të ri të proteinës fluoreshente jeshile, një proteinë e rrallë që mund të ngjitet dhe të shënojë një proteinë tjetër me fluoreshencën e saj, duke u mundësuar shkencëtarëve të shohin praninë. të proteinës së caktuar në një qelizë. EvolutionaryScale zbuloi se versioni i krijuar i kësaj proteine ​​ka karakteristika shkëlqimi si proteinat fluoreshente natyrale. Natyrës do t’i duheshin 500 milionë vjet për të evoluar këtë brez të proteinave.

Ekipi gjithashtu vuri në dukje se ESM3 mund të vetë-përmirësohet, duke ofruar reagime mbi cilësinë e gjeneratave të tij. Reagimet nga eksperimentet laboratorike ose të dhënat ekzistuese eksperimentale mund të aplikohen gjithashtu për të lidhur brezat e tij me qëllimet.

Deri më tani, ESM3 është në dispozicion në tre madhësi, të vogla, të mesme dhe të mëdha. Më i vogli, me parametra 1.4B, ka qenë me burim të hapur me pesha dhe kode në GitHub nën një licencë jo-tregtare. Ndërkohë, versionet e mesme dhe të mëdha – deri në 98B parametra – janë të disponueshme për përdorim komercial nga kompanitë përmes API-së së EvolutionaryScale dhe platformave nga partnerët Nvidia dhe AWS.

EvolutionaryScale shpreson se studiuesit do të jenë në gjendje të përdorin teknologjinë për të zgjidhur disa nga problemet më të mëdha të botës dhe për të përfituar shëndetin e njeriut dhe shoqërinë. Megjithatë, aplikimet e tij më të gjera nga kompanitë mbeten për t’u parë. Përfituesi më i madh i mundshëm i teknologjisë mund të jenë kompanitë farmaceutike që mund të udhëheqin zhvillimin e ilaçeve të reja që synojnë kushte kërcënuese për jetën.

Modelet e mëparshme nga kompania u përdorën në raste përdorimi si përmirësimi i karakteristikave të rëndësishme terapeutike të antitrupave si dhe zbulimi i varianteve të COVID-19 që mund të përbënin një rrezik të madh për shëndetin publik.