Studiuesit e AI prezantojnë një LLM të aftë për të gjeneruar rezultate teksti deri në 10,000 fjalë

foto

Një ekip studiuesish të AI në Universitetin Tsinghua, duke punuar me një koleg nga Zhipu AI, kanë zhvilluar një model të madh gjuhësor (LLM) të quajtur LongWriter që ata pretendojnë se është i aftë të gjenerojë tekst deri në 10,000 fjalë. Grupi ka shkruar një letër që përshkruan përpjekjet e tyre dhe LLM-në e re, e cila është e disponueshme në serverin preprint arXiv.

foto

Ndërsa LLM-të janë bërë rrjedha e zakonshme, shumë kanë vënë re se ato nuk janë në gjendje të gjenerojnë përgjigje shumë të gjata, të tilla si libra të plotë ose dorëshkrime – kufiri aktual duket të jetë afërsisht 2000 fjalë. Studiuesit sugjerojnë se kjo është për shkak se ata janë të gjithë të trajnuar për dokumente të shkurtra. Në përpjekjen e tyre të re, ata kanë zbuluar se nëse LLM-të ndryshohen pak dhe më pas trajnohen duke përdorur dokumente shumë më të gjata, ata janë në gjendje të prodhojnë dokumente më të gjata.

foto

Për të testuar idenë e tyre, ekipet hulumtuese së pari trajnuan një parametër prej 9 miliardë LLM duke përdorur një bazë të dhënash konvencionale, e cila përfshinte dokumente që ishin kryesisht më pak se 2000 fjalë të gjata. Siç pritej, kur u pyet, nuk ishte në gjendje të krijonte tekste më të gjata se 2000 fjalë.

Më pas, ekipi modifikoi një LLM tradicionale duke përdorur një tubacion që ata e quajtën AgentWrite për të zbërthyer materialin e trajnimit në nën-detyra ndërsa ai përpunohej. Më pas ata mblodhën një grup të dhënash që e quajtën “LongWriter-6k”, i cili është një grup të dhënash që përmban 6,000 dokumente të shkruara që variojnë në gjatësi nga 2,000 deri në 32,000 fjalë. Ata më pas trajnuan LLM-në e modifikuar duke përdorur grupin e ri të të dhënave LongWriter-6k dhe zbuluan se duke bërë kështu gjatësinë e fjalëve të dokumenteve që mund të prodhonte në afërsisht 10,000 fjalë.

Në shqyrtimin e dokumenteve të gjata të sapo prodhuara të krijuara nga LLM, ekipi zbuloi se ato ishin koherente dhe të përdorshme në një sërë kontekstesh. Ata kanë postuar kodin me burim të hapur për modelin e tyre në GitHub – një lëvizje që do t’i lejojë të tjerët të ndërtojnë atë që ekipi në Kinë ka bërë. Ata postuan gjithashtu një video që tregon LongWriter duke prodhuar një udhëzues turistik me 10,000 fjalë për njerëzit që udhëtojnë në Kinë.

Studiuesit pranojnë se ka konsiderata etike që duhet të merren parasysh tani që është zbuluar se LLM-të mund të gjenerojnë dokumente të tëra kërkimore, libra, dorëshkrime apo ndoshta edhe skenarë filmash.