GPT-4 i OpenAI do të ketë 100 Trilion Parametra, 500x Madhësia e GPT-3

foto

OpenAI ka lindur për të trajtuar sfidën e arritjes së inteligjencës së përgjithshme artificiale (AGI) – një AI e aftë për të bërë gjithçka që një person mund të bëjë.

Një teknologji e tillë do të ndryshonte botën siç e njohim ne. Mund të na sjellë dobi të gjithëve nëse përdoret në mënyrë adekuate, por mund të bëhet arma më shkatërruese në duar të gabuara. Kjo është arsyeja pse OpenAI mori përsipër këtë kërkim. Për të siguruar që do të përfitonte të gjithë në mënyrë të barabartë: “Qëllimi ynë është të përparojmë inteligjencën dixhitale në atë mënyrë që ka shumë të ngjarë të përfitojë njerëzimi në tërësi.”

Sidoqoftë, madhësia e këtij problemi e bën atë padyshim ndërmarrjen e vetme më të madhe shkencore që njerëzimi ka vënë dorë. Përkundër të gjitha përparimeve në shkencën kompjuterike dhe inteligjencën artificiale, askush nuk e di se si ta zgjidhë atë ose kur do të ndodhë.

Disa argumentojnë se mësimi i thellë nuk është i mjaftueshëm për të arritur AGI. Stuart Russell, një profesor i shkencave kompjuterike në Berkeley dhe pionier i AI, argumenton se “duke u përqëndruar në fuqinë e papërpunuar të llogaritjes humbet thelbin […] Ne nuk dimë si ta bëjmë një makinë vërtet inteligjente – edhe nëse do të ishte madhësia e universit .. “

OpenAI, në të kundërt, është i sigurt se rrjetet e mëdha nervore të ushqyera me grupe të mëdha të të dhënave dhe të trajnuar në kompjuterë të mëdhenj janë mënyra më e mirë drejt AGI. Greg Brockman, CTO i OpenAI, tha në një intervistë për Financial Times: “Ne mendojmë se përfitimet më të mëdha do t’i shkojnë kujtdo që ka kompjuterin më të madh.”

Dhe kjo është ajo që ata bënë. Ata filluan të trajnojnë modele gjithnjë e më të mëdha për të zgjuar fuqinë e fshehur brenda mësimit të thellë. Hapat e parë jo-delikatë në këtë drejtim ishin lëshimi i GPT dhe GPT-2. Këto modele të mëdha gjuhësore do të krijonin bazën për yllin e shfaqjes: GPT-3. Një model gjuhësor 100 herë më i madh se GPT-2, me 175 miliardë parametra.

GPT-3 ishte rrjeti nervor më i madh i krijuar ndonjëherë në atë kohë-dhe mbetet rrjeti më i madh nervor i dendur. Ekspertiza e saj gjuhësore dhe aftësitë e panumërta ishin një surprizë për shumicën. Dhe megjithëse disa ekspertë mbetën skeptikë, modelet e mëdha gjuhësore tashmë ndiheshin çuditërisht njerëzore. Ishte një hap i madh përpara për studiuesit e OpenAI për të përforcuar besimet e tyre dhe për të na bindur se AGI është një problem për mësimin e thellë.

OpenAI beson në hipotezën e shkallëzimit. Duke pasur parasysh një algoritëm të shkallëzuar, transformatori në këtë rast – arkitektura bazë prapa familjes GPT -, mund të ketë një rrugë të drejtpërdrejtë drejt AGI që konsiston në trajnimin e modeleve gjithnjë e më të mëdha bazuar në këtë algoritëm.

Por modelet e mëdha janë vetëm një pjesë e enigmës AGI. Trajnimi i tyre kërkon grupe të mëdha të të dhënave dhe sasi të mëdha të fuqisë llogaritëse.

Të dhënat pushuan së qeni një pengesë kur komuniteti i mësimit të makinerisë filloi të zbulojë potencialin e mësimit të pambikëqyrur. Kjo, së bashku me modelet e gjuhës gjeneruese dhe transferimin e detyrave të shkurtra, zgjidhi problemin e “grupeve të mëdha të të dhënave” për OpenAI.