Anthropic’s Claude 3 sfidon GPT-4 me inteligjencë të përmirësuar dhe aftësi vizuale
Amazon, e cila ofron të tre modelet e reja Claude 3 në shërbimin e saj cloud Bedrock tregon një video të aftësive vizuale të Claude 3 në veprim. Për shembull, ai thotë, “Kompanitë farmaceutike mund të kërkojnë dokumente kërkimore për ilaçet së bashku me diagramet e strukturës së proteinave për të shpejtuar zbulimin. Organizatat mediatike mund të gjenerojnë automatikisht titrat ose skriptet video.” Modeli i treguar është më i madhi, Opus.
Anthropic prezanton Claude 3, modelin e tij më të fundit të gjuhës së madhe, i disponueshëm në tre versione. Versioni më i fuqishëm, “Opus”, supozohet të jetë të paktën në të njëjtin nivel me GPT-4.
Startup i AI Anthropic, një spin-off i OpenAI, ka prezantuar familjen e modeleve Claude 3, një seri e re sistemesh AI të krijuara për të vendosur standarde në fusha të ndryshme të detyrave njohëse.
Familja përbëhet nga tre modele: Claude 3 Haiku, Claude 3 Sonnet dhe Claude 3 Opus, duke u ofruar përdoruesve një zgjedhje të inteligjencës, shpejtësisë dhe kostos për aplikacionet e tyre specifike. Opus është po aq i shpejtë sa Claude 2.1, por thuhet se është shumë më “inteligjent”, ndërsa Haiku mund të përgjigjet pothuajse në kohë reale. Soneti është dy herë më i shpejtë se Claude 2, por me “nivele më të larta inteligjence”.
Të gjitha modelet Claude 3 ofrojnë aftësi të përmirësuara analitike dhe parashikuese, krijimin e përmbajtjes me nuanca, gjenerimin e kodit dhe bisedën në gjuhët jo-anglisht si spanjisht, japonisht dhe frëngjisht, sipas Anthropic. Përveç kësaj, ata mund të trajtojnë një sërë formatesh vizuale, duke përfshirë fotografitë, grafikët, grafikët dhe vizatimet inxhinierike.
Opus dhe Sonnet janë aktualisht në dispozicion përmes claude.ai dhe Claude API, me Haiku që vjen së shpejti. Opus është i disponueshëm vetëm për klientët që paguajnë Claude, Sonnet është falas.
Sipas njoftimit, modelet Claude 3 i tejkalojnë konkurrentët e tyre në standardet e zakonshme të AI si ekspertiza e nivelit universitar (MMLU), arsyetimi i nivelit të diplomuar (GPQA) dhe matematika bazë (GSM8K). Anthropic pretendon se Opus mund të demonstrojë “nivele afërsisht njerëzore të të kuptuarit dhe rrjedhshmërisë në detyra komplekse”.
Sipas Anthropic, modelet Claude 3 mund të ndjekin udhëzime komplekse dhe të prodhojnë rezultate të strukturuara në formate të tilla si JSON, duke i bërë ato të përshtatshme për klasifikimin e gjuhës natyrore dhe analizën e ndjenjave.
Ndërsa mund të jetë një sukses për Anthropic që të arrijë GPT-4 në standarde dhe ta mposhtë atë në disa, dy gjëra duhet të mbahen parasysh: Së pari, standardet janë pikërisht kaq. Se sa mirë performojnë modelet në botën reale, mbetet për t’u parë. Së dyti, GPT-4 ka qenë në dispozicion për rreth një vit, dhe ende asnjë kompani nuk ka arritur të bëjë përparim të rëndësishëm – pavarësisht nga të gjitha miliardat e investuara.
Modelet e reja Claude kanë aftësi vizuale që i lejojnë ata të përpunojnë formate të ndryshme imazhi si foto, diagrame dhe vizatime teknike. Anthropic thotë se kjo duhet të jetë me përfitim të veçantë për klientët e korporatave, bazat e njohurive të të cilëve janë të koduara në formate të ndryshme.
Me modelet Claude 3, Anthropic gjithashtu pretendon se ka bërë përparim të rëndësishëm në reduktimin e refuzimeve të panevojshme dhe përmirësimin e të kuptuarit të kërkesave. Krahasuar me Claude 2.1, modelet thuhet se dyfishojnë saktësinë e pyetjeve sfiduese të hapura dhe zvogëlojnë numrin e përgjigjeve të pasakta.
Ngjashëm me Google Gemini 1.5 , Anthropic zgjeron ndjeshëm dritaren e kontekstit në Claude. Dritarja e kontekstit përshkruan sasinë e informacionit që modeli i AI mund të përpunojë menjëherë. Me Claude 3, inputet deri në një milion argumente janë të mundshme, megjithëse modelet fillimisht lëshohen me vetëm 200 mijë. Për krahasim, GPT-4 origjinale ka vetëm 8K argumente, më të fundit 128K.
Vlerësimi Needle In A Haystack (NIAH), i cili mat aftësinë e një modeli për të nxjerrë me saktësi informacionin, tregon se Claude 3 Opus arrin nxjerrjen pothuajse perfekte të pjesëve individuale të informacionit nga dokumente të gjata me mbi 99 përqind saktësi.
Google përdori gjithashtu testin NIAH si një pikë referimi për të theksuar performancën e dritares së tij të kontekstit në Gemini 1.5. Por kjo formë e kërkimit LLM tregon pak nëse modeli e kupton kontekstin dhe nëse mund të përmbledhë ose analizojë në mënyrë kuptimplotë tekste të mëdha . Në varësi të aplikacionit, ka mënyra më efektive për të kërkuar të dhëna të mëdha teksti – p.sh., “Ctrl + F”.
Mbetet për t’u parë nëse këto dritare të mëdha të kontekstit janë më shumë se thjesht një shtytës i kostos. Rreziku është që sa më shumë përmbajtje të ushqeni sistemin, aq më pak ka gjasa që të vini re se ai ka humbur diçka.
Kostot e hyrjes dhe daljes për një milion argumente janë 15 dhe 75 dollarë për modelin më inteligjent, Opus, 3 dhe 15 dollarë për Sonet dhe 0,25 dollarë dhe 1,25 dollarë për Hakiun e shpejtë dhe kompakt. Modeli më i fundit turbo GPT-4 i OpenAI me 128 mijë argumente kushton 10 dollarë për një milion argumente hyrëse dhe 30 dollarë për një milion argumente dalëse. Strategjia e çmimeve të Anthropic duket e sigurt.
Sipas Anthropic, zhvillimi i “inteligjencës së modelit” të Claude 3 është larg nga përfundimi dhe kompania planifikon të lëshojë përditësime të rregullta në muajt e ardhshëm. Kompania gjithashtu planifikon të ofrojë shërbime dhe aftësi të pronarit për klientët e ndërmarrjeve të mëdha, të tilla si asistenca për kodim.
Në njoftimin e tij për Claude 3, Anthropic nuk komenton të dhënat e përdorura të trajnimit. Rivali OpenAI është i përfshirë në disa beteja ligjore mbi të dhënat e trajnimit, duke përfshirë një me New York Times , e cila pretendon se OpenAI është trajnuar mbi të dhënat e mbrojtura nga të drejtat e autorit të gazetës pa lejen e saj.
Raporti teknik për Claude 3 sugjeron që Anthropic përdori të dhëna sintetike (“të gjeneruara nga brenda”) përveç të dhënave të zakonshme të Internetit, me një datë përfundimtare gusht 2023.
“Modelet Claude 3 janë trajnuar mbi një përzierje të pronarit të informacionit të disponueshëm publikisht në internet që nga gushti 2023, si dhe të dhëna jo publike nga palët e treta, të dhëna të ofruara nga shërbimet e etiketimit të të dhënave dhe kontraktorët me pagesë, dhe të dhëna që ne gjenerojmë brenda.”