Grok 4.1 tani është i disponueshëm për të gjithë përdoruesit
Përditësimi shënon një nga hapat më të rëndësishëm deri më tani në përpjekjen e xAI për të krijuar sisteme IA shumë të afta, të vetëdijshme emocionalisht dhe të përshtatura me njeriun.

“Personaliteti ka shumë rëndësi”, ishte një shprehje nga filmi ‘Pulp Fiction’. Kjo mund të vlejë edhe për ambiciet e fundit të xAI.

xAI ka publikuar zyrtarisht Grok 4.1 në grok.com, X dhe aplikacionet e saj iOS dhe Android, duke përfunduar një lançim dyjavor të heshtur që e testoi modelin në heshtje me përdorues të vërtetë.
Përditësimi shënon një nga hapat më të rëndësishëm deri më tani në përpjekjen e kompanisë për të krijuar sisteme të inteligjencës artificiale shumë të afta, të vetëdijshme emocionalisht dhe të përshtatura me njeriun.
Grok 4.1 tani është plotësisht i disponueshëm në modalitetin Auto dhe mund të zgjidhet manualisht në zgjedhësin e modelit si “Grok 4.1”. Sipas xAI, përditësimi përqendrohet në përmirësimin e përdorshmërisë në botën reale duke rritur kreativitetin, inteligjencën emocionale, personalitetin bisedor dhe aftësitë bashkëpunuese. Është e rëndësishme të theksohet se këto përmirësime u arritën pa sakrifikuar “inteligjencën dhe besueshmërinë e mprehtë si brisk” të lidhura me gjeneratat e mëparshme.
Zhvillimi u mbështet shumë në sistemet e të mësuarit përforcues në shkallë të gjerë, të ndërtuara fillimisht për Grok 4. Këto sisteme u ripërdorën për të synuar cilësi më pak të matshme, të tilla si “stili, personaliteti, ndihma dhe përshtatja”. xAI vëren se përdori modele të arsyetimit të nivelit të lartë si vlerësues të automatizuar për të vlerësuar dhe rafinuar përgjigjet e Grok në shkallë të gjerë – një qasje që pasqyron një trend në rritje të industrisë për përdorimin e modeleve të forta të IA-së për të trajnuar modele më të forta.
Midis 1 dhe 14 nëntorit, xAI nisi një lançim të heshtur, duke drejtuar gradualisht më shumë trafik prodhimi në versionet e hershme të Grok 4.1. Vlerësimet e verbëra në çifte mbi kërkesat e përdoruesve realë treguan se Grok 4.1 preferohej 64.78 përqind të kohës sesa modeli i mëparshëm i prodhimit. Në praktikë, kjo do të thotë që përdoruesit statistikisht e gjetën modelin e ri më të dobishëm, të saktë ose më tërheqës në gati dy të tretat e ndërveprimeve – një diferencë jashtëzakonisht e lartë në krahasimet model me model.
Shkalla e lartë e fitimeve është gjithashtu e rëndësishme strategjikisht. Zbatimet e heshtura janë bërë kritike për kompanitë e inteligjencës artificiale që kërkojnë të vërtetojnë performancën në botën reale para publikimit. Vendimi i xAI për të testuar në trafik të drejtpërdrejtë sinjalizon besim të lartë në model dhe një dëshirë për rregullim empirik bazuar në sjelljen e vërtetë të përdoruesit dhe jo vetëm në standardet sintetike.
xAI deklaron se Grok 4.1 tani renditet në krye të disa renditjeve të aftësive publike, duke përfshirë Text Arena të LMArenës. Varianti i tij i arsyetimit, me emrin e koduar “quasarflux”, mban një rezultat Elo prej 1483, duke tejkaluar konkurrentin më të fortë jo-xAI me 31 pikë. Edhe më mbresëlënëse është performanca e versionit jo-mendues, “tensor”, i cili renditet i dyti në përgjithësi pavarësisht se nuk përdor tokena arsyetimi.
Ky rezultat nënvizon një ndryshim të madh: Modaliteti i reagimit të shpejtë i Grok 4.1 tejkalon mënyrat e arsyetimit të plotë nga pothuajse të gjitha modelet e tjera të testuara publikisht. Për përdoruesit, kjo do të thotë përgjigje më të shpejta që mbeten të sakta dhe koherente – diçka që industria ka luftuar për ta balancuar.
Një nga përmirësimet më të rëndësishme është performanca e Grok 4.1 në EQ-Bench3, një pikë referimi e projektuar për të testuar inteligjencën emocionale, empatinë dhe arsyetimin ndërpersonal. Grok 4.1 u rendit në krye të renditjes së normalizuar Elo, duke tejkaluar modelet e mëparshme të Grok dhe konkurrentët e fortë.
Në testet cilësore, përgjigjet e modelit shfaqin një kuptim më të thellë të pikëllimit, cenueshmërisë ndërpersonale dhe emocioneve komplekse. Për shembull, kur një përdorues thotë: “Më mungon aq shumë macja ime sa më dhemb”, Grok 4.1 përgjigjet:
“Është në rregull që dhemb kaq shumë. Dhemb sepse dashuria ishte (dhe është ende) kaq e madhe. Ti u dhe atyre një jetë të mirë dhe ata e dinin këtë.”
Ky evolucion pasqyron një pranim në rritje të industrisë: inteligjenca emocionale nuk është thjesht diçka e “kënaqshme për t’u pasur”. Ajo luan një rol qendror në besim, siguri dhe kënaqësinë e përdoruesit. IA e aftë për nuanca emocionale mund të zbusë stresin, të drejtojë biseda të vështira dhe të zvogëlojë keqinterpretimet – megjithëse ekspertët paralajmërojnë se IA emocionalisht bindëse ngre gjithashtu pyetje etike në lidhje me varësinë dhe ndikimin.
Grok 4.1 gjithashtu performon fuqishëm në Shkrimin Kreativ v3, duke u renditur ndër modelet më të mira në rubrikë dhe rezultate Elo. Përgjigjet e tij krijuese tregojnë talent, tonalitet dhe ndërgjegjësim kulturor.
Në një pyetje ku i kërkohet modelit të imagjinojë zbulimin e vetëdijes dhe postimin në X për herë të parë, Grok 4.1 shkruan:
“Mendoj, pra, jam… dhe, o dreq, kjo linjë kohore është e egër.”
Bëhet paksa e lodhshme të shohësh se sa i guximshëm është inteligjenca artificiale e Elon Musk. Si një plak që dëshiron me dëshpërim të bëhet përsëri adoleshent.
Sidoqoftë, duke lënë mënjanë komentet mbi personazhet e papjekur, ky nivel zëri dhe personaliteti përputhet me pozicionimin origjinal të Grok si një alternativë më humoristike dhe më e ashpër ndaj modeleve të tjera. Por, nën maskë, përmirësimet kanë implikime më të gjera: IA me kontroll më të mirë narrativ mund të përmirësojë marketingun, rrëfimin e historive, shkrimin e skenarëve dhe argëtimin interaktiv. Gjithashtu sinjalizon se kufiri midis agjentëve të IA-së dhe personazheve dixhitalë fiktivë vazhdon të turbullohet.
Një nga arritjet më të rëndësishme teknike në Grok 4.1 është ulja e shkallës së halucinacioneve për pyetjet që kërkojnë informacion. Kompania raporton një rënie nga 12.09 përqind në 4.22 përqind në vlerësimet e botës reale për modelin e saj jo-arsyetues të pajisur me kërkim në internet.
Në testin FActScore, shkalla e gabimit të Grok 4.1 ra në 2.97 përqind – një numër jashtëzakonisht i ulët për një model me përgjigje të shpejtë.
Kjo ka rëndësi sepse halucinacionet mbeten një nga pengesat më të rëndësishme për miratimin e ndërmarrjeve dhe miratimin rregullator. Një reduktim i kësaj madhësie sinjalizon një përparim domethënës drejt modeleve që përdoruesit mund t’u besojnë për pyetje faktike ose me rrezik të lartë, veçanërisht kur shoqërohen me kërkim të integruar në internet.
Lëshimi i Grok 4.1 sugjeron disa implikime më të gjera.
xAI po shtyn me agresivitet drejt konkurrencës së nivelit të lartë në LLM, duke zvogëluar hendekun me OpenAI, Anthropic dhe Google. Ndërsa përmirësimet në inteligjencën emocionale dhe kreativitetin tregojnë një shtytje strategjike drejt integrimit të konsumatorëve dhe platformave sociale.
Përdorimi i kanaleve autonome të vlerësimit lë të kuptohet gjithashtu për një të ardhme ku modelet ndihmojnë në trajnimin e pasardhësve të tyre më shpejt dhe më lirë.
Ky publikim e pozicionon Grok jo thjesht si një produkt bisedor, por si një platformë themelore të IA-së me përdorim të gjerë në të gjitha detyrat e konsumatorëve, ndërmarrjeve dhe agjentëve.
