Testimet sugjerojnë se përmbledhjet me AI të Google thonë miliona gënjeshtra në orë
Kërkimi i informacionit në Google sot do të thotë të përballesh me AI Overviews, robotin e kërkimit të mundësuar nga Gemini që shfaqet në krye të faqes së rezultateve. AI Overviews ka pasur një kohë të vështirë që nga lançimi i tij në vitin 2024, duke tërhequr zemërimin e përdoruesve për saktësinë e tij të shpërndarjes, por po përmirësohet dhe zakonisht ofron përgjigjen e saktë. Megjithatë, ky është një nivel i ulët. Një analizë e re nga The New York Times u përpoq të vlerësonte saktësinë e AI Overviews, duke zbuluar se është e saktë në 90 përqind të kohës. Ana tjetër është se 1 në 10 përgjigje të IA është e gabuar, dhe për Google, kjo do të thotë qindra mijëra gënjeshtra që dalin çdo minutë të ditës.

The Times e kreu këtë analizë me ndihmën e një startup-i të quajtur Oumi, i cili vetë është thellësisht i përfshirë në zhvillimin e modeleve të IA-së. Kompania përdori mjete të IA-së për të hetuar Përmbledhjet e IA-së me vlerësimin SimpleQA, një test i zakonshëm për të renditur faktualitetin e modeleve gjeneruese si Gemini. I publikuar nga OpenAI në vitin 2024, SimpleQA është në thelb një listë me më shumë se 4,000 pyetje me përgjigje të verifikueshme që mund të futen në një IA.

Oumi filloi të kryejë testet e saj vitin e kaluar kur Gemini 2.5 ishte ende modeli më i mirë i kompanisë. Në atë kohë, testi tregoi një shkallë saktësie prej 85 përqind. Kur testi u ribërë pas përditësimit Gemini 3 , AI Overviews iu përgjigj saktë 91 përqind të pyetjeve. Nëse e ekstrapoloni këtë shkallë gabimesh në të gjitha kërkimet në Google, AI Overviews po gjeneron dhjetëra miliona përgjigje të pasakta në ditë.
Raporti përfshin disa shembuj se ku AI Overviews gaboi. Kur u pyet për datën në të cilën ish-shtëpia e Bob Marley-t u bë muze, AI Overviews citoi tre faqe, dy prej të cilave nuk e diskutuan fare datën. E fundit, Wikipedia, renditi dy vite kontradiktore, dhe AI Overviews zgjodhi me besim atë të gabuar. Testi referues gjithashtu i nxit modelet të prodhojnë datën në të cilën Yo Yo Ma u fut në sallën e famës së muzikës klasike. Ndërsa AI Overviews citoi faqen e internetit të organizatës që renditi hyrjen e Ma-së, ajo pretendoi se nuk ka diçka të tillë si Salla e Famës së Muzikës Klasike.
Google nuk e pëlqen shumë këtë test. Zëdhënësi i Google, Ned Adriance, i thotë Times se Google beson se SimpleQA përmban informacion të pasaktë. Vlerësimet e modelit të saj shpesh mbështeten në një test të ngjashëm të quajtur SimpleQA Verified, i cili përdor një grup më të vogël pyetjesh që janë verifikuar më me kujdes. “Ky studim ka mangësi serioze,” i tha Adriance Times. “Nuk pasqyron atë që njerëzit po kërkojnë në të vërtetë në Google.”
Vlerësimi i modeleve të reja të IA-së nganjëherë duket më shumë si art sesa shkencë, gjë që është pjesë e problemit. Çdo kompani ka mënyrën e vet të preferuar për të demonstruar se çfarë mund të bëjë një model, dhe natyra jo-deterministe e IA-së së gjeneratës mund ta bëjë të vështirë verifikimin e çdo gjëje. Këta robotë mund ta zgjidhin saktë një pyetje faktike dhe pastaj ta humbasin plotësisht nëse e riekzekutoni menjëherë pyetjen. Oumi madje përdor mjete IA për të kryer vlerësimet e saj, dhe këto modele mund të halucinojnë gjithashtu.
Një tjetër problem është se AI Overviews nuk është një model i vetëm monolit. Google i tha Ars Technica se përdor “modelin e duhur” për secilën pyetje. Ndërsa AI Overviews do të merrte përgjigjet më të mira duke përdorur gjithmonë Gemini 3.1 Pro, kjo është e ngadaltë dhe e kushtueshme. Për të ngarkuar gjërat menjëherë në një faqe kërkimi, përmbledhja përdor modele më të shpejta Gemini Flash kur është e mundur (gjë që duket se ndodh shumicën e kohës).
Përgjigja e Google ndaj këtij raporti është domethënëse. Në sferën e faktualitetit të IA-së, 9 nga 10 nuk është aq keq. Google ka publikuar së fundmi standarde për modelet e reja që paraqesin matje të faktualitetit në rangun prej 60 deri në 80 përqind – këto teste kryhen pa mjete si kërkimi në internet. Bazimi i një IA-je me më shumë të dhëna, si pasuria e njohurive njerëzore në internet, e bën atë më të saktë sesa vetë modeli i zhveshur. Megjithatë, e vërteta është në lidhjet blu diku, dhe IA Overviews i inkurajon njerëzit të pranojnë përmbledhjet e saj ndonjëherë të pasakta në vend që t’i kontrollojnë ato burime manualisht.
Ndërsa Google thotë se rezultatet e Times nuk përputhen me atë që shohin njerëzit, duhet të pyesësh veten se si mund ta dijë kompania këtë. Me siguri keni parë gabime në Përmbledhjet e IA-së – të gjithë i kemi parë sepse kështu funksionon IA gjeneruese. Siç ju kujton vetë Google në fund të çdo përmbledhjeje: “IA mund të bëjë gabime, prandaj kontrolloni dy herë përgjigjet”.
