Pse modeli i ri i AI i DeepSeek mendon se është ChatGPT
Në fillim të kësaj jave, DeepSeek, një laborator kinez i AI i financuar mirë, lëshoi një model të “hapur” të AI që mund shumë rivalë në standardet e njohura. Modeli, DeepSeek V3, është i madh, por efikas, duke trajtuar me lehtësi detyrat e bazuara në tekst si kodimi dhe shkrimi i eseve.
Gjithashtu duket se mendon se është ChatGPT.
Postimet në X dhe testet e vetë TechCrunch tregojnë se DeepSeek V3 e identifikon veten si ChatGPT, platforma e chatbot-it me AI të OpenAI-së. I pyetur për të elaboruar, DeepSeek V3 këmbëngul se është një version i modelit GPT-4 të OpenAI i lëshuar në 2023.
Iluzionet shkojnë thellë. Nëse i bëni DeepSeek V3 një pyetje në lidhje me API-në e DeepSeek, ai do t’ju japë udhëzime se si të përdorni API- në e OpenAI. DeepSeek V3 madje tregon disa nga të njëjtat shaka si GPT-4 deri në vijat e goditjes.
Pra, çfarë po ndodh?
Modele si ChatGPT dhe DeepSeek V3 janë sisteme statistikore. Të trajnuar në miliarda shembuj, ata mësojnë modele në këta shembuj për të bërë parashikime si për shembull se si “kujt” në një email zakonisht i paraprin “mund të shqetësojë”.
DeepSeek nuk ka zbuluar shumë për burimin e të dhënave të trajnimit të DeepSeek V3. Por nuk ka mungesë të grupeve të të dhënave publike që përmbajnë tekst të krijuar nga GPT-4 nëpërmjet ChatGPT. Nëse DeepSeek V3 do të ishte trajnuar për këto, modeli mund të kishte memorizuar disa nga rezultatet e GPT-4 dhe tani po i rigjeneron ato fjalë për fjalë.
“Natyrisht, modeli po sheh përgjigje të papërpunuara nga ChatGPT në një moment, por nuk është e qartë se ku është,” tha për TechCrunch Mike Cook, një studiues në King’s College në Londër i specializuar në AI. “Mund të jetë “aksidental” … por për fat të keq, ne kemi parë raste të njerëzve që trajnojnë drejtpërdrejt modelet e tyre në rezultatet e modeleve të tjera për të provuar të rikthejnë njohuritë e tyre.”
Cook vuri në dukje se praktika e modeleve të trajnimit mbi rezultatet nga sistemet rivale të AI mund të jetë “shumë e keqe” për cilësinë e modelit, sepse mund të çojë në halucinacione dhe përgjigje mashtruese si më sipër. “Ashtu si marrja e një fotokopjeje të një fotokopjeje, ne humbasim gjithnjë e më shumë informacion dhe lidhje me realitetin,” tha Cook.
Mund të jetë gjithashtu kundër kushteve të shërbimit të atyre sistemeve.
Kushtet e OpenAI ndalojnë përdoruesit e produkteve të saj, përfshirë klientët ChatGPT, të përdorin rezultatet për të zhvilluar modele që konkurrojnë me ato të OpenAI.
OpenAI dhe DeepSeek nuk iu përgjigjën menjëherë kërkesave për koment. Megjithatë, CEO i OpenAI Sam Altman postoi atë që dukej të ishte një gërmim në DeepSeek dhe konkurrentët e tjerë të Premten X.
“Është (relativisht) e lehtë të kopjosh diçka që e di se funksionon,” shkroi Altman. “Është jashtëzakonisht e vështirë të bësh diçka të re, të rrezikshme dhe të vështirë kur nuk e di nëse do të funksionojë.”
Kuptohet, DeepSeek V3 është larg nga modeli i parë që e ka keqidentifikuar veten. Gemini e Google dhe të tjerët ndonjëherë pretendojnë se janë modele konkurruese. Për shembull, i nxitur në Mandarin, Gemini thotë se është chatbot i kompanisë kineze Baidu, Wenxinyiyan.
Dhe kjo për shkak se ueb-i, ku kompanitë e AI-së marrin pjesën më të madhe të të dhënave të tyre të trajnimit, po bëhet i mbushur me slopë të AI. Fermat e përmbajtjes po përdorin AI për të krijuar klikime . Bots po vërshojnë Reddit dhe X. Sipas një vlerësimi, 90% e internetit mund të gjenerohet nga AI deri në vitin 2026.
Ky “ndotje”, nëse dëshironi, e ka bërë mjaft të vështirë filtrimin e plotë të rezultateve të AI nga grupet e të dhënave të trajnimit.
Është sigurisht e mundur që DeepSeek të trajnojë DeepSeek V3 drejtpërdrejt në tekstin e krijuar nga ChatGPT. Google u akuzua dikur se po bënte të njëjtën gjë, në fund të fundit.
Heidy Khlaaf, krye shkencëtar i AI në Institutin jofitimprurës AI Now, tha se kursimet e kostos nga “distilimi” i njohurive të një modeli ekzistues mund të jenë tërheqëse për zhvilluesit, pavarësisht nga rreziqet.
“Edhe me të dhënat e internetit që tani janë të mbushura me rezultate të AI, modelet e tjera që do të stërviteshin aksidentalisht në daljet ChatGPT ose GPT-4 nuk do të demonstronin domosdoshmërisht rezultate që të kujtojnë mesazhet e personalizuara të OpenAI,” tha Khlaaf. “Nëse është rasti që DeepSeek ka kryer distilimin pjesërisht duke përdorur modele OpenAI, nuk do të ishte befasuese.”
Megjithatë, ka më shumë gjasa që shumë të dhëna ChatGPT/GPT-4 të hynë në grupin e trajnimit DeepSeek V3. Kjo do të thotë se modelit nuk mund t’i besohet vetë-identifikimi. Por ajo që është më shqetësuese është mundësia që DeepSeek V3, duke thithur dhe përsëritur në mënyrë jokritike rezultatet e GPT-4, mund të përkeqësojë disa nga paragjykimet dhe të metat e modelit.