Mjetet e kodimit me inteligjencë artificiale mund t’i ngadalësojnë zhvilluesit me përvojë deri në 19%

Zhvilluesve me përvojë mund t’u duhet 19% më shumë kohë për të përfunduar detyrat kur përdorin asistentë të njohur të inteligjencës artificiale si Cursor Pro dhe Claude, duke sfiduar narrativën mbizotëruese të industrisë së teknologjisë në lidhje me mjetet e kodimit të inteligjencës artificiale, sipas një studimi të ri gjithëpërfshirës.

Hulumtimi, i kryer nga Model Evaluation & Threat Research (METR), ndoqi 16 zhvillues me përvojë të burimit të hapur, ndërsa ata kryenin 246 detyra kodimi në botën reale në depo të zhvilluara me mesatarisht mbi një milion rreshta kodi.

“Ne kryejmë një provë të kontrolluar të rastësishme (RCT) për të kuptuar se si mjetet e inteligjencës artificiale të fillimit të vitit 2025 ndikojnë në produktivitetin e zhvilluesve me përvojë të burimit të hapur që punojnë në depot e tyre”, tha studimi. “Çuditërisht, ne zbulojmë se kur zhvilluesit përdorin mjete të inteligjencës artificiale, atyre u duhet 19% më shumë kohë sesa pa to – inteligjenca artificiale i bën ato më të ngadalta.”
Ndoshta më e habitshme është shkëputja midis perceptimit dhe realitetit. Përpara fillimit të studimit, zhvilluesit parashikuan se mjetet e inteligjencës artificiale do ta zvogëlonin kohën e përfundimit të tyre me 24%. Edhe pasi përjetuan ngadalësimin aktual, pjesëmarrësit vlerësuan se inteligjenca artificiale kishte përmirësuar produktivitetin e tyre me 20%.
“Kur njerëzit raportojnë se inteligjenca artificiale ua ka përshpejtuar punën, ata mund të gabohen”, shtuan studiuesit në analizën e tyre mbi hendekun e perceptimit.
Ky keqkuptim shtrihet përtej zhvilluesve individualë, me ekspertët e ekonomisë që parashikojnë se inteligjenca artificiale do të përmirësojë produktivitetin me 39% dhe ekspertët e të mësuarit automatik parashikojnë rritje prej 38%, të gjithë duke e mbivlerësuar në mënyrë dramatike ndikimin aktual.
Sanchit Vir Gogia, analisti kryesor dhe drejtor ekzekutiv në Greyhound Research, paralajmëroi se organizatat rrezikojnë “të ngatërrojnë kënaqësinë e zhvilluesve me produktivitetin e tyre”, duke vënë në dukje se shumica e mjeteve të inteligjencës artificiale përmirësojnë përvojën e kodimit përmes ngarkesës së reduktuar njohëse, por nuk përkthehen gjithmonë në rezultate më të shpejta, veçanërisht për profesionistët me përvojë.
Studimi përdori metodologjinë e provës së kontrolluar të rastësishme, e rrallë në kërkimin e produktivitetit të IA-së. “Për të matur drejtpërdrejt ndikimin në botën reale të mjeteve të IA-së në zhvillimin e softuerëve, ne rekrutuam 16 zhvillues me përvojë nga depo të mëdha me burim të hapur (mesatarisht 22 mijë+ yje dhe 1 milion+ rreshta kodi) në të cilat ata kanë kontribuar për shumë vite”, shpjeguan studiuesit.
Detyrat u caktuan rastësisht për të lejuar ose ndaluar përdorimin e mjeteve të inteligjencës artificiale, me zhvilluesit që përdorën kryesisht Cursor Pro me Claude 3.5 dhe 3.7 Sonnet gjatë periudhës së studimit shkurt-qershor 2025. Të gjithë pjesëmarrësit regjistruan ekranet e tyre, duke dhënë informacion mbi modelet aktuale të përdorimit, me detyra që zgjatën mesatarisht dy orë për t’u përfunduar, shtoi punimi i studimit.
Gogia argumentoi se kjo përfaqëson “një korrigjim jetësor ndaj supozimit tepër të thjeshtëzuar se kodimi i asistuar nga inteligjenca artificiale rrit automatikisht produktivitetin e zhvilluesve”, duke sugjeruar që ndërmarrjet duhet të “rrisin rigorozitetin e kornizave të tyre të vlerësimit” dhe të zhvillojnë “modele të strukturuara testimi dhe mësimi që shkojnë përtej standardeve të udhëhequra nga shitësit”.
Hulumtimi identifikoi disa faktorë të ndërlidhur që kontribuan në ngadalësimin e vëzhguar. Pavarësisht udhëzimeve për të përdorur mjetet e inteligjencës artificiale vetëm kur ishin të dobishme, disa zhvillues raportuan se kishin eksperimentuar përtej asaj që ishte produktive. Pjesëmarrësit në studim kishin mesatarisht pesë vjet përvojë dhe 1,500 angazhime në depot e tyre, me studiuesit që gjetën ngadalësime më të mëdha në detyrat ku zhvilluesit kishin përvojë të lartë paraprake.
Më domethënësja është se zhvilluesit pranuan më pak se 44% të sugjerimeve të kodit të gjeneruar nga IA, me 75% që raportuan se lexonin çdo rresht të rezultatit të IA-së dhe 56% që bënin modifikime të mëdha për të pastruar kodin e gjeneruar nga IA. Puna në baza kodi të mëdha dhe të pjekura me varësi dhe standarde kodimi të ndërlikuara rezultoi veçanërisht sfiduese për mjetet e IA-së që nuk kishin kuptim të thellë kontekstual.
“Ngadalësimi prej 19% i vërejtur tek zhvilluesit me përvojë nuk është një akuzë ndaj IA-së në tërësi, por një pasqyrim i vështirësisë në botën reale të integrimit të sugjerimeve probabilistike në rrjedhat e punës deterministike”, shpjegoi Gogia, duke theksuar se matja duhet të përfshijë “ripërpunimin në rrjedhën e mëvonshme, ndryshimin e kodit dhe ciklet e rishikimit nga kolegët – jo vetëm kohën e kodimit”.
Gjetjet e METR përputhen me trendet shqetësuese të identifikuara në raportin e Google për Kërkimin dhe Vlerësimin DevOps (DORA) 2024 , bazuar në përgjigjet e mbi 39,000 profesionistëve. Ndërsa 75% e zhvilluesve raportuan se ndihen më produktivë me mjetet e IA-së, të dhënat tregojnë një histori të ndryshme: çdo rritje prej 25% në përdorimin e IA-së tregoi një rënie prej 1.5% në shpejtësinë e shpërndarjes dhe një rënie prej 7.2% në stabilitetin e sistemit. Përveç kësaj, 39% e të anketuarve raportuan se kishin pak ose aspak besim në kodin e gjeneruar nga IA-ja.
Këto rezultate bien ndesh me studimet e mëparshme optimiste. Hulumtime nga MIT, Princeton dhe Universiteti i Pensilvanisë , të cilat analizuan të dhëna nga mbi 4,800 zhvillues në Microsoft, Accenture dhe një kompani tjetër Fortune 100, zbuluan se zhvilluesit që përdorin GitHub Copilot kryen mesatarisht 26% më shumë detyra. Një eksperiment i kontrolluar i veçantë zbuloi se zhvilluesit i kryenin detyrat e kodimit 55.8% më shpejt me GitHub Copilot. Megjithatë, këto studime zakonisht përdornin detyra më të thjeshta dhe më të izoluara krahasuar me skenarët kompleksë të botës reale të shqyrtuar në hulumtimin METR.
Gjetjet vijnë ndërsa ndërmarrjet investojnë miliarda në mjetet e kodimit të inteligjencës artificiale, me studimin METR që vëren se GitHub raporton se 41% e kodit të ri tani gjenerohet nga inteligjenca artificiale. Megjithatë, hulumtimi zbulon një deficit themelor besimi që mund të jetë duke dëmtuar efektivitetin.
Sipas raportit të DORA-s, një pjesëmarrës e përshkroi vlerësimin e kodit të IA-së si “si ditët e para të StackOverflow, [kur] gjithmonë mendoje se njerëzit në StackOverflow janë me të vërtetë me përvojë… Dhe pastaj, thjesht kopjon dhe ngjisni gjërat, dhe gjërat shpërthejnë”.
Pavarësisht rënies së produktivitetit, 69% e pjesëmarrësve në studim vazhduan të përdorin Cursor pas përfundimit të eksperimentit, duke sugjeruar që zhvilluesit vlerësojnë aspekte përtej shpejtësisë së pastër. Studimi METR vuri në dukje se “rezultatet nuk shënojnë domosdoshmërisht një dështim për mjetet e kodimit të inteligjencës artificiale”, pasi disa faktorë specifikë për mjedisin e tyre të studimit mund të mos zbatohen gjerësisht.
Gogia rekomandoi që ndërmarrjet të përvetësojnë një “mentalitet portofoli: vendosjen e bashkëpilotëve të IA-së aty ku ato rrisin njohjen (dokumentacionin, modelin standard, testet), ndërsa tërhiqen në fushat ku ekspertiza dhe njohja e bazës së kodit tejkalojnë automatizimin”. Ai mbështeti trajtimin e mjeteve të IA-së “jo si një përshpejtues universal, por si një bashkëpilot kontekstual” që kërkon qeverisje dhe matje.