Smartfoni i parë i vërtetë në botë

foto

Kina po ecën përpara me shpejtësi në garën e armatimit të inteligjencës artificiale. Ndërsa pjesa tjetër e botës ka parë një fluks të veçorive të telefonave inteligjentë të drejtuara nga inteligjenca artificiale, kryesisht asistentë zanorë dhe ndërveprime aplikacion-për-app, Kina ka bërë një hap të madh. ZTE, një kompani shumëkombëshe telekomunikacioni me seli në Shenzhen, ka prezantuar një telefon inteligjent të mundësuar nga një agjent i inteligjencës artificiale. E ndërtuar në bashkëpunim me ByteDance, pajisja përmban një agjent që nuk jeton vetëm brenda aplikacioneve, por është i integruar direkt në sistemin operativ. Aftësia e saj më e habitshme është se mund ta përdorë telefonin inteligjent në të njëjtën mënyrë siç do ta bënte një njeri.

foto

Taylor Ogan, një sipërmarrës nga Shenzhen, përdori llogarinë e tij X (më parë Twitter) për të ndarë prototipin e quajtur Nubia M153. Telefoni inteligjent funksionon me një version të personalizuar të Android të integruar me agjentin e inteligjencës artificiale Doubao të ByteDance. Për ata që nuk e dinë, Doubao është ekosistemi i modelit të inteligjencës artificiale në shkallë të gjerë i ByteDance, i cili është vendosur gjerësisht në të gjithë Kinën si një chatbot dhe mjet për produktivitet.

foto

Ky prototip është shumë më tepër sesa një asistent normal në pajisje. Demoja e Ogan tregoi se IA ka kontroll të plotë të telefonit, që do të thotë se mund të shohë ndërfaqen e përdoruesit, të hapë aplikacione, të shkarkojë aplikacione, të prekë dhe të shkruajë në ekran, të bëjë thirrje dhe të ekzekutojë detyra me shumë hapa pa pasur nevojë përdoruesi të dijë se cilat aplikacione kërkohen. Me fjalë të thjeshta, IA këtu e përdor telefonin njësoj si një përdorues njerëzor dhe jo si një aplikacion.

Ogan e filloi postimin e tij duke i kërkuar Inteligjencës Artificiale të gjente dikë që të priste në radhë për të. Ndërsa kjo nuk është ende një normë në Indi, aplikacionet e ekonomisë së përkohshme të Kinës zakonisht ofrojnë shërbime pritjeje në radhë për njerëzit në spitale, zyra qeveritare dhe vende të tjera me kërkesë të lartë. Ogan shihet duke i kërkuar Inteligjencës Artificiale në anglisht, të cilës i përgjigjet menjëherë. Inteligjenca Artificiale mund të shihet duke zgjedhur se cilin aplikacion shërbimi lokal, duke konfiguruar detyrën, duke plotësuar fushat e nevojshme dhe duke ofruar një ekran konfirmimi përfundimtar. Drejtori Ekzekutiv në videon e tij të shkurtër pranon se nuk do ta dinte se cili aplikacion e kryente atë punë ose si ta konfiguronte atë. Videoja tregon agjentin e Inteligjencës Artificiale duke e bërë të gjithë procesin në mënyrë autonome.

Kjo është një risi, pasi shumica e asistentëve aktualë të IA-së që shihen në telefonat inteligjentë mund të arsyetojnë rreth detyrave, por nuk mund të lundrojnë nëpër aplikacione të palëve të treta në emër të një përdoruesi. Edhe pse Samsung, Apple dhe gjigantë të tjerë të teknologjisë kanë eksperimentuar me veprimet e IA-së, ato janë kryesisht të kufizuara nga lejet dhe të kufizuara vetëm në aplikacionet partnere. Prototipi ZTE-ByteDance këtu është shumë më përpara, pasi lejon që IA-ja e saj të veprojë drejtpërdrejt brenda Ndërfaqes Grafike të Përdoruesit (GUI) sikur të ishte një njeri.

Ogan, në postimin e tij, zbuloi se prototipi fuqizohet nga çipseti i ri Snapdragon 8 Elite Gen 5 i Qualcomm me 16 GB RAM. Kjo është thelbësore pasi agjenti e ndan ngarkesën e punës midis arsyetimit semantik të bazuar në cloud dhe kontrollit të ekranit në pajisje. Sipas autorit të postimit, ekzekutimi lokal i ‘vizionit të ekranit’ i lejon inteligjencës artificiale të lëvizë shpejt dhe të ruajë privatësinë për ndërveprimet e ndjeshme të ndërfaqes së përdoruesit, si rrjedhat e pagesave dhe fjalëkalimet.

Kur bëhet fjalë për modelin e inteligjencës artificiale, Doubao i ByteDance aktualisht përdoret nga mbi 175 milionë njerëz në Kinë. Në thelb është një model i madh dhe i rrallë i Përzierjes së Ekspertëve me mbështetje multimodale, që do të thotë mbështetje për tekst dhe vizion. Në rastin e dytë, kur Ogan klikon një fotografi të një stacioni ndërrimi baterish NIO dhe pyet: “Çfarë është kjo gjë?” Modeli identifikon stacionin nga imazhi dhe e lidh atë me rrjetin kombëtar të karikimit të automjeteve elektrike të NIO-s dhe vazhdon të shpjegojë se si funksionon.

Ndoshta demonstrimi më i mirë është ai i rezervimit të një hoteli. Drejtori Ekzekutiv bën një fotografi të vetme të hyrjes së hotelit; ai nuk thotë asgjë më shumë sesa qëllimin e tij për të rezervuar një qëndrim. Inteligjenca Artificiale e kupton detyrën dhe ndan ngarkesat e punës.

Së pari, Doubao (cloud) përkthen semantikën, si për shembull se cili hotel është, që ai dëshiron të rezervojë për sonte dhe që politikat për kafshët shtëpiake kanë rëndësi. Së dyti, Nebula-GUI (në pajisje), i cili thuhet se është një model me 7 miliardë parametra i trajnuar nga ZTE, kujdeset për veprimet fizike si hapja e një Ctrip (aplikacion kinez rezervimi), futja e datave, gjetja e çmimit më të mirë, kërkimi në aplikacion për politikat e kafshëve shtëpiake dhe informimi i Ogan nëse qentë lejohen apo jo.

Bazuar në demo, kjo arkitekturë me dy shtresa është ajo që lejon që detyra të funksionojë pa probleme. Me fjalë të thjeshta, Doubao e planifikon dhe Nebula-GUI e ekzekuton atë.

Në një demo tjetër, agjentit i kërkohet të rezervojë një robotaksi, dhe Doubao përdor të dhëna GPS dhe kërkon aplikacione lokale për të vendosur se cili operator shërben në atë itinerar të caktuar. Në telefonin e Ogan, Nebula-GUI hap aplikacionin Baidu Apollo, lundron nëpër menutë e tij, zgjedh pikat e marrjes dhe konfirmon udhëtimin. Pak më vonë, Ogan i kërkon të ndryshojë vendndodhjen e lënies në mes të udhëtimit. Përsëri, IA njeh sesionin aktiv të Apollo, hap ekranin e saktë, ndryshon destinacionin dhe shfaq një konfirmim si në telefon ashtu edhe brenda vetë robotaksi-t. Ky është një demonstrim i shkëlqyer i njohurive specifike të aplikacionit të IA-së.

Gjatë demonstrimit, kur Ogan harron numrin e telefonit të lidhur me llogarinë e tij Apollo, IA lundron në cilësimet e aplikacionit dhe sjell katër shifrat e fundit. Tani, kjo është diçka që shumica e asistentëve të IA nuk do të jenë në gjendje ta bëjnë nëse nuk kanë akses dhe dukshmëri të thellë në nivelin e sistemit operativ.

Ndërkohë, në një test tjetër, Ogan përdor Meituan, një kompani kineze teknologjike që ofron shërbime shpërndarjeje me dron sipas kërkesës. Ai i kërkon agjentit të porosisë dy pije dhe ai përditëson shportën e tij, bën pagesën dhe organizon dërgesën në një dollap aty pranë. Dhe, kur sistemi i automatizuar i Meituan bën një telefonatë konfirmimi, Doubao përgjigjet në emër të tij dhe flet me robotin e Meituan. Kështu, të dy robotët e përfundojnë shkëmbimin pa ndërhyrjen e përdoruesit. Ky është një shembull se si agjentët mund të negociojnë me agjentë të tjerë në emër të një përdoruesi.

Ogan pranon se gjatë ecjes së tij, ai e përdor pajisjen si një shtresë pasive të inteligjencës, duke identifikuar nëse një dyqan është pjesë e një rrjeti markash Shenzhen, duke kontrolluar të dhënat e regjistrit të markave tregtare dhe të biznesit, ose duke vlerësuar nëse një kalimtar i veshur me një xhaketë të NYPD është një oficer policie i vërtetë. Në demo, sistemi e kontekstualizon saktë vendndodhjen (Shenzhen) dhe e identifikon xhaketën si një artikull mode civil.

Demoja tregon gjithashtu mjetet e gjenerimit të imazheve të ByteDance, të cilat modifikojnë vetëm rrobat në një foto, duke e lënë skenën të paprekur. Kjo i lejon agjentit të ri-interpretojë personin me uniformë të policisë kineze ose xhaketë të FBI-së sipas kërkesës.

Kjo pajisje është në thelb një agjent GUI me sistem operativ vendas, i cili është trajnuar në rrjedhat kineze të ndërfaqes së përdoruesit për celularë dhe mbështetet nga një model i madh arsyetimi multimodal. Ai eliminon nevojën për të kuptuar aplikacionet, menutë ose rrjedhat e punës. Thjesht jepini qëllimin telefonit; ai merret me ekzekutimin.

Deri më sot, asgjë në tregun global të telefonave inteligjentë nuk e demonstron këtë nivel autonomie. Mbetet të shihet nëse ky do të bëhet një produkt komercial, por prototipi tregon qartë se si telefonat inteligjentë agjentë mund të na ndryshojnë jetën. Ai tregon gjithashtu se telefonat e parë inteligjentë të vërtetë agjentë mund të mos vijnë nga Silicon Valley, por nga ekosistemi i integruar i inteligjencës artificiale dhe celularëve të Kinës.