OpenAI prezanton përpunimin e ri multimodal, mjetet e rregullimit të AI në DevDay

foto

Të hënën, OpenAI filloi ngjarjen e saj vjetore DevDay në San Francisko, duke zbuluar katër përditësime kryesore të API për zhvilluesit që integrojnë modelet e AI të kompanisë në produktet e tyre. Ndryshe nga ngjarja e vitit të kaluar me një vendndodhje të vetme me një fjalim kryesor nga CEO Sam Altman, DevDay 2024 është më shumë se vetëm një ditë, duke adoptuar një qasje globale me ngjarje shtesë të planifikuara për Londrën më 30 tetor dhe Singapor më 21 nëntor.

foto

Ngjarja e San Franciskos, e cila ishte vetëm me ftesa dhe e mbyllur për shtypin, paraqiti folës në skenë duke kaluar përmes prezantimeve teknike. Ndoshta veçoria e re më e dukshme e API-së është API Realtime, tani në beta publike, e cila mbështet bisedat e të folurit në të folur duke përdorur gjashtë zëra të paracaktuar dhe u mundëson zhvilluesve të ndërtojnë funksione shumë të ngjashme me modalitetin e avancuar të zërit të ChatGPT (AVM) në aplikacionet e tyre.

OpenAI thotë se API Realtime thjeshton procesin e krijimit të asistentëve zanorë. Më parë, zhvilluesit duhej të përdornin modele të shumta për njohjen e të folurit, përpunimin e tekstit dhe konvertimin e tekstit në të folur. Tani, ata mund të trajtojnë të gjithë procesin me një thirrje të vetme API.

Kompania planifikon të shtojë aftësitë e hyrjes dhe daljes audio në API-në e saj të Përfundimeve të Bisedave në javët e ardhshme, duke i lejuar zhvilluesit të futin tekst ose audio dhe të marrin përgjigje në secilin format.

OpenAI njoftoi gjithashtu dy veçori që mund të ndihmojnë zhvilluesit të balancojnë performancën dhe koston kur bëjnë aplikacione të AI. “Distilimi i modelit” ofron një mënyrë për zhvilluesit që të rregullojnë (përshtatin) modelet më të vogla dhe më të lira si GPT-4o mini duke përdorur rezultate nga modele më të avancuara si GPT-4o dhe o1-preview. Kjo potencialisht i lejon zhvilluesit të marrin rezultate më të përshtatshme dhe të sakta gjatë ekzekutimit të modelit më të lirë.

Gjithashtu, OpenAI njoftoi “caching i shpejtë”, një veçori e ngjashme me atë të prezantuar nga Anthropic për Claude API-në e saj në gusht. Ai përshpejton konkluzionet (modeli i AI që gjeneron rezultate) duke kujtuar kërkesat e përdorura shpesh (shenjat hyrëse). Gjatë rrugës, funksioni ofron një zbritje prej 50 për qind në argumentet hyrëse dhe kohë më të shpejta të përpunimit duke ripërdorur argumentet hyrëse të parë së fundmi.

Dhe së fundi, por jo më pak e rëndësishme, kompania zgjeroi aftësitë e saj të akordimit për të përfshirë imazhe (ajo që ajo e quan “rregullimi i imët i vizionit”), duke i lejuar zhvilluesit të personalizojnë GPT-4o duke e ushqyer atë si imazhe ashtu edhe tekst. Në thelb, zhvilluesit mund të mësojnë versionin multimodal të GPT-4o të njohë vizualisht disa gjëra. OpenAI thotë se funksioni i ri hap mundësi për përmirësimin e funksionalitetit të kërkimit vizual, zbulimin më të saktë të objekteve për automjetet autonome dhe ndoshta analizën e përmirësuar të imazhit mjekësor.

foto

Ndryshe nga viti i kaluar, DevDay nuk po transmetohet drejtpërdrejt, megjithëse OpenAI planifikon të postojë përmbajtje më vonë në kanalin e tij në YouTube. Programimi i ngjarjes përfshin sesione të reja, ndriçues të komunitetit dhe demonstrime. Por ndryshimi më i madh që nga viti i kaluar është mungesa e një paraqitjeje kryesore nga CEO i kompanisë. Këtë vit, fjalimi kryesor u trajtua nga ekipi i produkteve OpenAI.

Në DevDay inauguruese të vitit të kaluar, më 6 nëntor 2023, CEO i OpenAI, Sam Altman, mbajti një fjalim të drejtpërdrejtë të stilit të Steve Jobs për zhvilluesit e mbledhur, punonjësit e OpenAI dhe shtypin. Gjatë prezantimit të tij, CEO i Microsoft Satya Nadella bëri një paraqitje surprizë, duke folur për partneritetin midis kompanive.

Njëmbëdhjetë ditë më vonë, bordi i OpenAI shkarkoi Altman, duke shkaktuar një javë trazira që rezultoi në kthimin e Altman si CEO dhe një bord të ri drejtorësh. Menjëherë pas pushkatimit, Kara Swisher transmetoi burime të brendshme që thanë se fjalimi kryesor i Altman DevDay dhe prezantimi i dyqanit GPT kishte qenë një faktor nxitës në shkrepje (megjithëse jo faktori kryesor ) për shkak të disa mosmarrëveshjeve të brendshme mbi drejtimin më të ngjashëm me konsumatorin e kompanisë. që nga fillimi i ChatGPT.

Me këtë histori në mendje – dhe fokusin mbi zhvilluesit mbi të gjitha për këtë ngjarje – ndoshta kompania vendosi se ishte më mirë të linte Altman të largohej nga fjalimi kryesor dhe të linte teknologjinë e OpenAI të bëhej fokusi kryesor i ngjarjes në vend të tij. Ne jemi thjesht duke spekuluar mbi atë pikë, por OpenAI sigurisht ka përjetuar pjesën e tij të dramës gjatë muajit të kaluar, kështu që mund të ketë qenë një vendim i kujdesshëm.

Pavarësisht mungesës së një fjalimi kryesor, Altman është i pranishëm në Dev Day San Francisco sot dhe është planifikuar të bëjë një “bisedë pranë zjarrit” mbyllëse në fund (gjë që nuk ka ndodhur ende deri në momentin e shkrimit). Gjithashtu, Altman bëri një deklaratë në lidhje me DevDay në X, duke vënë në dukje se që nga DevDay i vitit të kaluar, OpenAI kishte parë disa ndryshime dramatike (fjalë për fjalë):

Nga dita e fundit deri në këtë ditë:

*98% ulje në koston për token nga GPT-4 në 4o mini
*50x rritje në volumin e tokenit nëpër sistemet tona
*përparim i shkëlqyer i inteligjencës së modelit
*(dhe pak dramë gjatë rrugës)

Në një postim vijues në Twitter të dorëzuar me shkronja të vogla të markës së tij tregtare, Altman ndau një mesazh largpamës që i referohej kërkimit të kompanisë për AI të nivelit njerëzor, i quajtur shpesh AGI: “i emocionuar për të bërë edhe më shumë përparim nga kjo ditë në tjetrën”. ka shkruar ai . “Rruga drejt Agit nuk është ndjerë kurrë më e qartë.”