Nvidia mahniti botën me një rival ChatGPT që është po aq i mirë sa GPT-4o

foto

Ju nuk mund të flisni për softuer gjenerues të AI si ChatGPT pa menduar për Nvidia, e cila është një nga fituesit e mëdhenj të ditëve të para të revolucionit genAI. Por Nvidia është më e njohur deri më tani për ofrimin e çipave që kompanitë si OpenAI kanë nevojë për të përpunuar të gjitha funksionet e tyre komplekse gjeneruese të AI.

Me shpejtësi në fillim të tetorit 2024, dhe Nvidia mahniti botën e AI duke njoftuar NVLM 1.0, një familje modelesh të mëdha gjuhësore multimodale që mund të performojnë të paktën po aq mirë sa modeli GPT-4o i ChatGPT.

Përpara se të emocionohesh shumë për produktin e mundshëm NVLM të Nvidia-s që përballet me konsumatorët, duhet të dini se kompania po zgjedh një rrugë tjetër për të treguar fuqinë e saj të genAI-t. Në vend që të lëshojë një rival të drejtpërdrejtë për ChatGPT, Claude dhe Gemini, ai po i bën peshat e modelit të disponueshëm publikisht në mënyrë që të tjerët të mund të përdorin NVLM për të zhvilluar aplikacionet dhe sistemet e tyre të AI.

Nvidia publikoi një letër për të njoftuar NVLM 1.0 dhe për të zbuluar se do të hapë kodin e peshave dhe trajnimit me burim të hapur.

Ne prezantojmë NVLM 1.0, një familje modelesh gjuhësore të mëdha multimodale të klasit kufitar (LLM) që arrijnë rezultate më të fundit në detyrat e gjuhës së vizionit, duke rivalizuar modelet kryesore të pronarit dhe akses të hapur modele. Çuditërisht, pas trajnimit multimodal, NVLM 1.0 tregon saktësi të përmirësuar në detyrat vetëm me tekst mbi bazën e tij LLM. Ne po ofrojmë me burim të hapur peshat e modelit dhe kodin e trajnimit në Megatron-Core për komunitetin.

Parametri 72 miliardë NVLM-D-72B është LLM-ja kryesore e Nvidia. Kompania thotë se “arrin performancë në të njëjtin nivel me modelet kryesore në të dy detyrat në gjuhën e vizionit dhe vetëm me tekst”.

Punimi tregon shembuj të ndryshëm bisedash që përfshijnë të dhëna multimodale. Njerëzit në biseda përdorin tekst dhe imazhe në kërkesat e tyre. Shembujt tregojnë se AI është shumë i mirë në identifikimin e njerëzve, kafshëve dhe objekteve në këto imazhe dhe për të dhënë përgjigje në lidhje me to.

foto

Në shembullin e mësipërm, përdoruesi kërkon nga NVLM të shpjegojë një meme, dhe AI ​​e bën atë jashtëzakonisht mirë. Këtu është shpjegimi i Nvidia për aftësitë e AI:

NVLM-D-1.0-72B ynë demonstron aftësi të gjithanshme në detyra të ndryshme multimodale duke përdorur së bashku OCR, arsyetimin, lokalizimin, sensin e përbashkët, njohuritë botërore dhe aftësinë e kodimit. Për shembull, modeli ynë mund të kuptojë humorin pas meme “abstrakte kundrejt letrës” në shembullin (a) duke kryer OCR për të njohur etiketat e tekstit për çdo imazh dhe duke përdorur arsyetimin për të kuptuar pse vënia përballë “abstraktes” – etiketuar me një të ashpër -Rrëqebulli me pamje – dhe “letra” – etiketuar me një mace shtëpiake – është humoristike.

NVLM gjithashtu mund të zgjidhë probleme komplekse matematikore, diçka që e kemi parë me produkte të tjera genAI, duke përfshirë ChatGPT të OpenAI.

Gjithashtu, Nvidia thotë se NVLM-D-72B mund të përmirësojë performancën në detyrat vetëm me tekst pas trajnimit multimodal.

Standardet e ofruara nga Nvidia tregojnë se NVLM mund të përballojë më shumë se GPT-4o, Claude 3.5 Sonnet dhe Gemini 1.5 Pro. Modeli i Gjuhës GenAI i hapur tani i Nvidia mund të tejkalojë produktet e pronarit të AI nga OpenAI, Anthrophic dhe Google në detyra të caktuara. Tabela më poshtë tregon gjithashtu se NVLM-D-72B është në të njëjtin nivel me platformat Llama AI me akses të hapur nga Meta.

foto

Nuk është vetëm performanca e NVLM, por vendimi i Nvidia për ta vënë atë në dispozicion si një projekt me burim të hapur. Si OpenAI, Claude dhe Google nuk pritet ta bëjnë këtë së shpejti. Qasja e Nvidia mund të përfitojë nga studiuesit e AI dhe firmat më të vogla, pasi ata do të kenë akses në një LLM në dukje të fuqishme multimodale pa pasur nevojë të paguajnë për të.

Përdoruesit e rregullt të ChatGPT si ju dhe unë do të duhet të presim dhe të shohim se çfarë do të dalë nga njoftimi i Nvidia. Kjo do të thotë, ne do të duhet të presim për produkte komerciale që përdorin NVLM. Sa më shpejt të ndodhë kjo, aq më mirë për industrinë, pasi mund të ndikojë në vendimet e ndryshme të biznesit të OpenAI, Anthropic, Google dhe të tjerë.