CEO i Mistral konfirmon ‘rrjedhjen’ e modelit të ri të inteligjencës artificiale me burim të hapur që i afrohet performancës GPT-4
Ditët e fundit kanë qenë një udhëtim i egër për komunitetin në rritje të inteligjencës artificiale me burim të hapur – edhe nga standardet e tij të lëvizjes së shpejtë dhe të lirë.
Këtu është kronologjia e shpejtë: në ose rreth datës 28 janar, një përdorues me dorezën “Miqu Dev” postoi një grup skedarësh në HuggingFace, modeli kryesor i AI me burim të hapur dhe platforma e ndarjes së kodeve, që së bashku përbënin një burim të ri në dukje të hapur. modeli i gjuhës së madhe (LLM) i emërtuar “miqu-1-70b”.
Hyrja në HuggingFace, e cila është ende e hapur në kohën e postimit të këtij artikulli, vuri në dukje se “Formati i shpejtë” i LLM-së së re, mënyra se si përdoruesit ndërveprojnë me të, ishte i njëjtë me Mistral , kompania pariziane e AI me burim të hapur të financuar mirë pas Mixtral 8x7b. , që shihet nga shumë si LLM me burim të hapur me performancë më të mirë aktualisht në dispozicion, një version i akorduar dhe i ritrajnuar i Llama 2 i Metës.
Në të njëjtën ditë, një përdorues anonim në 4chan (ndoshta “Miqu Dev”) postoi një lidhje me skedarët miqu-1-70b në 4chan , parajsa famëkeqe e gjatë e memeve dhe toksicitetit në internet, ku përdoruesit filluan ta vinin re atë.
Disa shkuan në X, rrjeti social i Elon Musk i njohur më parë si Twitter, për të ndarë zbulimin e modelit dhe atë që dukej të ishte performanca jashtëzakonisht e lartë e tij në detyrat e zakonshme LLM (të matura nga testet e njohura si standarde), duke iu afruar liderit të mëparshëm, GPT-së së OpenAI -4 në EQ-Bench .
“A do të thotë ‘miqu’ për MIstral Quantized? Nuk e dimë me siguri, por kjo shpejt u bë një nga, nëse jo LLM-të më të mira me burim të hapur,” shkroi Maxime Labonne, një shkencëtar ML në JP Morgan & Chase, një nga kompanitë më të mëdha bankare dhe financiare në botë. “Falë ne gjithashtu tani kemi një version të mirë të pakuar të mikut këtu.
Hetimi vazhdon. Ndërkohë, shumë shpejt mund të shohim versione të akorduara mirë të miqut që ia kalojnë GPT-4.”
Kuantizimi në ML i referohet një teknike të përdorur për të bërë të mundur ekzekutimin e modeleve të caktuara të AI në kompjuterë dhe çipa më pak të fuqishëm duke zëvendësuar sekuenca specifike numerike të gjata në arkitekturën e një modeli me ato më të shkurtra.
Përdoruesit spekuluan se “Miqu” mund të jetë një model i ri Mistral që “rrjedh” në mënyrë të fshehtë nga vetë kompania në botë – veçanërisht pasi Mistral është i njohur për lëshimin e modeleve dhe përditësimeve të reja pa bujë përmes mjeteve ezoterike dhe teknike – ose ndoshta një punonjës ose klient iku. e kuq.
Epo, sot duket se më në fund kemi konfirmimin e kësaj të fundit nga këto mundësi: bashkë-themeluesi dhe CEO i Mistral, Arthur Mensch shkoi te X për të sqaruar: “Një punonjës tepër entuziast i një prej klientëve tanë të aksesit të hershëm zbuloi një sasi të caktuar (dhe filigranë) version i një modeli të vjetër që ne trajnuam dhe e shpërndamë mjaft hapur…
Për të filluar me shpejtësi punën me disa klientë të përzgjedhur, ne e ritrajnuam këtë model nga Llama 2 në minutën kur patëm akses në të gjithë grupin tonë – trajnimi paraprak përfundoi në ditën e lëshimit të Mistral 7B. Ne kemi bërë përparim të mirë që atëherë – qëndroni të sintonizuar!”
Për të qeshur, Mensch gjithashtu duket se ka marrë pjesë në postimin e paligjshëm të HuggingFace jo për të kërkuar një heqje, por për të lënë një koment që posteri “mund të marrë parasysh atribuimin”.
Megjithatë, me shënimin e Mensch-it për të “qëndroni të sintonizuar!” duket se jo vetëm që trajnimi Mistral është një version i këtij të ashtuquajturi modeli “Miqu” që i afrohet performancës së nivelit GPT-4, por në fakt mund të përputhet ose ta tejkalojë atë, nëse komentet e tij duhen interpretuar me bujari.
Ky do të ishte një moment vendimtar jo vetëm për AI gjeneruese me burim të hapur, por për të gjithë fushën e AI dhe shkencës kompjuterike: që nga lëshimi i tij në mars 2023, GPT-4 ka mbetur LLM më i fuqishëm dhe me performancën më të lartë në botë nga shumica. standardet. As asnjë prej modeleve Gemini të disponueshme aktualisht të Google, të përfolura prej kohësh , nuk ka qenë në gjendje ta eklipsojë atë – megjithatë (sipas disa masave, modelet aktuale Gemini janë në fakt më të këqija se modaliteti më i vjetër OpenAI GPT-3.5 l).
Lëshimi i një modeli të klasës me burim të hapur GPT-4, i cili me sa duket do të ishte funksionalisht i lirë për t’u përdorur, ka të ngjarë të vendosë presion të madh konkurrues mbi OpenAI dhe nivelet e tij të abonimit, veçanërisht pasi më shumë ndërmarrje shikojnë modele me burim të hapur ose një përzierje të burimit të hapur dhe burim i mbyllur, për të fuqizuar aplikacionet e tyre, siç raportoi së fundmi themeluesi dhe CEO i VentureBeat, Matt Marshall . OpenAI mund të ruajë avantazhin me GPT-4 Turbo dhe GPT-4V (vizion) më të shpejtë, por shkrimi në mur është mjaft i qartë: komuniteti i AI me burim të hapur po arrin shpejt. A do të ketë OpenAI mjaft një fillim dhe një “hendek” metaforik me Dyqanin e tij GPT dhe veçoritë e tjera, për të mbetur në vendin e parë për LLM-të?