Microsoft lançon Phi-3, modelin e tij më të vogël të AI deri më tani

foto

Microsoft lançoi versionin e ardhshëm të modelit të tij të lehtë të AI Phi-3 Mini, i pari nga tre modelet e vogla që kompania planifikon të lëshojë.

foto

Phi-3 Mini mat 3.8 miliardë parametra dhe është trajnuar në një grup të dhënash që është më i vogël në krahasim me modelet e mëdha gjuhësore si GPT-4. Tani është i disponueshëm në Azure, Hugging Face dhe Ollama. Microsoft planifikon të lëshojë Phi-3 Small (parametra 7B) dhe Phi-3 Medium (14B parametra). Parametrat i referohen sa udhëzime komplekse mund të kuptojë një model.

foto

Kompania lëshoi ​​​​Phi-2 në dhjetor , i cili performoi po aq mirë sa modelet më të mëdha si Llama 2. Microsoft thotë se Phi-3 performon më mirë se versioni i mëparshëm dhe mund të japë përgjigje afër asaj se si një model 10 herë më i madh se sa mundet.

Eric Boyd, nënkryetar i korporatës së Microsoft Azure AI Platform, thotë se Shkence.info Phi-3 Mini është po aq i aftë sa LLM-të si GPT-3.5 “vetëm në një formë më të vogël”.

Krahasuar me homologët e tyre më të mëdhenj, modelet e vogla të AI janë shpesh më të lira për t’u përdorur dhe performojnë më mirë në pajisjet personale si telefonat dhe laptopët. Informacioni raportoi në fillim të këtij viti se Microsoft po ndërtonte një ekip të fokusuar posaçërisht në modelet e AI me peshë më të lehtë . Së bashku me Phi, kompania ka ndërtuar edhe Orca-Math , një model i fokusuar në zgjidhjen e problemeve matematikore.

Konkurrentët e Microsoft kanë gjithashtu modelet e tyre të vogla të AI, shumica e të cilave synojnë detyra më të thjeshta si përmbledhja e dokumenteve ose ndihma për kodimin. Gemma 2B dhe 7B e Google janë të mira për chatbot të thjeshtë dhe punë të lidhura me gjuhën. Claude 3 Haiku i Anthropic mund të lexojë punime të dendura kërkimore me grafikë dhe t’i përmbledhë ato shpejt, ndërsa Llama 3 8B e lëshuar së fundmi nga Meta mund të përdoret për disa chatbot dhe për ndihmë në kodim.

Boyd thotë se zhvilluesit kanë trajnuar Phi-3 me një “kurrikula”. Ata u frymëzuan nga mënyra se si fëmijët mësuan nga tregimet para gjumit, librat me fjalë më të thjeshta dhe strukturat e fjalive që flasin për tema më të mëdha.

“Nuk ka mjaft libra për fëmijë atje, kështu që morëm një listë me më shumë se 3,000 fjalë dhe i kërkuam një LLM të bënte ‘libra për fëmijë’ për të mësuar Phi,” thotë Boyd.

Ai shtoi se Phi-3 thjesht u ndërtua mbi atë që mësuan përsëritjet e mëparshme. Ndërsa Phi-1 u fokusua në kodim dhe Phi-2 filloi të mësojë të arsyetojë, Phi-3 është më i mirë në kodim dhe arsyetim. Ndërsa familja e modeleve Phi-3 njeh disa njohuri të përgjithshme, ajo nuk mund të mundë një GPT-4 ose një LLM tjetër në gjerësi – ka një ndryshim të madh në llojin e përgjigjeve që mund të merrni nga një LLM e trajnuar në tërësinë e internetit kundrejt një model më të vogël si Phi-3.

Boyd thotë se kompanitë shpesh zbulojnë se modelet më të vogla si Phi-3 funksionojnë më mirë për aplikacionet e tyre të personalizuara pasi, për shumë kompani, grupet e tyre të brendshme të dhënave do të jenë gjithsesi në anën më të vogël. Dhe për shkak se këto modele përdorin më pak fuqi llogaritëse, ato shpesh janë shumë më të përballueshme.