arXiv po ndërron serverët e Universitetit Cornell me Google Cloud në një përpjekje për modernizim

arXiv, platforma e përdorur gjerësisht me akses të hapur për printime paraprake shkencore e organizuar nga Universiteti Cornell, po e zhvendos të gjithë funksionimin e saj nga makinat virtuale të organizuara nga universiteti në platformën e resë kompjuterike të Google (GCP).

Lëvizja ankoron një projekt rifreskimi teknik shumëvjeçar të quajtur “arXiv CE” (Edicioni i resë kompjuterike), i krijuar për të forcuar kapacitetin dhe stabilitetin e platformës ndërsa përballet me përdorimin në rritje dhe kërkon të heqë kodin e vjetër.

Ky ndryshim vjen pasi arXiv, i cili pret mbi 2.6 milionë gazeta dhe u shërben rreth pesë milionë përdoruesve çdo muaj, lundron si borxhin e brendshëm teknik ashtu edhe presionet e jashtme financiare me të cilat përballet institucioni pritës, Cornell. Iniciativa merr mbështetje nga Fondacioni Simons dhe udhëzime strategjike nga Invest in Open Infrastructure, e cila filloi në fillim të vitit 2023.
Për shumë studiues, veçanërisht në fizikë dhe matematikë, arXiv është një burim i përditshëm. “Të gjithë në matematikë dhe fizikë e përdorin atë,” tha shkencëtari kompjuterik Scott Aaronson për WIRED në mars. “Unë e skanoj atë çdo natë.”
E themeluar nga Paul Ginsparg në vitin 1991 ndërsa ishte në Laboratorin Kombëtar të Los Alamos, arXiv anashkaloi afatet kohore tradicionale dhe të ngadalta të revistës me rishikim të kolegëve, duke lejuar ndarjen e shpejtë të printimeve paraprake.
Forma e tij fillestare përdorte skriptet e guaskës që funksiononin në makinën NeXT të Ginsparg përpara se të kalonte në email/FTP dhe më vonë në ueb. Suksesi i tij tregoi, sipas fizikantit Paul Fendley, “që ju mund të shkëputni transmetimin aktual të rezultateve tuaja nga procesi i arbitrimit”.
Megjithatë, bazat teknike të platformës janë vjetëruar. Projekti arXiv CE synon drejtpërdrejt këtë infrastrukturë të trashëguar. Një objektiv kryesor i detajuar në faqen e karrierave të arXiv është zëvendësimi i përbërësve të mbetur të Perl dhe PHP, duke u standardizuar në Python.
Plani përfshin ri-arkitekturën e përpunimit të artikujve për të qenë plotësisht asinkron dhe shërbime kontejneruese. Kontejnerizimi paketon aplikacione për vendosje të qëndrueshme dhe arXiv planifikon të përdorë teknologji si Kubernetes (një sistem me burim të hapur për automatizimin e menaxhimit të kontejnerëve) ose Google Cloud Run (një platformë e menaxhuar e kontejnerëve pa server).
Monitorimi i përmirësuar, regjistrimi dhe një tubacion i Integrimit/Zhvendosjes së Vazhdueshme (CI/CD)—automatizimi i përditësimeve të kodit—janë gjithashtu qëllimet kryesore teknike. Këto përpjekje plotësojnë zgjedhjet ekzistuese të infrastrukturës, si përdorimi i rrjetit të ofrimit të përmbajtjes Fastly (CDN).
Kalimi në GCP paraqitet si një hap i domosdoshëm për përmirësime më të gjera të shërbimit. arXiv synon të zgjerohet në fusha të reja lëndore më lehtë, të përmirësojë mbledhjen e meta të dhënave (përfshirë ID-të e financuesit dhe adresimin e paqartësisë së autorit) dhe të përmirësojë aksesin dhe përdorshmërinë e përgjithshme për komunitetin e tij kërkimor global.
Kjo përputhet me një përpjekje të planifikimit strategjik që po zhvillohet të paktën që nga fillimi i vitit 2023, i mbështetur nga Fondacioni Simons dhe që përfshin udhëzime nga Investimi në Infrastrukturën e Hapur (IOI) . Ivan Oransky i Fondacionit Simons vuri në dukje “përvojën e gjerë të IOI në hapësirën e infrastrukturës së hapur dhe ekspertizën e tyre në qëndrueshmëri dhe qeverisje do të ndihmojë arXiv të përcaktojë kursin e saj për dekadat e ardhshme”.
Lajmet për lëvizjen në GCP kanë ndezur diskutime brenda komunitetit teknik, veçanërisht në forume si Hacker News . Komentuesit ngritën shqetësime në lidhje me rritjet e mundshme afatgjata të kostove me shpenzimet operative të cloud kundrejt kostove kapitale në ambiente, rreziqet e mbylljes së shitësve dhe kufizimet e mundshme të aksesit për përdoruesit në rajone të caktuara, si Irani, për shkak të politikave të platformës. Një përdorues shprehu skepticizëm, duke parashikuar “lamtumirë thjeshtësi dhe stabilitet, përshëndetje kosto të tepruara mujore për të njëjtën cilësi/më pak shërbim”.
Të tjerë vunë në dukje kërkesat në rritje për arXiv, veçanërisht rritjen e ngarkesës nga zvarritësit e AI që hyjnë në depon e tij, duke kërkuar shkallëzueshmëri të zgjeruar. Një përdorues që pretendon lidhje të ngushta deklaroi se “stabiliteti aktual i platformës është vetëm për shkak të sasisë së jashtëzakonshme të përpjekjeve që ata bëjnë për ta mbajtur atë”.
Përdorimi i shërbimeve të krijuara cloud u pa nga disa si një mënyrë praktike për të menaxhuar shkallëzimin dhe borxhin teknik. Me Google të listuar tashmë si një Sponsor i Artë , u ngritën spekulime rreth kredive të mundshme që ndikojnë në zgjedhje. Koha gjithashtu përkon me sfidat financiare në Universitetin Cornell. Një raport i fundit i NPR detajoi një ngrirje të fondeve federale prej 1 miliard dollarësh nga administrata Trump.
Kjo pasoi një ngrirje të punësimit në mbarë universitetin e shpallur në mars duke përmendur pasigurinë financiare. Ndërsa arXiv nuk e ka lidhur zyrtarisht lëvizjen GCP me këto çështje buxhetore, ky kontekst shton diskutimin rreth motivimeve të migrimit.
Që nga fillimi i tij, arXiv është bërë qendror në komunikimin shkencor. Migrimi në GCP është hapi i fundit në përshtatjen e platformës, e cila përpunon dokumentet e shkruara shpesh në LaTeX (një sistem standard i përgatitjes së dokumenteve në shumë fusha shkencore), ndaj kërkesave teknike moderne.
Projekti arXiv CE, i shpallur tashmë në 2023 nëpërmjet një postimi në blog që kërkon zhvillues, përfaqëson një angazhim thelbësor për të riparuar sistemin. Ndërsa Ginsparg, i cili dikur e përshkroi arXiv si “një fëmijë që e dërgova në kolegj, por që vazhdon të kthehet në kamp në dhomën time të ndenjes, duke u sjellë keq”, është më pak i përfshirë çdo ditë, platforma nën udhëheqjen e re dhe me mbështetjen e fundit të fondacionit tani po ndërmerr këtë ndryshim për të siguruar shërbimin e saj të vazhdueshëm për botën e kërkimit.