Meta ka 2 robotë të rinj të poshtër që mbledhin të dhëna falas për trajnimin e AI nga ueb
Meta së fundmi lançoi bots të rinj që zvarriten në ueb dhe thithin të dhëna për modelet e saj të AI dhe produktet e lidhura me to.
Këta robotë kanë veçori që e bëjnë më të vështirë për pronarët e faqeve të internetit të bllokojnë përmbajtjen e tyre nga gërvishtja dhe grumbullimi.
Kompania thotë se roboti Meta-ExternalAgent është “për raste përdorimi si trajnimi i modeleve të AI ose përmirësimi i produkteve duke indeksuar drejtpërdrejt përmbajtjen”.
Një i dytë, i quajtur Meta-ExternalFetcher, lidhet me ofertat e asistentit të AI të kompanisë dhe mbledh lidhje për të mbështetur funksione specifike të produktit.
Këto robotë u shfaqën për herë të parë në korrik, sipas faqeve të arkivuara të Meta të analizuara nga Originality.ai, një startup që specializohet në zbulimin e përmbajtjes së AI.
Startups dhe gjigantët e teknologjisë po garojnë për të ndërtuar modelet më të fuqishme të AI. Një përbërës kyç janë të dhënat e trajnimit me cilësi të lartë. Një nga mënyrat kryesore për ta grumbulluar këtë është dërgimi i robotëve në ueb për të zvarritur dhe gërvishtur përmbajtjen në internet. Google, OpenAI, Anthropic dhe disa kompani të tjera të AI kanë këto robotë.
Nëse pronarët e përmbajtjes duan të bllokojnë robotë të tillë, ata përdorin një rregull të vendosur të quajtur robots.txt që parandalon gërvishtjen e automatizuar të faqeve të internetit. Është një pjesë e vetme e kodit që është përdorur që nga fundi i viteve 1990 dhe është pranuar gjerësisht si një nga rregullat jozyrtare që mbështesin ueb-in.
Etja për të dhënat e trajnimit të AI e ka minuar këtë sistem, megjithatë. Në qershor, OpenAI dhe Anthropic u zbulua se ose injoronin ose anashkalonin robotët.txt.
Meta gjithashtu mund të përpiqet të anashkalojë rregullin robots.txt në mënyra delikate.
Kompania paralajmëron se një nga robotët e saj të rinj, Meta-ExternalFetcher, “mund të anashkalojë rregullat e robots.txt”.
Ndërkohë, boti Meta-ExternalAgent kryen dy funksione, gjë që është e pazakontë. Njëra është mbledhja e të dhënave të trajnimit të AI, ndërsa tjetra është indeksimi i përmbajtjes.
Pronarët e faqeve të internetit mund të dëshirojnë të bllokojnë Meta nga thithja e të dhënave të tyre për trajnimin e modelit AI, por ata mund të duan që gjigandi i teknologjisë të indeksojë faqet e tyre në mënyrë që të vizitojnë më shumë përdorues njerëzorë.
Kombinimi i të dy funksioneve në një bot të vetëm e bën më të vështirë bllokimin. Sipas Originality.ai, vetëm 1.5% e faqeve kryesore të internetit po bllokojnë robotin e ri Meta-ExternalAgent.
Një zvarritës i mëparshëm Meta i quajtur FacebookBot, i cili ka grumbulluar të dhëna në internet prej vitesh për të trajnuar modelet e mëdha të gjuhës së Meta dhe teknologjinë e njohjes së të folurit me AI, është bllokuar nga pothuajse 10% e faqeve kryesore të internetit, duke përfshirë X dhe Yahoo, sipas Originality.ai.
Ai thotë se boti tjetër i ri Meta, Meta-ExternalFetcher, po bllokohet nga më pak se 1% e faqeve kryesore të internetit.
“Kompanitë duhet të ofrojnë mundësinë që faqet e internetit të bllokojnë të dhënat e faqeve të tyre që të përdoren për trajnime, duke mos reduktuar dukshmërinë e përmbajtjes së faqeve të internetit në produktet e tyre,” tha Jon Gillham, CEO i Originality.ai.
Ai bëri një tjetër pikë të mirë: Meta nuk po respekton vendimet e mëparshme të pronarëve të faqeve të internetit për bot-et e saj më të vjetër.
Çdo faqe interneti që bllokoi më parë FacebookBot-in tani duhet të bllokojë gjithashtu zvarritësin e ri Meta-ExternalAgent për të siguruar që të dhënat e tyre të mos përdoren për të trajnuar Modelet e AI të Meta.
“Nëse një faqe interneti do të kishte hequr dorë nga përdorimi i të dhënave të tij për të trajnuar “Modelet e gjuhës për teknologjinë tonë të njohjes së të folurit” atëherë me sa duket ata do të dëshironin gjithashtu të hiqnin dorë nga “trajnimi i modeleve të AI” (përshkrimi i Meta-ExternalAgent) ” shpjegoi Gillham në një email për BI.
Një zëdhënës i Meta tha se kompania po përpiqet “ta bëjë më të lehtë për botuesit të tregojnë preferencat e tyre”.
“Ashtu si kompanitë e tjera, ne trajnojmë modelet tona gjeneruese të AI për përmbajtjen që është e disponueshme publikisht në internet,” shkroi zëdhënësi gjithashtu në një email për Business Insider. “Ne e kuptojmë se disa botues dhe pronarë të domeneve të internetit duan opsione kur bëhet fjalë për faqet e tyre të internetit dhe AI gjeneruese.”
Meta, shtoi zëdhënësi, ka disa robotë që zvarriten në ueb për të shmangur “bashkimin e të gjitha rasteve të përdorimit nën një agjent të vetëm, duke ofruar më shumë fleksibilitet për botuesit e uebit”.
Pronarët e faqeve të internetit mund të gjejnë informacion se si të bllokojnë bot-et e Meta këtu.