Meta ka 2 robotë të rinj të poshtër që mbledhin të dhëna falas për trajnimin e AI nga ueb

foto

Meta së fundmi lançoi bots të rinj që zvarriten në ueb dhe thithin të dhëna për modelet e saj të AI dhe produktet e lidhura me to.

foto

Këta robotë kanë veçori që e bëjnë më të vështirë për pronarët e faqeve të internetit të bllokojnë përmbajtjen e tyre nga gërvishtja dhe grumbullimi.

foto

Kompania thotë se roboti Meta-ExternalAgent është “për raste përdorimi si trajnimi i modeleve të AI ose përmirësimi i produkteve duke indeksuar drejtpërdrejt përmbajtjen”.

Një i dytë, i quajtur Meta-ExternalFetcher, lidhet me ofertat e asistentit të AI të kompanisë dhe mbledh lidhje për të mbështetur funksione specifike të produktit.

Këto robotë u shfaqën për herë të parë në korrik, sipas faqeve të arkivuara të Meta të analizuara nga Originality.ai, një startup që specializohet në zbulimin e përmbajtjes së AI.

Startups dhe gjigantët e teknologjisë po garojnë për të ndërtuar modelet më të fuqishme të AI. Një përbërës kyç janë të dhënat e trajnimit me cilësi të lartë. Një nga mënyrat kryesore për ta grumbulluar këtë është dërgimi i robotëve në ueb për të zvarritur dhe gërvishtur përmbajtjen në internet. Google, OpenAI, Anthropic dhe disa kompani të tjera të AI kanë këto robotë.

Nëse pronarët e përmbajtjes duan të bllokojnë robotë të tillë, ata përdorin një rregull të vendosur të quajtur robots.txt që parandalon gërvishtjen e automatizuar të faqeve të internetit. Është një pjesë e vetme e kodit që është përdorur që nga fundi i viteve 1990 dhe është pranuar gjerësisht si një nga rregullat jozyrtare që mbështesin ueb-in.

Etja për të dhënat e trajnimit të AI e ka minuar këtë sistem, megjithatë. Në qershor, OpenAI dhe Anthropic u zbulua se ose injoronin ose anashkalonin robotët.txt.

Meta gjithashtu mund të përpiqet të anashkalojë rregullin robots.txt në mënyra delikate.

Kompania paralajmëron se një nga robotët e saj të rinj, Meta-ExternalFetcher, “mund të anashkalojë rregullat e robots.txt”.

Ndërkohë, boti Meta-ExternalAgent kryen dy funksione, gjë që është e pazakontë. Njëra është mbledhja e të dhënave të trajnimit të AI, ndërsa tjetra është indeksimi i përmbajtjes.

Pronarët e faqeve të internetit mund të dëshirojnë të bllokojnë Meta nga thithja e të dhënave të tyre për trajnimin e modelit AI, por ata mund të duan që gjigandi i teknologjisë të indeksojë faqet e tyre në mënyrë që të vizitojnë më shumë përdorues njerëzorë.

Kombinimi i të dy funksioneve në një bot të vetëm e bën më të vështirë bllokimin. Sipas Originality.ai, vetëm 1.5% e faqeve kryesore të internetit po bllokojnë robotin e ri Meta-ExternalAgent.

Një zvarritës i mëparshëm Meta i quajtur FacebookBot, i cili ka grumbulluar të dhëna në internet prej vitesh për të trajnuar modelet e mëdha të gjuhës së Meta dhe teknologjinë e njohjes së të folurit me AI, është bllokuar nga pothuajse 10% e faqeve kryesore të internetit, duke përfshirë X dhe Yahoo, sipas Originality.ai.

Ai thotë se boti tjetër i ri Meta, Meta-ExternalFetcher, po bllokohet nga më pak se 1% e faqeve kryesore të internetit.

“Kompanitë duhet të ofrojnë mundësinë që faqet e internetit të bllokojnë të dhënat e faqeve të tyre që të përdoren për trajnime, duke mos reduktuar dukshmërinë e përmbajtjes së faqeve të internetit në produktet e tyre,” tha Jon Gillham, CEO i Originality.ai.

Ai bëri një tjetër pikë të mirë: Meta nuk po respekton vendimet e mëparshme të pronarëve të faqeve të internetit për bot-et e saj më të vjetër.

Çdo faqe interneti që bllokoi më parë FacebookBot-in tani duhet të bllokojë gjithashtu zvarritësin e ri Meta-ExternalAgent për të siguruar që të dhënat e tyre të mos përdoren për të trajnuar Modelet e AI të Meta.

“Nëse një faqe interneti do të kishte hequr dorë nga përdorimi i të dhënave të tij për të trajnuar “Modelet e gjuhës për teknologjinë tonë të njohjes së të folurit” atëherë me sa duket ata do të dëshironin gjithashtu të hiqnin dorë nga “trajnimi i modeleve të AI” (përshkrimi i Meta-ExternalAgent) ” shpjegoi Gillham në një email për BI.

Një zëdhënës i Meta tha se kompania po përpiqet “ta bëjë më të lehtë për botuesit të tregojnë preferencat e tyre”.

“Ashtu si kompanitë e tjera, ne trajnojmë modelet tona gjeneruese të AI për përmbajtjen që është e disponueshme publikisht në internet,” shkroi zëdhënësi gjithashtu në një email për Business Insider. “Ne e kuptojmë se disa botues dhe pronarë të domeneve të internetit duan opsione kur bëhet fjalë për faqet e tyre të internetit dhe AI ​​gjeneruese.”

Meta, shtoi zëdhënësi, ka disa robotë që zvarriten në ueb për të shmangur “bashkimin e të gjitha rasteve të përdorimit nën një agjent të vetëm, duke ofruar më shumë fleksibilitet për botuesit e uebit”.

Pronarët e faqeve të internetit mund të gjejnë informacion se si të bllokojnë bot-et e Meta këtu.