Ponedjeljak, 16 Septembra, 2024
Rubrika:

AI pretraživači moraće da plaćaju Redditu za korišćenje podataka

''Blokiramo sve crawlers koji nisu voljni da se obavežu da neće koristiti podatke za AI obuku, što je u skladu s našom javnom politikom sadržaja i ažuriranim robots.txt fajlom,'' rekla je kompanija

Kada je Reddit prošlog mjeseca najavio da će blokirati neovlašćeno skupljanje podataka sa svoje stranice, prva reakcija svih je bila “AI, AI, AI.” Međutim, sada kada je ta promjena stupila na snagu, čini se da ne samo kreatori chatbotova bivaju blokirani. Ovaj popularni forum takođe blokira velike pretraživače osim Brave-a i Google-a, s kojim je, kako se izvještava, Reddit sklopio dogovor vrijedan 60 miliona dolara godišnje ranije ove godine. Međutim, portparol Reddita rekao je za Engadget da prazni rezultati pretrage dolaze od toga što konkurenti Google-a nisu pristali na uslove kompanije za AI obuku. Dodali su da su u pregovorima s nekoliko njih.

Blokiranje pristupa pretraživačima

404 Media je u srijedu izvijestila (i Engadget je potvrdio u svojim upitima) da pretraga za Reddit rezultatima iz prethodne nedelje na konkurentskom pretraživaču Bing (koristeći “site.com”) vraća prazne rezultate. Publikacija je izvijestila da je DuckDuckGo dao sedam linkova bez ikakvih opisa, pružajući samo napomenu: “Željeli bismo da vam prikažemo opis ovde, ali sajt nam to ne dozvoljava.” Pretraživač sada izgleda da je uklonio i te rezultate, jer je naš test proizveo samo praznu stranicu s porukom “nije pronađen nijedn rezultat.”

Kada je Reddit prošlog mjeseca rekao da će ažurirati svoj Robots Exclusion Protocol (robots.txt) kako bi blokirao automatizovano skupljanje podataka, sada je očigledno da to nije bilo samo kako bi se spriječile AI kompanije poput Perplexity i njegovog kontroverznog “answer engine.” Trenutno, Google izgleda kao jedini pretraživač koji može indeksirati Reddit i prikazivati rezultate sa “prve strane interneta.”

Portparol Reddita rekao je za Engadget u srijedu da nije tačno reći da su nedostajući rezultati pretrage posledica dogovora s Google-om. “Blokiramo sve crawlers koji nisu voljni da se obavežu da neće koristiti podatke za AI obuku, što je u skladu s našom javnom politikom sadržaja i ažuriranim robots.txt fajlom,” rekla je kompanija. “Svi koji pristupaju Reddit sadržaju moraju se pridržavati naših politika, uključujući one koje su na snazi kako bi zaštitile redditore. Biramo s kim radimo i kome vjerujemo za pristup velikoj količini Reddit sadržaja.”

U međuvremenu, izvor upoznat s razmišljanjem Reddita rekao je za Engadget u srijedu da je Bing-ovo isključenje posledica toga što je Microsoft odbio da se složi s Reddit-ovim uslovima u vezi sa AI pretraživanjem. Navodno, Bing-ov proizvođač je tvrdio da su njihovi standardni web kontrolni mehanizmi dovoljni. Izvor tvrdi da Microsoftova pozicija dolazi u sukob s politikom privatnosti podataka Reddita, što je dovelo do zastoja i praznih rezultata pretrage.

Ubičajeni robots.txt je web standard koji komunikuje koji djelovi sajta mogu biti indeksirani. Iako je poznato da mnogi crawlers ignorišu njegova uputstva, Google-ova standardna procedura je da ih poštuje. Dakle, sa tehničke strane, kompanije uključene u unosan dogovor izgleda da su primjenile neku vrstu ručne kontrole.

Saga se može vidjeti kao efekat širenja AI chatbotova koji pretražuju živi internet za rezultate. Kako sudovi sporo određuju koliko otvorenog weba je fer koristiti za obuku chatbotova, kompanije poput Reddita, čija sadašnja vrijednost zavisi od zaštite njihovih podataka od onih koji ne plaćaju, grade zidove na račun otvorenog weba. (Iako, s obzirom na integralnu ulogu koju je Microsoft imao u ovoj AI eri, udruživši se s OpenAI rano, čini se ironičnim što se Bing nalazi na gubitničkoj strani barem jednog aspekta posledica.)

Colin Hayhurst, izvršni direktor manje poznatog pretraživača “no-tracking” Mojeek, rekao je za 404 Media da Reddit “ubija sve za pretragu osim Google-a.” Pored toga, izvršni direktor je rekao da su njegovi pokušaji da kontaktira Reddit ostali bez odgovora. “Nikada nam se to nije desilo ranije,” rekao je. “Jer kada nam se to desi, obično riješimo problem kontaktiranjem sajta, ali nikada nismo ostali bez odgovora prije.”

Reddit nije krio svoju želju da blokira AI kompanije od pretraživanja svoje riznice podataka u ovoj rastućoj AI eri. Prošle godine, izvršni direktor Steve Huffman je rizikovao da otuđi velike djelove svoje korisničke baze blokiranjem zahtjeva trećih strana za API, što je dovelo do gašenja omiljenih aplikacija poput Christian Seligove Apollo. Uprkos širokim protestima među moderatorima i korisnicima foruma, kompanija je samo privremeno izgubila neznatan broj korisnika.

Kocka se činila uspješnom, a Reddit se oporavio. Izašao je na berzu u martu.

Najnovije

Najčitanije

Povezano

Komentari

Subscribe
Notify of

0 Komentara
Najstariji
Najnoviji Najpopularniji
Inline Feedbacks
Pregedaj sve