Perplexity uhvaćen na delu: Botovima opet varaju ceo internet!
Prema najnovijem izveštaju kompanije Cloudflare, Perplexity je ponovo uhvaćen kako prikuplja podatke sa sajtova sa kojih nije dozvoljeno skidanje sadržaja. Botovi ove kompanije navodno “tajno pretražuju” web stranice, skrivajući svoj pravi identitet kako bi zaobišli zaštitne mehanizme poput robots.txt fajlova i firewall-ova.
Robots.txt je jednostavan fajl koji sajtovi postavljaju da bi ograničili pristup svojim podacima web crawler-ima. Zvanični botovi Perplexity-ja, nazvani “PerplexityBot” i “Perplexity-User,” su blokirani na mnogim sajtovima, ali kompanija i dalje uspeva da prikupi sadržaj. Ovo je izazvalo zabrinutost u industriji o tome koliko je moguće kontrolisati takve aktivnosti.
Kako Perplexity zaobilazi blokade?
Cloudflare tvrdi da Perplexity koristi trik da imitira ponašanje običnog web pregledača, kao što je Google Chrome na macOS-u, kako bi prevario robots.txt pravila koja blokiraju njihove zvanične botove. Ovakav pristup omogućava im da izgledaju kao regularni korisnici, a ne kao automatski crawler-i.
Pored toga, Perplexity-jev crawler menja IP adrese i brojeve autonomnih sistema (ASN), što dodatno otežava njegovo prepoznavanje i blokiranje. U praksi, to znači da crawler može da prolazi kroz desetine hiljada domena i obrađuje milione zahteva dnevno, čineći ovu aktivnost skoro neprimetnom za standardne bezbednosne mere.
Zašto je ovo važno za AI kompanije?
Ažurni i tačni podaci sa interneta ključni su za treniranje i usavršavanje AI modela. Servisi poput Perplexity-ja koriste te informacije kao osnovu za odgovore i pretrage koje nude korisnicima, pa je jasno zašto žele da imaju pristup što većem broju izvora.
Međutim, zakonodavci i vlasnici sajtova često pokušavaju da ograniče ovakvo prikupljanje zbog zaštite autorskih prava i privatnosti. Situacija pokazuje koliko je teško pronaći ravnotežu između tehnološkog napretka i prava vlasnika sadržaja na internetu.
Perplexity i prošli skandali
Ovo nije prvi put da je Perplexity uhvaćen u sličnim problemima. Još tokom 2024. godine više sajtova prijavilo je da Perplexity i pored zabrana u robots.txt fajlovima i dalje pristupa njihovom sadržaju. Tada su za te probleme krivili korišćenje trećih strana i njihovih crawler-a.
Kao odgovor na kritike, Perplexity je kasnije sklopio partnerstva sa nekim izdavačima kako bi delili prihode od oglasa prikazanih uz njihov sadržaj. Ovo je bio pokušaj da poprave svoj imidž i uspostave pošteniju saradnju sa vlasnicima sadržaja.
Šta dalje i kako će se situacija razvijati?
Zaustavljanje ovakvih praksi i sprečavanje neovlašćenog skidanja sadržaja sa interneta podseća na beskrajnu igru “tuči krticu.” Kako se tehnologija razvija, tako se i metode zaobilaženja blokada unapređuju.
U međuvremenu, Cloudflare je već reagovao i uklonio Perplexity botove sa svoje liste verifikovanih botova, kao i uveo mehanizme za prepoznavanje i blokiranje njihovog “tajnog” crawler-a. Ipak, ostaje pitanje koliko će ovakve mere biti efikasne na duže staze.
Zabranjeno preuzimanje dela ili čitavog teksta i/ili foto/videa, bez navođenja i linkovanja izvora i autora, a u skladu sa odredbama WMG uslova korišćenja i Zakonom o javnom informisanju i medijima.