SEO Vesti

Google najavio stotine nedokumentovanih crawlera: šta to znači za robots.txt

Google je potvrdio da koristi stotine crawlera koji nisu u dokumentaciji. Kako to utiče na kontrolu indeksiranja vašeg sajta.

Autor: SEO Srbija
Podeli: X Facebook LinkedIn
Vizualizacija Google bot crawlera koji obilaze web stranice

U martu 2026. Google je zvanično potvrdio ono što su SEO stručnjaci dugo sumnjali: kompanija koristi stotine crawlera koji nisu navedeni u zvaničnoj dokumentaciji. Ova informacija menja način na koji razmišljamo o robots.txt i kontroli pristupa sajtu.

Šta je Google rekao

Search Engine Journal je objavio da je Google u odgovoru na direktno pitanje potvrdio da pored poznatih crawlera (Googlebot, Googlebot-Image, Googlebot-News, itd.) koristi i stotine drugih koji nemaju javnu dokumentaciju.

Ovi crawleri se koriste za različite svrhe:

  • Testiranje novih funkcionalnosti pretrage
  • Prikupljanje podataka za AI treniranje
  • Provera kvaliteta i spam detekcija
  • Specifični projekti unutar Google-a

Zašto je ovo bitno za SEO

Robots.txt možda ne blokira sve

Robots.txt radi na principu user-agent identifikacije. Kad napišeš:

User-agent: Googlebot
Disallow: /privatno/

…blokiraš samo crawler koji se identifikuje kao „Googlebot”. Ako nedokumentovani crawler koristi drugi user-agent: tvoja pravila ga ne pokrivaju.

Do sada je preporuka bila da blokiraš Googlebot i da je to dovoljno za Google. Sada znamo da to možda nije ceo priča.

Wildcard pravila nisu potpuno rešenje

Možeš napisati:

User-agent: *
Disallow: /privatno/

Ovo blokira SVE crawlere koji poštuju robots.txt. Ali robots.txt je preporuka, ne zakon. Crawleri nisu obavezni da ga poštuju.

Šta ovo znači u praksi

Za većinu sajtova: ništa drastično

Ako imaš običan sajt sa javnim sadržajem i nemaš razlog da skrivaš stranice od Google-a: ova vest te ne pogađa direktno. Google i dalje indeksira tvoj sajt kroz standardnog Googlebot-a.

Za sajtove sa osetljivim sadržajem

Ako koristiš robots.txt da sprečiš indeksiranje internih stranica, admin panela ili staging okruženja: razmisli o jačim merama:

Noindex tag je pouzdaniji od robots.txt. Tag <meta name="robots" content="noindex"> u HTML-u govori Google-u da ne prikazuje stranicu u rezultatima, bez obzira na to koji crawler je pronašao stranicu.

Autentifikacija (login) je najpouzdanija. Ako stranica zahteva korisničko ime i lozinku, nijedan crawler joj ne može pristupiti.

HTTP autentifikacija (.htpasswd) na staging sajtovima je jednostavna i efektivna.

Za sajt publishere zabrinute oko AI

Ovo je posebno relevantno za izdavače koji ne žele da Google koristi njihov sadržaj za AI treniranje. Dosadašnje blokiranje Google-Extended user-agenta (namenjenog za AI prikupljanje) možda ne pokriva sve crawlere koje Google koristi za ovu svrhu.

Preporuke

1. Koristi noindex umesto robots.txt Disallow

Za stranice koje ne želiš u Google indeksu, noindex je pouzdaniji:

<meta name="robots" content="noindex, nofollow">

Ili kao HTTP header:

X-Robots-Tag: noindex

2. Ne oslanjaj se samo na robots.txt za bezbednost

Robots.txt nikad nije bio bezbednosni mehanizam. Sada je to još jasnije. Za privatne stranice koristi autentifikaciju.

3. Prati server logove

Jedini način da vidiš koji crawleri pristupaju tvom sajtu je analiza server logova. Traži user-agente koje ne prepoznaješ i IP adrese iz Google-ovih poznatih rangova.

grep "bot\|crawler\|spider" access.log | awk '{print $1, $14}' | sort | uniq -c | sort -rn

4. Ažuriraj robots.txt

Ako nisi ažurirao robots.txt dugo, uradi to:

User-agent: *
Disallow: /admin/
Disallow: /staging/
Disallow: /privatno/

User-agent: Google-Extended
Disallow: /

Sitemap: https://tvoj-sajt.rs/sitemap.xml

Ali zapamti: ovo je prva linija odbrane, ne jedina.

Širi kontekst: borba za kontrolu sadržaja

Ova vest dolazi u kontekstu rastućeg tenzije između izdavača sadržaja i AI kompanija. SerpApi je upravo tužen od Reddit-a za scraping, Amazon je dobio sudsku zabranu protiv Perplexity-jevog Comet bot-a, i sve više sajtova traži bolju kontrolu nad tim ko pristupa njihovom sadržaju i za šta.

Google-ovo priznanje stotina nedokumentovanih crawlera dodaje ulje na vatru u ovoj debati.

Zaključak

Google koristi više crawlera nego što dokumentuje. Za većinu sajtova ovo ne menja svakodnevni SEO rad. Ali ako se oslonjaš na robots.txt za kontrolu indeksiranja, vreme je da dodaš noindex tagove kao drugi sloj zaštite.

I generalno: tretriraj robots.txt kao saobraćajni znak, ne kao zid. Znak kaže „ne ulazi”, ali nema fizičku barijeru. Za pravu zaštitu, treba ti kapija sa bravom.

Povezani članci