robots.txt in Wordpress
Written on January 25th, 2007Noul Wordpress Ella face ceva in privita motoarelor de cautare (robots.txt), da posibiltatea blogerilor de a interzice accesul spiderilor si implicit nu veti avea trafic din motoare de cautare. Optiune inutila pentru majoritatea bloggerilor.
Un blogger care vrea trafic din motoare poate limita accesul spiderilor doar la zonele in care se gaseste continutul util, fara sa le dea voie sa indexeze pagini din zona de administrare a site-ului (ex: wp-login.php) sau folderul de upload sau chiar paginile feedurilor.
Aveti mai jos un exemplu de cum ar putea sa arate continutul unui fisier robots.txt pentru un blog.
Exista doua sectiuni: User-agent: Googlebot pentru Google si User-agent: * pentru celelalte motoare. Observati ca unele restrictii se repeta in cele doua sectiuni, motivul: Google ignora User-agent: * atunci cand are una dedicata. De ce trebuie sa ii dedicam o sectiune ? Pentru a putea folosi reguli pe care celelate motoare de cautare nu le inteleg, in acest caz folosirea caracterului *.
User-agent: Googlebot
Disallow: /wp-
Disallow: /uploads/
Disallow: /feed/
Disallow: /comments/feed
Disallow: /feed/$
Disallow: /*/feed/$
Disallow: /*/feed/rss/$
Disallow: /*/*/feed/$
Disallow: /*/*/feed/rss/$
Disallow: /*?*
User-agent: *
Disallow: /wp-
Disallow: /uploads/
Disallow: /feed/
Disallow: /comments/feed
Disallow: /feed/$
Explicatii:
Disallow: /wp-
Interzice accesul spre orice folder sau fisier care incepe cu “wp-”.
Atentie ! O regula ca Disallow: /a va interzice accesul spiderilor in toate paginile sau directoarele care incep cu litera a. Pentru a face referire la folder-ul a trebuie adaugat la sfarsit un slash: Disallow: /a/
Disallow: /uploads/
Interzice accesul in fisierele din directorul uploads. Se procedeaza la fel pentru orice alt flder care nu vreti sa fie gasit in motoare.
Disallow: /feed/
Disallow: /comments/feed
Disallow: /feed/$
Disallow: /*/feed/$
Disallow: /*/feed/rss/$
Disallow: /*/*/feed/$
Disallow: /*/*/feed/rss/$
Setul acesta de reguli interzice accesul motoarelor de cautare la feed-urile blogului, acestea nu vor mai fi indexate si nu li se va da pagerank. Sunt mai multe reguli pentru ca blogurile au feed-uri pentru fiecare pagina, pentru comentarii, feed-ul principal /feed/, si posibilitatile de amplasare sunt diferite.
Blocarea accesului la feeds este alegerea fiecaruia, teoretic ele trebuie blocate pentru ca sunt pagini pe care vizitatorii nu s-ar putea descurca cu cititul, nu sunt destinate citirii directe si deci nu trebuie sa apara in Google. O idee ar fi sa lasati motoarele sa vada decat feed-ul principal, adica: exemplu.ro/feed/, si pentru asta veti renunta la regula Disallow: /feed/.
Utilizarea acestor reguli este oportuna atunci cand folositi sistemul de contorizare de pe feedburner, cu redirectarea feed-urilor catre feedburner.
Ultima regula:
Disallow: /*?*
Interzice accesul motoarelor in paginile care folosec caracterul “?” in url (parametrii). In cazul in care nu folositi rewrite-ul aceasta regula va bloca accesul spidrilor in toate paginile blogului. In mod normal un blog in Wordpress nu are nevoie de ea, dar exista unele plugin-uri care duc la aparitia unor pagini mai “interesante” (cu parametrii) in Google.
Puteti folosi robots.txt pentru a bloca accesul in anumite pagini din site sau anumite categorii (in cazul in care forma url-urilor va permite asta).
Continut duplicat in Wordpress - noindex, follow »Citeste asta mai intai ! Problema continutului duplicat in Wordpress... nu stiu cati se gandesc serios la asta...Continut duplicat in Wordpress - noindex, follow »Citeste asta mai intai ! Problema continutului duplicat in Wordpress... nu stiu cati se gandesc serios la asta...
Forum in Wordpress, gata CMS-ul »WordPress-ul nu va inceta niciodata sa ne uimeasca, cel putin pe mine m-a impresionat multimea de plugin-uri...
9 Raspunsuri la “robots.txt in Wordpress”
- 1 Trackback on Apr 4th, 2007 la ora 12:33 am








Salut, am o problema cu indexarea in Google, poate poti sa ma ajuti, daca vrei. Arunca un ochi pe http://militaru.net/2007/01/25/google-problems/ , unde am explicat despre ce este vorba. Orice sfat este bine venit. mersi
Am aruncat….
Dupa ultimul update Google si la noi au aparut probleme cu pagerank-ul OrasulSUCEAVA.ro. Cu aceasta ocazie am descoperit lucruri noi. Tot binele spre rau! :)
Orisicum, am observat ca s-au dat multe peste cap, ilogic, si multi oameni sunt nemultumiti, pe buna dreptate.
De ce zici ultimul update, la ibb.ro abia acum a ajuns… joaca ping-pong cu el de cateva zile… 2-5, 5-2 de pe un datacenter pe altul. Ma cam enerveaza.
Pagerankul e doar un indicator al numarului de link-uri catre site, daca le-au facut in prin metode obscure din cand in cand se iau masuri.
Ne spui si noua ce ai descoperit ? :)
P.S. Imi place orasulsuceava.ro, e foarte… seo friendly.
Salut…
nu stiu cum pot sa cresc google rank-ul pagini magazinului meu…
am tot facut difverse lucruri si tot nu creste….
aveti idee…ma poate ajuta cineva?!
Mujltumesc mult! Sper sa ma ajute sa limitez CPU usage care permanent imi face probleme.
extrem de util blogul tau. imi place si am sa te trec in blogroll ;)
interesant, sper s rezlv problema cu cpu overload pe un site!
Daca ai un comentariu prea lung il poti pune pe blogul tau cu link catre pagina asta, un link catre pagina ta va aparea in mod automat si aici.
Let's Spread Some Link Love!