Крайни директиви noindex nofollow на WordPress

Наскоро забелязах, че Google не кешира всички страници на уебсайта ми. При използването на инструмента за диагностика на уеб администратор на Google разбрах, че някои от страниците ми са ограничени от записи в моя файл robots.txt.

Знам, че някои хора могат да се намръщят при използването на заместващи карти и т.н., но моята уеб рамка генерира динамични URL адреси - така че няма друг начин за „съвпадение на шаблони“ на набор от URL адреси.

Тук съм включил както моя robots.tx, така и списък с пренебрегнатите URL адреси. Надяваме се, че някой може да забележи правилата, които ограничават достъпа на Googlebots до URL адресите.

На първо място, ето (съкратен) списък с ограничени URL адреси:

URL Detail Detected http://www.example.com/community/groups/cat-lovers-united.html?filter=events URL restricted by robots.txt 10/4/10 http://www.example.com/community/knowledge-center/questions/newbie/1/how-to-love-your-cat.html URL restricted by robots.txt 10/4/10 http://www.example.com/community/news/comments/1 URL restricted by robots.txt 10/4/10 http://www.example.com/feeds/blogposts?request_type=comments&id=2 URL restricted by robots.txt 10/4/10 http://www.example.com/news/106/related-headlines?page=1 URL restricted by robots.txt 10/2/10 http://www.example.com/news/search?category=agriculturals&keywords=argentina URL restricted by robots.txt 10/6/10 http://www.example.com/news/submissions/list?site=ibnlive.in.com URL restricted by robots.txt 9/30/10 

Ето моят файл robots.txt:

User-Agent: * Disallow: /api Disallow: /api/ Disallow: /logout Disallow: /logout/ Disallow: /login Disallow: /login/ Disallow: /registration Disallow: /registration/ Disallow: /admin/* Disallow: /news/submit Disallow: /*/new Disallow: /*/createnew Disallow: /*/edit Disallow: /*/edit/* Disallow: /*/editprofile Disallow: /*/delete Disallow: /*/delete/* Disallow: /*/update Disallow: /*/update/ Disallow: /*/submit Disallow: /*/submit/ Disallow: /*/report Disallow: /*/report/* Disallow: /search Disallow: /search/ Disallow: /controllers/* Disallow: /community/members/*/joinNetwork Disallow: /community/admin/* Disallow: /lostpassword Disallow: /lostpassword/ Disallow: /registrationComplete Disallow: /registrationComplete/ Disallow: /accountActivate Disallow: /accountActivate/ Disallow: /generate-token Disallow: /create-widget Disallow: /buttons Disallow: /accountDeleted Disallow: /accountSuspended Disallow: /news/submit Disallow: /news/process-submission Disallow: /news/submit/success Disallow: /news/errorpage Disallow: /community/members/*/mailinglist/add Disallow: /community/members/*/editprofile Disallow: /community/members/*/joinNetwork Disallow: /community/users/*/follow Disallow: /community/users/*/unfollow Disallow: /trustnetwork/createtoken Disallow: /trustnetwork/applytoken Disallow: /community/members/*/mail/* Disallow: /community/mail/* Disallow: /community/blogs/blogposts/unpublished/* Disallow: /community/blogs/blogposts/reported/* Disallow: /tools/pipeline/vote-submitted.html Disallow: /community/classifieds/replies/* Disallow: /report Disallow: /thumbvote Disallow: /like Disallow: /dislike Disallow: /voteRemove Disallow: /flagAsInteresting Disallow: /addFavorite Disallow: /recommend/* Disallow: /completed-recommendation.html Disallow: /rate Disallow: /notify Disallow: /addTestimonial Disallow: /comments/update/* Disallow: /comments/great-comment Disallow: /community/members/admin/* Disallow: /community/blogs/blogposts/comments/moderated/* Disallow: /community/blogs/blogposts/comments/reported/* Disallow: /community/articles/reported/fetch/* Disallow: /community/articles/reported/comments/moderated/* Disallow: /community/articles/comments/reported/* Disallow: /community/groups/*/requests Disallow: /community/groups/*/moderation Disallow: /community/groups/*/headlineMgmt Disallow: /community/groups/*/pollMgmt Disallow: /community/groups/*/join Disallow: /community/groups/*/leave Disallow: /community/groups/*/shout Disallow: /community/groups/*/topics/reply/* Disallow: /community/groups/*/banUser Disallow: /countries/cities Disallow: /country/schools Disallow: /community/knowledge-center/answers/accept Disallow: /community/knowledge-center/answers/unAccept Disallow: /requestPassword Disallow: /restorePassword Disallow: /restoredPassword Disallow: /changePassword Disallow: /changedPassword Disallow: /adverts/replies/mailbox Disallow: /security/error403 Disallow: /home/error404 Disallow: /home/disabled-notification Disallow: /home/error500 Disallow: /*? Allow: / Sitemap: http://www.example.com/sitemap-index.xml 

Изглежда ми добре, но очевидно трябва да има нещо в robots.txt, което ограничава достъпа до доста страници. Ще бъда много благодарен, ако някой успее да забележи обидни редове в моя файл robots.txt

  • 1 Всъщност току-що забелязах последния шаблон Dissallow / *? Мисля, че това е, което предотвратява голяма част от URL адресите с параметри ?. Не съм сигурен, но би искал да разбера мнението на някой, който всъщност знае повече за разрешения синтаксис във файлове robots.txt
  • 1 За разбиране, article-stack.com/education/web-design-n-development/…
  • Аз също имам същия проблем. Ограничих някои URL адреси на уебсайта си с помощта на robots.txt. Но защо показва грешки при обхождане (ограничено от robots.txt). Защо това е грешка? Защо това се показва в секцията за грешка при обхождане? Искам да премахна грешките, но искам да запазя ограничения url такъв, какъвто е бил. Има ли някакъв начин да се направи това?

Виждаме, че сте отговорили на собствения си въпрос, но както посочвате: „Забрани: /*? "е източникът на вашите проблеми.*"е регулярно изражение или редовен експресен модел, което в основата си означава всеки STRING текст с ВСЯКАКВА дължина,"*? "означава същото, но ограничава шаблона до НАЙ-КРАТКИЯ възможен отговор, а в случая на robots.txt не мога да измисля начин, по който"*? "изразът би имал някакво значение.

Четене ROBOTS.TXT

    В реда за забрана са изброени страниците, които искате да блокирате.
    Линията User-Agent изброява обхождащите, които искате да блокирате.

ГРЕШКИ_IN_YOUR_ROBOTS.TXT

    (1) Цялата употреба на * в "/ * /" може или не може да се използва правилно, всички "Disallow: / INSERT_XYZ / *" са грешни, всичко, от което се нуждаете, е "Disallow: / INSERT_XYZ /"
    (2) „Забраняване: / *?“ трябва да бъде "Disallow: /", тъй като препратката е към директории, а не към агенти; с "User-Agent: *" е правилно и "User-Agent: /" би било погрешно. Но тъй като искате сайтът ви да бъде обходен частично, премахнете го.
    (3) Всички „Disallow: / INSERT_XYZ“ вероятно трябва да бъдат „Disallow: / INSERT_XYZ /“, ако те са препратка към директория.

Уеб страницата на Google за уеб администратори за Robots.txt е тук.

ЗАБЕЛЕЖКА: Трябва също да потърсите в Google тези мета-тагове: noindex, nofollow, noarchive, nocache

  • 1 Или използвайте x-robots-tag на мястото на мета таговете.
  • Благодаря за обратната връзка. Направих някои от препоръчаните от вас промени - ще изчакам, докато Googlebot обходи отново сайта, за да види кои грешки са изчезнали. BTW, не съм сигурен, че препратката ви към структури на директории е изцяло уместна тук, тъй като URL адресите се генерират от URL рутер - т.е. те не отразяват действителната файлова структура на сървъра.
  • @morpheous: "Добрите" ботове разглеждат и двете структури на директории, връзките и крайните URL адреси - и ги сравняват с текста на роботите. Robots.txt не е официален стандарт, подкрепен от орган по стандартизация или притежаван от търговска организация. Той не се прилага от никого и няма гаранция, че всички настоящи и бъдещи роботи ще го използват. Помислете за често срещано съоръжение, което повечето автори на роботи предлагат на WWW общността за защита на WWW сървъра срещу нежелан достъп от техните роботи.

Това е моят опит с обхождането на errol от robots.txt. Преди няколко месеца намерих съобщението като „URL ограничен от robots.txt“, сайтът ми е Blogger (* .blogspot.com). Питам проблема си до Google Webmaster и те ми изпращат отговора за моите роботи txt, както можете да прочетете:

  • rayhanzhampiet.blogspot.com:

„Google не можа да обходи URL адреса поради ограничение на robots.txt: вашият файл robots.txt може да забрани изцяло Googlebot; може да забрани достъпа до директорията, в която се намира този URL адрес, или може да забрани достъпа до URL адреса конкретно Често това не е грешка "може ли някой да ми каже как мога да отменя ограничението robots.txt?

  • Помощ за уеб администратори с най-голям принос:

Хей rayhanzhampiet, предполагам, че имаме работа с вашия блог в blogger * com (blogspot * com)? Ако е така, не е нужно да правите нищо по отношение на ограниченията robots.txt.,

Това е вашият файл robots.txt: Потребителски агент: Mediapartners-Google Disallow:

Потребителски агент: * Disallow: / search - si ограничава само дублирани неща, които дори вие не искате да имате индексирани, да се държат хладно, вижте всички URL адреси, ограничени имат / search / по пътя им, както е посочено във вашия robots.txt?

Те са ограничени, защото дублират това, което вече се вижда в публикации и на началната страница, например тук:

http://rayhanzhampiet.blogspot.com/search/label/Tips-Blogging Разпознавате, че сте виждали всичко това преди -> на оригиналните си публикации, които не са ограничени и по този начин индексирани ;-)

/ search / трябва да бъде ограничено, за да се избегне дублиране в индекса и, както казах, дори искате да ги ограничите за роботи заради вас самите. Това ограничение се прави по подразбиране на blogspot * com (и домейни, които използват блогър като вашия, разбира се) и не е необходимо да се разрешава по никакъв начин, това не е грешка (съобщенията в webmastertools са диагностични само тук).

Надявам се хората (блогъри), които имат проблем с robots.txt като мен, да знаят, че не трябва да бъдат решавани.

Благодарение на Pro Webmasters,

е работил за вас: Charles Robertson | Искате ли да се свържете с нас?

Полезна информация