(100% поправка) Индексирано, макар и блокирано от Robots.txt Отстраняване на проблеми в Blogger | 2020 | Конзола за търсене

Имам блог в Blogger, така че структурата на URL адресите винаги е такава:

www.example.com/2019/01/post.html 

Проблемът е аз не искам google за обхождане www.example.com/2019 (показва всички публикации от 2019 г.) и www.example.com/2019/01 (показва всички публикации от януари).

Има ли начин да се блокира това в robots.txt, и да позволи да се обхождат отделните HTML публикации?

Честно казано, по-добре е да не забранявате двете категории, свързани с датата, във вашата robots.txt файл и с помощта на noindex мета тагове на тези страници с категории (www.example.com/2019/ и www.example.com/2019/01/) вместо. Това ще бъде по-малко трудоемко и ще гарантира, че тези страници не са в SERP. (A robots.txt директива не гарантира, че дадена страница няма да бъде индексирана.) Просто задайте мета маркера на noindex robots на двете категории:

<meta name='robots' content='noindex, follow'> 

Ако абсолютно трябва да използвате robots.txt файл за това, можете да използвате Allow директива, която понякога се нарича нестандартна в SEO литературата. Въпреки това, както MrWhite посочва по-долу, "точно как различните ботове интерпретират тези нестандартни допълнения robots.txt може да оправдае по-нататъшно тестване ", плюс може да продължите да индексирате тези страници, така че метамаркерът на ниво страница на категорията ще бъде за предпочитане. Ако все пак искате да използвате robots.txt файл, бихте включили нещо подобно:

User-agent: * Allow: /2019/*.html$ Disallow: /2019/ 

Това би забранило всичко в 2019 папка, включително папки за всеки месец. Но Googlebot ще има достъп до всичко в тази папка, която завършва с ".html". Ще трябва да актуализирате това всяка година, за да го поддържате актуален.

Това беше адресирано и към Stack Overflow: https://stackoverflow.com/questions/42882200/robots-txt-disallow-folder-but-allow-files-within-folder

  • 1 „да не се забраняват двете категории, свързани с датата“ - съгласен съм. Всъщност бих си помислил, че ако забраните двете свързани с датата категории, това ще се отрази негативно на обхождането / индексирането на „отделните HTML публикации“, тъй като тези страници с категории водят към публикациите.
  • 1 'Allow се подчинява само от Googlebot "- Moz е неправилен / неактуален тук (и изглежда, че използва неавторитетна препратка?). Докато Allow: е нестандартен, той се поддържа от повечето масови ботове в продължение на много години. BingBot със сигурност поддържа Allow: директива. Въпреки че точно как различните ботове интерпретират тези нестандартни допълнения robots.txt може да оправдае допълнителни тестове.
  • 1 @MrWhite Благодарим ви, че посочихте грешката re: Allow директива. Трябваше да направя повече изследвания за това, особено след като разчитах на Moz за тази подробност, но Moz за съжаление не е това, което беше. Актуализирах отговора, за да отрази вашата информация.

е работил за вас: Charles Robertson | Искате ли да се свържете с нас?