Как да започнете да продавате на Amazon FBA 2020 - стъпка по стъпка за начинаещи 🔥🔥

В дневниците си забелязах, че много искания идват от различни ботове и уеб-обхождащи, но това, което ме обърка, беше, че те посещаваха страници като /fpss/track/73/ които определено не съществуват на сайта.

И имаше стотици, ако не и хиляди варианти на тези несъществуващи URL адреси, което означава, че получавах около 5000 заявки на ден и само около 250 от тях всъщност бяха реални посетители на реални URL адреси. Бях объркан и когато забелязах, че при посещение на тези URL адреси, вместо да върна грешка 404, както бих очаквал, се появи HTML на началната страница, но без никакви стилове или javascript.

Едно възможно решение за мен може да бъде например да блокирам роботите да посещават /fpss/ в robots.txt файл, но бих искал да разбера защо първо правят това.

Уеб роботите обхождат URL адреси, защото намират връзки към тях. Има няколко възможни често срещани причини, но е трудно да го стесните допълнително, без да знаете повече за вашия сайт.

Стар сайт

Тези URL адреси може да са от предишен собственик на името на вашия домейн или от предишна версия на сайта, която сте премахнали оттогава. След като ботовете открият URL адреси, те рядко ги забравят. Ботове за търсачки като Googlebot обхождат URL адреси, които не са работили от десетилетия.

Счупени връзки или неправилна конфигурация

Самият сайт може да създава неработещи връзки. Понякога система за управление на съдържанието (CMS) или приставка за нея автоматично ще създават връзки по начини, които не очаквате.

Зловреден софтуер

Вашият сайт може да бъде заразен от злонамерен софтуер, който автоматично създава връзките. Дори след като зловредният софтуер бъде почистен, ботовете могат да продължат да обхождат създадените от него URL адреси.

Връзка спам

Някой друг сайт може да води към вашия сайт по странни начини. Може да е грешка от тяхна страна, може би са сгрешили името на домейна. Това може да е злонамерен опит да бъдете санкционирани от търсачките.

Хуеристика на обхождането

Известно е, че Googlebot се опитва да намери връзки в JavaScript. Често интерпретира случайни битове като URL адреси, дори когато не са. Например да имате JavaScript като s = '/fpss/track/73/' би накарал Googlebot да обхожда вашия пример URL, тъй като литералът на низа има наклонени черти в него.


Като следваща стъпка трябва да се уверите, че URL адресите връщат правилното състояние „404 не е намерено“, вместо да обслужват съдържанието на вашата начална страница. Вероятно имате някакво правило за пренаписване, което причинява това поведение. Ще трябва да премахнете това правило. Възможно е злонамерен софтуер да е създал това правило. Ако е така, ще трябва да премахнете този зловреден софтуер, като инсталирате чиста версия на вашия сайт на вашия сървър.

Google Search Console или Bing Webmaster Tools може да са в състояние да ви кажат къде обхождащите ги намират връзките към тези URL адреси. Проверете сайта си с тези услуги и вижте дали някой от тях съобщава за препращащ за някой от тези URL адреси.

Блокиране на URL адресите в robots.txt може да е наред, но не бих го препоръчал, освен ако обхождането не е причина сървърът ви да затъне. Търсачките от време на време индексират URL адреси, които са блокирани от robots.txt. Ако те могат да обхождат URL адресите и вместо това да виждат правилно състояние на грешка, няма да има опасност тези URL адреси да бъдат индексирани. След като URL адресите върнат състояние на грешка, те така или иначе ще натоварят сървъра ви много по-малко.

Бих препоръчал също така да свържете към вашия CSS и JS, като използвате коренно относително свързване. Когато hrefs започнете с наклонена черта (/), тогава те ще се заредят правилно дори за файлове в поддиректория.

  • Благодаря много за добре обяснения и подробен отговор! Сега не използвам CMS, но предишният собственик на домейна използва Joomla, така че мисля, че най-вероятно странните връзки идват от там. Ще видя какво мога да направя, за да накарам URL адресите да върнат правилната грешка 404.
  • Трудно се вижда, защо тези специфични типове URL адреси не връщат грешка. Обясних този проблем в нов въпрос
  • MrWhite's AcceptPathInfo директива изглежда, че ще реши проблема.

е работил за вас: Charles Robertson | Искате ли да се свържете с нас?