Коментар s'occuper de la filtration de ta piscine coque?

Приложението ми Heroku (Bamboo) получава куп хитове от скрепер, който се идентифицира като GSLFBot. Гуглирането за това име води до различни резултати от хора, които са стигнали до заключението, че то не зачита robots.txt (например http://www.0sw.com/archives/96).

Обмислям да актуализирам приложението си, за да има списък със забранени потребителски агенти, и да обслужвам всички заявки от тези потребителски агенти 400 или подобен и да добавя GSLFBot към този списък. Това ефективна техника ли е и ако не какво да направя вместо това?

(Като странична бележка изглежда странно да имам обиден скрепер с отличителен потребителски агент.)

  • 2 Единственото нещо, което би било необходимо, за да заобиколите вашето ограничение, би било промяна в низа на потребителски агент на бота.
  • Вярно, но от друга страна това може да се тълкува като степен на мързел или поне на незаинтересованост от страна на създателите на стъргалото. Тук няма идеална опция, но ако низът на потребителския агент е основната идентифицираща налична информация, тогава това трябва да се използва поне за момента.
  • Знам, че има поне още един въпрос, който се занимава с това с пример за код. Просто трябва да го намеря.
  • @JohnConde Виждам, че въпросите имат същите теми, но дублиращият въпрос едва ли дава каноничен отговор за това - със сигурност можем и трябва да се справим по-добре, това е голям проблем за някои уебмастъри.
  • Изглежда, че ми задават същия въпрос. Ако другият въпрос няма чудесен отговор, трябва да добавим един към него (ако приемем, че някой може). Но запазването на това отворено не постига нищо и поставя информацията на две различни места, което StackExchange не иска.

Разбираемата преса има добри резултати при работа със скрепери за съдържание, както и Крис Койер от CSS Tricks, като цяло общото мнение е да не правите нищо и да се възползвате от него, където можете. Обобщение на добри съвети от бързо развалящата се преса по-долу ...

Как да се справим със скрепери за съдържание

И така, коя е най-добрата стратегия за справяне с изрезките за изтриване на съдържание? Моята лична тристепенна стратегия включва следните нива на действие:

  • Не правете нищо.
  • Винаги включвайте много вътрешни връзки
  • Спрете ги с добре поставен парче htaccess

Това са инструментите, които използвам, когато се занимавам със скрепери за съдържание. За по-големи сайтове като DigWP.com съм съгласен с Крис, че действително не се изискват действия. Докато активно включвате много вътрешни връзки в публикациите си, изстърганото съдържание се равнява на връзки към вашите страници. Например получаването на връзка в статия на Smashing Magazine незабавно предоставя стотици връзки, благодарение на всички крадци и пиявици, които крадат съдържанието на Smashing Mag. Разпръскването на няколко вътрешни връзки във вашите публикации ви носи полза по някои фантастични начини:

  • Предоставя връзки към вашия сайт от откраднато / изтрито съдържание
  • Помага на вашите читатели да намират нови и свързани страници / съдържание на вашия сайт
  • Улеснява търсачките да пълзят дълбоко във вашия сайт

Затова не правете нищо, ако можете да си позволите да не се притеснявате за това; в противен случай имайте навика да добавяте много вътрешни връзки, за да се възползвате от безплатния сок от връзки. Тази стратегия работи чудесно, освен ако не започнете да се остъргвате от някои от по-зловещите сайтове. В кой случай..

Мрежата на стека е град за скрепер на съдържание, така че би било интересно да чуете съветите на някои от администраторите на високо ниво по тази тема ...

  • изстърганите обратни връзки са безполезни

е работил за вас: Charles Robertson | Искате ли да се свържете с нас?