Седмични въпроси и отговори за SEO - разговори на Hump Day - епизод 15

Имам идея да използвам (cc-by-sa) дъмп на данни от друг сайт, където ще експериментирам с нови идеи. Това все още ще бъде сайт с почти 99% от данните, подобни.

Виждам две "правила", които търсачките могат да прилагат

  • Не дублирайте съдържанието
  • Не изпращайте различни данни на бота и обикновените посетители

Връзки към оригиналния сайт ще присъстват, както се изисква от дъмп на данни.

Ако на бота се показват само заглавия и други нови данни, това ще реши първото правило, но това ще наруши ли второто? Или трябва просто да поставя тези страници в забранена зона robots.txt? Това щеше ли да стигне далеч.

Не ме интересува класирането, само да не бъде забранено. Трябва да се установи дали хората специално търсят алтернативни схеми за гласуване от ново съдържание, което генерирам.

  • Защо смятате, че това тълкуване като дублирано би било „погрешно“?
  • Да, технически това е дублиране, това, което исках, беше как да избегна да се тълкува като дубликат или да избегна дублирането да отключи забрана.

Дублирано съдържание е дублирано съдържание. Промяната на механизма за гласуване няма да означава нищо. Дублираното съдържание ще бъде филтрирано и няма да ви помогне. Що се отнася до SEO, това е загуба на време.

И Интернет не се нуждае от повече от същото. Опитайте да създадете ново съдържание. Това е, което хората търсят.

  • Мисля, че това може да е законно използване на дублирано съдържание, но сте прав; все още е дублирано съдържание. Трябва да се очакват някои санкции за SEO, но в идеалния случай не трябва да се наказва собственикът на сайта, а по-скоро да се гарантира, че SERP не съдържат дублиращи се записи. Така че, докато прави сайта полезен (например чрез подобряване на системата за гласуване), той все още може да има прилично класиране при търсене, ако хората харесват сайта и водят към него. Ако ще създадете сайт с основателни причини за дублирано съдържание (напр. Синдикирани новини, съобщения за пресата и т.н.), тогава просто трябва да го заобиколите.
  • 1 IMHO просто променя системата за гласуване и използва оригиналното съдържание, всъщност не предлага на Интернет като цяло нещо специално или полезно. Просто ми звучи като прасенце отстъпване от нечия упорита работа. Плюс основното съдържание са данните, които ще бъдат непроменени. Не виждам причина това съдържание някога да се показва в резултатите от търсенето. (Премахването на дублирано съдържание не е наказание. Това е интелигентен начин да направите резултатите от търсенето по-чисти и по-полезни. Няма нужда да имате едно и също съдържание отново и отново, особено в случаи като този).
  • Разбирам какво искаш да кажеш за запазване на дублирано съдържание и в повечето случаи съм съгласен с теб. Но трябва да се прави разлика (от търсачката) между хората, които публикуват дублирано съдържание, защото например публикуват съобщение за пресата от друга компания, и хората, които просто копират и поставят статии, за да генерират страници за връзка колело или за кражба на съдържание за използване на техния спам сайт.
  • Също така дали това е законно използване зависи от това колко лоша е настоящата система за гласуване и колко по-добре той може да я направи. Ако е като всички клонинги на Wikipedia там, където това е просто повърхностна промяна на оформлението без иновации или добавена стойност, тогава със сигурност го дръжте далеч от SERP Но ако този сайт изпълнява гениална и много по-ефективна система за съвместно филтриране, то той заслужава да бъде индексиран, дори ако наборът от данни не е уникален (помислете за всички смесици, използващи CC данни по гениални нови начини).
  • 1 +1 Джон, напълно съм съгласен. @eovleg - Въпреки че съдържанието на StackOverflow е достъпно под CC лиценз, наистина мисля, че ще си губите времето за клонирането му. Ценно ли е съдържанието? Да, но още по-ценното е общността и това е нещо, което не можете лесно да повторите. Нещо повече, не мисля, че StackOverflow е толкова фундаментално разбит, че има нужда от клонинг с различна система за гласуване. Аз лично не бих видял никаква полза от него и се съмнявам, че ще намерите достатъчно хора, които го правят, за да си струва усилията.

Дублиращото се съдържание на два или повече URL адреса дори в един и същ домейн е лошо (и може да ви донесе наказание от търсачките). Можете ли да опишете допълнително защо точно трябва да копирате съдържанието.

  • Въпросът ми е общ, когато изхвърлянето на данни идва от място, което не съм контролирал, но законно мога да получа и използва повторно данните му. По-точно сега мислех за изхвърлянето на данни на StackOverflow.
  • AFAIK справянето с дълго съдържание ще ви донесе проблеми. Ако показвате само заглавие и кратки текстове (като някаква агрегация), това трябва да е наред. Но ако се справите с цялото съдържание, това ще бъде лошо.

Казвате, че не ви интересува класирането - само да не бъдете забранени. Ако е така, можете да актуализирате файла robots.txt, за да посочите, че дублираното съдържание не трябва да се индексира.

  • Отговорът ви предполага ли, че скриването на дублиращите се данни от уеб паяците от страна на сървъра не е опция?
  • Не, със сигурност можете да скриете дублиращата се страна на сървъра за данни - от robots.txt най-вероятно е по-лесно решение.

е работил за вас: Charles Robertson | Искате ли да се свържете с нас?