Наиболее удобный способ борьбы с копиями (плагиатом) на других сайтах (в глазах гугла, разумеется) это наладить систему публикации. Систему при которой новые и обновленные страницы сайта будут попадать в поле зрения робота гугла и оперативно индексироваться. А после произношения вебмастером специального заклинания, все копии найденные в последующем на других сайтах будут объявляться гуглом КОПИЯМИ и прятаться в дополнительные результаты.
Хотя, к сожалению, пока что, наиболее важный фактор определения копий – вес.
Наблюдаю сильное влияние (или усиление?) фильтра «тошноты» для уникального контента в гугле. Хозяйке на заметку ;)
В данном случае принцип «шо краще перебдiть, нiж недобдiти» – не подходит. Переоптимизация – большее зло, чем недооптимизация.
Конечно, можно нагнать вес на страницу, тогда тошнота не так будет влиять на позиции в выдаче, но зачем же ухудшать результаты и переплачивать за ошибки?
На примере нового (без входящих ссылок) блога наблюдаю следующую картину – уникальные записи (страницы) гуглом индексируются сразу, неуникальные – нет. Очередное наглядное подтверждение утверждения Контент – король :)
Другое наблюдение за гуглом – его сильные алгоритмы проверки уникальности. Точнее жестко настроенные, ведь шинглы и частотный анализ широкоизвестны, а вот умело применить их сможет не каждый гений силиконовой сиськи долины. Любопытно было бы узнать, как отсеиваются компиляции текстов и их частей при проверке на уникальность.
Отсечение копий это вообще интересная тема. Наблюдаю как копия текста на (трастовом?) сайте с (активной и не одной) ссылкой на оригинал показывается гуглом в выдаче, а настоящий оригинал – прячется в дополнительные результаты.
P.S. По запросу уникальный контент – 18 позиция в гугле. Просто так, за красивые глаза :)
И это при том что в моем посте есть ссылка на оригинал.
Обновлено
Через пару дней гугл исключил страницу блога из индекса, оставив в выдаче один оригинал. Вывод: новостной фактор + время на срабатывание ссылки и фильтра дубликатов. Хотя больший PR у страницы наверняка позволил бы оставить ее в выдаче.
Новостных потоков нет, похоже еще один блуждающий робот.
P.S. Есть подозрение что это вызвано ссылками на сайт в новостных (rss) ресурсах/блогах
Добавлено:
На forum.searchengines.ru сообщают, что Платон ответил так:
Это обычный индексирующий робот, который должен представляться как Yandex/1.01.001 (compatible; Win16; I). В ближайшее время мы исправим эту ошибку. Благодарим за сообщение.
Как я уже отмечал, большой плюс UNStats в отчетах, которые лежат в отдельной папке бата. Бегло просматривая очередной лог одного из проектов, наткнулся на визит следующего робота:
Yandex/2.01.000 (compatible; Win16; Dyatel; C)
Как видно из , «дятел» стучит по сайтам из Яндекс.Каталога:
Yandex/2.01.000 (compatible; Win16; Dyatel; C) – «простукивалка» Яндекс.Каталога. Если сайт недоступен, он снимается с публикации. Как только сайт начинает отвечать, он появляется в Каталоге.
Но поскольку сайта проекта в каталоге нет – догадки две. Либо сайт будет включен в каталог *стучу по дереву*, либо состоит в его «скрытой» части. Читать далее…
В рамках акции по обмену постами, публикую занятную статью о продвижении RSS канала:
Мало создать интересный RSS канал. Необходимо еще и правильно осуществить его “раскрутку” – то, что в дальнейшем обеспечит вашему сайту постоянный приток посетителей. В этой статье мы попытаемся кратко изложить последовательность действий, которые желательно производить с каждым новым RSS каналом. Читать далее…
Итак, начнем цикл статей SEO-подозрений, догадок и наблюдений.
«Мутирующий серп»
По самым странным запросам, Google иногда выдает этот блог в TOP-10-20 выдаче. Ключевое слово – иногда. При прочих равных (ссылки стоят как вкопанные), посетители переходят по самым странным, хотя и релевантным запросам, из чего делаем догадку: В выдаче Гугла есть фактор случайности и назовем этот фактор «мутирующий серп» :)
Аналогично тому, как происходят мутации в природе, давая возможность новым свойствам организмов пройти проверку на жизнеспособность, Гугл дает возможность не раскрученным сайтам получить внимание пользователей. Поднимая случайные, но релевантные сайты в выдаче до 10го-20го места Гугл дает возможность посетителям найти интересную информацию на не раскрученных сайтах. Если эта информация действительно интересна, высоковероятно что посетитель установит на нее ссылку и поднимет страницу/сайт в основной выдаче.
Хотя конечно-конечно это может быть просто глюк индекса или ссорящиеся дата-центры :)
«Уникальность рулит»
Фильтр уникальности (новизны) при индексации, который я назову «Уникальность рулит» уже описан как догадка у лаборанта из . Поэтому с позволения копипастю:
Логично, что новые страницы с уникальным контентом более приоритетны к индексации чем новые страницы с контентом уже известным поисковым системам. И наверняка, если речь идет о миллионах новых страниц и очереди на их индексацию, то существуют факторы влияющие на положение новых страниц в этой очереди. Ведь вычислительные ресурсы не резиновые и приходится выбирать что индексировать в первую очередь.
Естественно новостной контент (уникальный) является самым приоритетным для индексации. Поэтому хорошо бы маскироваться под новостной контент даже не новостным сайтам. И здесь рулит RSS .
Кстати, часто замечаю, что дублирующийся контент отсекается прежде всего в пределах одного сайта. Даже на стадии вхождения новых страниц. Причем иногда отсекаются просто похожие страницы, даже со слегка разными заголовками и слегка разным контентом. Поэтому делайте ваш контент псевдо-уникальным.
Вот почему SEO это хорошо, но не стоит, перечисляя кейворды, делать посту абсолютно такой же заголовок как и у миллиона других страниц.
А тем временем земляк Bolverin наткнулся на то что вызывает (или по крайней мере должно вызывать) головную боль у большинства веб-дизайнеров на планете – кроссбраузерность. Разработчики IE, Файрфокс и Opera очевидно исторически не дружат со стандартами CSS и статья кроссбраузерный CSS описывает полезный хак позволяющий их помирить.