Перейти к публикации

Дублирование контента на ДЛЕ-сайте


Рекомендованные сообщения

у меня новый сайт на дле - http://gorodz.zp.ua/

Сегодня посмотрела, что с него проиндексировал Google и пришла в ужас:

Категории доступны по адресам:

_http://sait.ru/news/

_http://sait.ru/news/page/2/

_http://sait.ru/news/page/3/

а также, _http://sait.ru/news/page/4/,5,6 и т.д.

Причем по всем этим ссылкам открывается одна и та же (первая) страница категории.

Записи открываются по ссылкам:

_http://sait.ru/news/231-vlasti-donecka-ustanovili-nalog-na-zhiluyu-nedvizhimost.html

_http://sait.ru/news/231-vlasti-donecka-ustanovili-nalog-na-zhiluyu-nedvizhimost.html#comment

Главная доступна по адресам:

_http://sait.ru/

_http://sait.ru/index.php

_http://sait.ru/index.php?action=mobile

_http://sait.ru/index.php?do=

Последние записи:

_http://sait.ru/lastnews

_http://sait.ru/index.php?do=lastnews

_http://sait.ru/lastnews/page/5/,6,7 и т.д.

Кроме этого, одни и те же анонсы новостей выводятся:

- на Главной

- в категориях

- в архивах по по дням

- в архивах по месяцам

- в архивах по годам

- в архивах по тегам.

В итоге имеем на сайте дублированный контент в громадном количестве.

Кроме того, в настройках сайта выставлены ЧПУ, но одна и та же страница открывается по адресу с ЧПУ и без него.

Даже не подозревала, что ДЛЕ настолько не не оптимизированный двиг и плодит столько дублей страниц.

Сайту 2 месяца.

Гуглом проиндексирован полностью - в выдаче все, что есть на сайте.

Яндексом тоже проиндексирован - но в выдаче нет ни одной страницы.

Подозреваю, что причина заключается в дублированном контенте.

Отсюда, вопрос к желающим помочь, что в ДЛЕ нужно закрыть от индексации, чтобы поисковики не находили ДК?

И еще один к разработчикам ДЛЕ - планируется ли в будущих версиях движка что то делать с проблемой дублирования контента?

Изменено пользователем ludmila
Ссылка на сообщение
Поделиться на других сайтах

ludmila,

Какой дублированный контент, вы сейчас о чем пишите, это все разные страницы, которые такими и должны быть например вы пишите

_http://sait.ru/news/

_http://sait.ru/news/page/2/

_http://sait.ru/news/page/3/

а также, _http://sait.ru/news/page/4/,5,6 и т.д.

Причем по всем этим ссылкам открывается одна и та же (первая) страница категории.

это же навигация по страницам новостей в категории например на вашем сайте это http://gorodz.zp.ua/news/newstopic/society/ и http://gorodz.zp.ua/news/newstopic/society/page/2/ это абсолютно разные страницы и разные новости на этих страницах, одна и таже новость там только одна и то по видимому вы ее зафиксировали или например выводите тегом custom, плюс обвесы доп. контента слева и справа.

И так по всем остальным пунктам, все эти ссылки абсолютно верные и ведут на разные контенты, а если что и попадает одинаково, то это уже компоновка и структура вашего шаблона. Вы посмотрите на те две страницы которые я вам дал на вашем сайте у вас меняется при переходе лишь пять строчек контента от новостей посередине, а все остальное это ваши информеры или custom по бокам, они занимают 90% места вашей страницы. И это не проблема скрипта, это вы сделали такую организацию в своем шаблоне.

И еще один к разработчикам ДЛЕ - планируется ли в будущих версиях движка что то делать с проблемой дублирования контента?

невозможно решить то, чего нет, а нет в данном вопросе именно проблемы со стороны скрипта. Все эти ссылки которые вы указали такими и должны быть и на них должен быть разный контент, и если у вас не так, то это проблема уже организации шаблона и структуры сайта. А все ваши анонсы вне общего контента новостей можно убирать специальными тегами в шаблоне, и скрипт это поддерживает. Шаблон нужно верстать таким образом чтобы нужные анонсы были только на нужных страницах.

Ссылка на сообщение
Поделиться на других сайтах

это же навигация по страницам новостей в категории например на вашем сайте это http://gorodz.zp.ua/news/newstopic/society/ и http://gorodz.zp.ua/news/newstopic/society/page/2/ это абсолютно разные страницы и разные новости на этих страницах

Вы привели в качестве примера страницы последней по вложенности категории, а мой вопрос касался категории верхнего уровня.

Далее, в настройках установлены ЧПУ, а страница открывается по адресу с ЧПУ и без него.

Это тоже так должно быть?

_http://sait.ru/index.php

_http://sait.ru/index.php?do=

Еще, даже, если это теоретически разные страницы, то по сути это одна и та же страница - Главная.

_http://sait.ru/

_http://sait.ru/index.php

_http://sait.ru/index.php?action=mobile

_http://sait.ru/index.php?do=

_http://sait.ru/index.php?

И контент на ней тоже один и тот же.

Возможно в природе существуют шаблоны у которых несколько главных страниц и на каждой из них разный контент, но мне такие до сих пор не попадались.

В любом шаблоне (и на сайте соответственно) одна Главная страница.

celsoft, спасибо, что не поленились ткнуть меня носом в мои проблемы, но я ожидала конструктивного ответа.

Я выловила из Googlе все одинаковые страницы, у которых только адреса разные и закрыла их в файле robots.txt.

По видимому, этого мало.

Что еще можно сделать, чтобы на сайте не было дублированного контента?

Ссылка на сообщение
Поделиться на других сайтах

Далее, в настройках установлены ЧПУ, а страница открывается по адресу с ЧПУ и без него.

Это тоже так должно быть?

конечно, да. так работает mod_rewrite

используйте везде лишь 1 тип чпу, и тогда другой тип нигде не вылезет.

все остальные вопросы и недоумения, увы, сводятся лишь к не полному понимаю принципов работы вебсервера.

Ссылка на сообщение
Поделиться на других сайтах

Далее, в настройках установлены ЧПУ, а страница открывается по адресу с ЧПУ и без него.

Это тоже так должно быть?

конечно, да. так работает mod_rewrite

используйте везде лишь 1 тип чпу, и тогда другой тип нигде не вылезет.

Так один тип и использую, тит тип, который в настройках движка называется тип2.

Это Google проиндексировал одни и те же страницы по разным адресам.

Только после этого я обнаружила, что одна и та же страница открывается по разным адресам, до того наивно считала, что если в настройках я выбрала ЧПУ, то все страницы и будут иметь только ЧПУ-адреса.

все остальные вопросы и недоумения, увы, сводятся лишь к не полному понимаю принципов работы вебсервера.

Наверное, я действительно чего то не понимаю.

Ну так, помогите разобраться, а главное, подскажите, как избавиться от дублирующегося контента на сайте.

а то все обсуждение идет вокруг да около, а по сути моей просьбы никто ничего так и не написал.

Ссылка на сообщение
Поделиться на других сайтах

Вы привели в качестве примера страницы последней по вложенности категории, а мой вопрос касался категории верхнего уровня.

какой категории верхнего уровня, давайте реальные ссылки.

_http://sait.ru/index.php?do=

такой ссылки скрипт не генерирует, ищите ее в шаблоне.

Еще, даже, если это теоретически разные страницы, то по сути это одна и та же страница - Главная.

_http://sait.ru/

_http://sait.ru/index.php

_http://sait.ru/index.php?action=mobile

_http://sait.ru/index.php?do=

_http://sait.ru/index.php?

то же самое где то на вашем сайте поисковик нашел эти ссылки. http://sait.ru/index.php?action=mobile это переключение на мобильную версию сайта

Это Google проиндексировал одни и те же страницы по разным адресам.

Google индексирует только те адреса, которые он нашел на вашем сайте, если он их проиндексировал, то значит ссылки им были найдены, а подобные ссылки могут стоять только в шаблоне, т.к. сам скрипт выше указанных ссылок не генерирует сам.

Ссылка на сообщение
Поделиться на других сайтах

Вот пример.

По всем этим ссылкам открывается одна и та же страница:

http://gorodz.zp.ua/news/

http://gorodz.zp.ua/news/page/2/

http://gorodz.zp.ua/news/page/3/

Как оставить http://gorodz.zp.ua/news/, а остальные закрыть от индексации?

И почему их так много образуется?

Ведь если на сайте нет http://gorodz.zp.ua/news/page/2/, значит по этому адресу должна открываться страница с ошибкой, а открывается, почему то Главная.

Изменено пользователем ludmila
Ссылка на сообщение
Поделиться на других сайтах

ludmila,

у вас раньше на этой странице был {content} и выводились новости и навигация по страницам внизу новостей, поэтому поисковики эти страницы проиндексировали и на них был разный контент, вы этот тег убрали с этой страницы, сделав вывод одной и той же информации.

Ведь если на сайте нет http://gorodz.zp.ua/news/page/2/, значит по этому адресу должна открываться страница с ошибкой, а открывается, почему то Главная.

почему нету, эта страницв есть, просто вы сделали свой шаблон так, что на всех страницах выводится одна и таже информация, это все из за организации вывода в ваших шаблонах

Как оставить http://gorodz.zp.ua/news/, а остальные закрыть от индексации?

robots.txt

User-agent: *

Disallow: /news/page/

Ссылка на сообщение
Поделиться на других сайтах

User-agent: *

Disallow: /news/page/

А разве не так:

/news/page/*/

Это же не одна страница, а много?

Что лучше разрешить для индексации - категории или последние новости?

А как быть с тегами?

Страниц тегов проиндексировано больше, чем новостей, хотя к каждой новости добавлен только один тег.

Теги лучше закрыть или оставить?

Изменено пользователем ludmila
Ссылка на сообщение
Поделиться на других сайтах

А разве не так:

/news/page/*/

Это же не одна страница, а много?

нет не так, а так как именно я вам написал

/news/page/*

лучше так

тоже не нужно, т.к. строки

Disallow: /news/page/

и

Disallow: /news/page/*

абсолютно одинаковы в плане функциональности http://help.yandex.ru/webmaster/?id=996567#996572

Ссылка на сообщение
Поделиться на других сайтах

http://help.yandex.ru/webmaster/?id=996567#996572

Это я читала, но не со всем разобралась.

А даже то, что понятно, хотелось, чтобы кто, более опытный, чем я, подтвердил, что я делаю правильно.

Например, вот это все:

Disallow: /*do=lastcomments

Disallow: /*do=feedback

Disallow: /*do=register

Disallow: /*do=lostpassword

Disallow: /*do=addnews

Disallow: /*do=stats

Disallow: /*do=pm

я заменила Disallow: /*do=

А это:

Disallow: /index.php?do=feedback

Disallow: /index.php?do=stats

Disallow: /index.php?do=search

Disallow: /index.php?do=*

Disallow: /index.php?do=lastnews

Disallow: /index.php?action=mobiledisable

Disallow: /index.php?do=search&mode=advanced

Disallow: /index.php?subaction=newposts

Disallow: /index.php?action=*

заменила Disallow: /index.php

Оба эти варианта:

Disallow: /index.php

Disallow: /index.php*

идентичны, правильно?

Изменено пользователем ludmila
Ссылка на сообщение
Поделиться на других сайтах

В панели вебмастера яндекса есть проверка файла robots. Создали правило, введите проверяемую ссылку и вам будет показано, разрешена она к индексации или нет, учитывая ваше правило.

Это будет самый компетентный ответ.

Ссылка на сообщение
Поделиться на других сайтах

заменила Disallow: /index.php

позравляю, вы закрыли свой сайт от индексации полностью. Нельзя закрывать от индексации главную страницу вашего сайта.

Ссылка на сообщение
Поделиться на других сайтах

Если ниже будет прописано

Allow: /

То httр://site.ru/index.php будет закрыт, а httр://site.ru/ открыт для индексации

Что подтверждается здесь http://webmaster.yandex.ua/site/robots.xml

Ссылка на сообщение
Поделиться на других сайтах

Если ниже будет прописано

Allow: /

То httр://site.ru/index.php будет закрыт, а httр://site.ru/ открыт для индексации

все равно плохо. Какую страницу поисковик посчитает за главную большой вопрос, это он будет решать. Я бы не рекомендовал делать подобного.

Ссылка на сообщение
Поделиться на других сайтах
  • 4 месяца спустя...

Тут другой интересный эффект. Файл robots.txt закрывает полностью сайт от индексации Disallow: / но прописанный ниже sitemap.xml отменяет правила которые задал robots.txt и дает указание ботам проиндексировать страницы указанные в sitemap. Боты полным ходом индексируют эти ссылки игнорируя любые запреты. Соотвецтвенно и дублирования контента нет, индексация только страниц указанных в sitemap.xml Не считая тех случаев, когда боты игнорируют вобще robots.txt, мотивировка - видимо файл не считался из-за сбоев у вас на сервере, но не переживайте через пару апов эти страницы из индекса уйдут... Google мне так отписался.

Ссылка на сообщение
Поделиться на других сайтах

Тут другой интересный эффект. Файл robots.txt закрывает полностью сайт от индексации Disallow: / но прописанный ниже sitemap.xml отменяет правила которые задал robots.txt и дает указание ботам проиндексировать страницы указанные в sitemap.

Это не верно и не логично, sitemap не отменяет правила роботс и ни каких указаний ботам не дает. Да, файл сканируется, но запрещенные страницы в индекс не попадут, если не будет каких-либо других внешних факторов (вроде ссылок с других сайтов на запрещенные страницы).

...мотивировка - видимо файл не считался из-за сбоев у вас на сервере...

Все правильно, недоступность роботса для бота является разрешающим действием, это тоже самое что его просто нет.

Ссылка на сообщение
Поделиться на других сайтах
  • 1 месяц спустя...

А как например закрыть от google

User-agent: googlebot

Disallow: /

User-agent: *

Disallow: /engine/go.php

Disallow: /user/

Disallow: /newposts/

Disallow: /statistics.html

Disallow: /*subaction=userinfo

Disallow: /*subaction=newposts

Disallow: /*do=lastcomments

Disallow: /*do=feedback

Disallow: /*do=register

Disallow: /*do=lostpassword

Disallow: /*do=addnews

Disallow: /*do=stats

Disallow: /*do=pm

Так прописал, всеравно пасётся на сайте, а толку от его 0

Ссылка на сообщение
Поделиться на других сайтах
  • 4 недели спустя...

А как например закрыть от google

User-agent: googlebot

Disallow: /

.....

Так прописал, всеравно пасётся на сайте, а толку от его 0

Правильно закрыли от google, но это не является командой запрета на посещение роботом google страниц Вашего сайта. Это команда запрета индексации всех страниц сайта, но ходить по сайту робот будет и запретить ему это делать можно только, например, средствами серверного скрипта.

Ссылка на сообщение
Поделиться на других сайтах

Присоединяйтесь к обсуждению

Вы можете опубликовать сообщение сейчас, а зарегистрироваться позже. Если у вас есть аккаунт, войдите в него для написания от своего имени.

Гость
Ответить в тему...

×   Вставлено в виде отформатированного текста.   Вставить в виде обычного текста

  Разрешено не более 75 эмодзи.

×   Ваша ссылка была автоматически встроена.   Отобразить как ссылку

×   Ваш предыдущий контент был восстановлен.   Очистить редактор

×   Вы не можете вставить изображения напрямую. Загрузите или вставьте изображения по ссылке.

×
×
  • Создать...