ludmila 0 Опубликовано: 29 апреля 2011 Рассказать Опубликовано: 29 апреля 2011 (изменено) у меня новый сайт на дле - http://gorodz.zp.ua/ Сегодня посмотрела, что с него проиндексировал Google и пришла в ужас: Категории доступны по адресам: _http://sait.ru/news/ _http://sait.ru/news/page/2/ _http://sait.ru/news/page/3/ а также, _http://sait.ru/news/page/4/,5,6 и т.д. Причем по всем этим ссылкам открывается одна и та же (первая) страница категории. Записи открываются по ссылкам: _http://sait.ru/news/231-vlasti-donecka-ustanovili-nalog-na-zhiluyu-nedvizhimost.html _http://sait.ru/news/231-vlasti-donecka-ustanovili-nalog-na-zhiluyu-nedvizhimost.html#comment Главная доступна по адресам: _http://sait.ru/ _http://sait.ru/index.php _http://sait.ru/index.php?action=mobile _http://sait.ru/index.php?do= Последние записи: _http://sait.ru/lastnews _http://sait.ru/index.php?do=lastnews _http://sait.ru/lastnews/page/5/,6,7 и т.д. Кроме этого, одни и те же анонсы новостей выводятся: - на Главной - в категориях - в архивах по по дням - в архивах по месяцам - в архивах по годам - в архивах по тегам. В итоге имеем на сайте дублированный контент в громадном количестве. Кроме того, в настройках сайта выставлены ЧПУ, но одна и та же страница открывается по адресу с ЧПУ и без него. Даже не подозревала, что ДЛЕ настолько не не оптимизированный двиг и плодит столько дублей страниц. Сайту 2 месяца. Гуглом проиндексирован полностью - в выдаче все, что есть на сайте. Яндексом тоже проиндексирован - но в выдаче нет ни одной страницы. Подозреваю, что причина заключается в дублированном контенте. Отсюда, вопрос к желающим помочь, что в ДЛЕ нужно закрыть от индексации, чтобы поисковики не находили ДК? И еще один к разработчикам ДЛЕ - планируется ли в будущих версиях движка что то делать с проблемой дублирования контента? Изменено 29 апреля 2011 пользователем ludmila Цитата Ссылка на сообщение Поделиться на других сайтах
celsoft 6 077 Опубликовано: 29 апреля 2011 Рассказать Опубликовано: 29 апреля 2011 ludmila, Какой дублированный контент, вы сейчас о чем пишите, это все разные страницы, которые такими и должны быть например вы пишите _http://sait.ru/news/ _http://sait.ru/news/page/2/ _http://sait.ru/news/page/3/ а также, _http://sait.ru/news/page/4/,5,6 и т.д. Причем по всем этим ссылкам открывается одна и та же (первая) страница категории. это же навигация по страницам новостей в категории например на вашем сайте это http://gorodz.zp.ua/news/newstopic/society/ и http://gorodz.zp.ua/news/newstopic/society/page/2/ это абсолютно разные страницы и разные новости на этих страницах, одна и таже новость там только одна и то по видимому вы ее зафиксировали или например выводите тегом custom, плюс обвесы доп. контента слева и справа. И так по всем остальным пунктам, все эти ссылки абсолютно верные и ведут на разные контенты, а если что и попадает одинаково, то это уже компоновка и структура вашего шаблона. Вы посмотрите на те две страницы которые я вам дал на вашем сайте у вас меняется при переходе лишь пять строчек контента от новостей посередине, а все остальное это ваши информеры или custom по бокам, они занимают 90% места вашей страницы. И это не проблема скрипта, это вы сделали такую организацию в своем шаблоне. И еще один к разработчикам ДЛЕ - планируется ли в будущих версиях движка что то делать с проблемой дублирования контента? невозможно решить то, чего нет, а нет в данном вопросе именно проблемы со стороны скрипта. Все эти ссылки которые вы указали такими и должны быть и на них должен быть разный контент, и если у вас не так, то это проблема уже организации шаблона и структуры сайта. А все ваши анонсы вне общего контента новостей можно убирать специальными тегами в шаблоне, и скрипт это поддерживает. Шаблон нужно верстать таким образом чтобы нужные анонсы были только на нужных страницах. Цитата Ссылка на сообщение Поделиться на других сайтах
veb74 10 Опубликовано: 30 апреля 2011 Рассказать Опубликовано: 30 апреля 2011 В 02:05 надо спать, ну или если остались силы воспользоваться поиском. Цитата Ссылка на сообщение Поделиться на других сайтах
ludmila 0 Опубликовано: 30 апреля 2011 Рассказать Опубликовано: 30 апреля 2011 Автор это же навигация по страницам новостей в категории например на вашем сайте это http://gorodz.zp.ua/news/newstopic/society/ и http://gorodz.zp.ua/news/newstopic/society/page/2/ это абсолютно разные страницы и разные новости на этих страницах Вы привели в качестве примера страницы последней по вложенности категории, а мой вопрос касался категории верхнего уровня. Далее, в настройках установлены ЧПУ, а страница открывается по адресу с ЧПУ и без него. Это тоже так должно быть? _http://sait.ru/index.php _http://sait.ru/index.php?do= Еще, даже, если это теоретически разные страницы, то по сути это одна и та же страница - Главная. _http://sait.ru/ _http://sait.ru/index.php _http://sait.ru/index.php?action=mobile _http://sait.ru/index.php?do= _http://sait.ru/index.php? И контент на ней тоже один и тот же. Возможно в природе существуют шаблоны у которых несколько главных страниц и на каждой из них разный контент, но мне такие до сих пор не попадались. В любом шаблоне (и на сайте соответственно) одна Главная страница. celsoft, спасибо, что не поленились ткнуть меня носом в мои проблемы, но я ожидала конструктивного ответа. Я выловила из Googlе все одинаковые страницы, у которых только адреса разные и закрыла их в файле robots.txt. По видимому, этого мало. Что еще можно сделать, чтобы на сайте не было дублированного контента? Цитата Ссылка на сообщение Поделиться на других сайтах
prikindel 255 Опубликовано: 30 апреля 2011 Рассказать Опубликовано: 30 апреля 2011 Далее, в настройках установлены ЧПУ, а страница открывается по адресу с ЧПУ и без него. Это тоже так должно быть? конечно, да. так работает mod_rewrite используйте везде лишь 1 тип чпу, и тогда другой тип нигде не вылезет. все остальные вопросы и недоумения, увы, сводятся лишь к не полному понимаю принципов работы вебсервера. Цитата Ссылка на сообщение Поделиться на других сайтах
ludmila 0 Опубликовано: 30 апреля 2011 Рассказать Опубликовано: 30 апреля 2011 Автор Далее, в настройках установлены ЧПУ, а страница открывается по адресу с ЧПУ и без него. Это тоже так должно быть? конечно, да. так работает mod_rewrite используйте везде лишь 1 тип чпу, и тогда другой тип нигде не вылезет. Так один тип и использую, тит тип, который в настройках движка называется тип2. Это Google проиндексировал одни и те же страницы по разным адресам. Только после этого я обнаружила, что одна и та же страница открывается по разным адресам, до того наивно считала, что если в настройках я выбрала ЧПУ, то все страницы и будут иметь только ЧПУ-адреса. все остальные вопросы и недоумения, увы, сводятся лишь к не полному понимаю принципов работы вебсервера. Наверное, я действительно чего то не понимаю. Ну так, помогите разобраться, а главное, подскажите, как избавиться от дублирующегося контента на сайте. а то все обсуждение идет вокруг да около, а по сути моей просьбы никто ничего так и не написал. Цитата Ссылка на сообщение Поделиться на других сайтах
celsoft 6 077 Опубликовано: 30 апреля 2011 Рассказать Опубликовано: 30 апреля 2011 Вы привели в качестве примера страницы последней по вложенности категории, а мой вопрос касался категории верхнего уровня. какой категории верхнего уровня, давайте реальные ссылки._http://sait.ru/index.php?do= такой ссылки скрипт не генерирует, ищите ее в шаблоне. Еще, даже, если это теоретически разные страницы, то по сути это одна и та же страница - Главная. _http://sait.ru/ _http://sait.ru/index.php _http://sait.ru/index.php?action=mobile _http://sait.ru/index.php?do= _http://sait.ru/index.php? то же самое где то на вашем сайте поисковик нашел эти ссылки. http://sait.ru/index.php?action=mobile это переключение на мобильную версию сайтаЭто Google проиндексировал одни и те же страницы по разным адресам. Google индексирует только те адреса, которые он нашел на вашем сайте, если он их проиндексировал, то значит ссылки им были найдены, а подобные ссылки могут стоять только в шаблоне, т.к. сам скрипт выше указанных ссылок не генерирует сам. Цитата Ссылка на сообщение Поделиться на других сайтах
ludmila 0 Опубликовано: 1 мая 2011 Рассказать Опубликовано: 1 мая 2011 (изменено) Автор Вот пример. По всем этим ссылкам открывается одна и та же страница: http://gorodz.zp.ua/news/ http://gorodz.zp.ua/news/page/2/ http://gorodz.zp.ua/news/page/3/ Как оставить http://gorodz.zp.ua/news/, а остальные закрыть от индексации? И почему их так много образуется? Ведь если на сайте нет http://gorodz.zp.ua/news/page/2/, значит по этому адресу должна открываться страница с ошибкой, а открывается, почему то Главная. Изменено 1 мая 2011 пользователем ludmila Цитата Ссылка на сообщение Поделиться на других сайтах
celsoft 6 077 Опубликовано: 2 мая 2011 Рассказать Опубликовано: 2 мая 2011 ludmila, у вас раньше на этой странице был {content} и выводились новости и навигация по страницам внизу новостей, поэтому поисковики эти страницы проиндексировали и на них был разный контент, вы этот тег убрали с этой страницы, сделав вывод одной и той же информации.Ведь если на сайте нет http://gorodz.zp.ua/news/page/2/, значит по этому адресу должна открываться страница с ошибкой, а открывается, почему то Главная. почему нету, эта страницв есть, просто вы сделали свой шаблон так, что на всех страницах выводится одна и таже информация, это все из за организации вывода в ваших шаблонах Как оставить http://gorodz.zp.ua/news/, а остальные закрыть от индексации? robots.txt User-agent: * Disallow: /news/page/ Цитата Ссылка на сообщение Поделиться на других сайтах
ludmila 0 Опубликовано: 2 мая 2011 Рассказать Опубликовано: 2 мая 2011 (изменено) Автор User-agent: * Disallow: /news/page/ А разве не так: /news/page/*/ Это же не одна страница, а много? Что лучше разрешить для индексации - категории или последние новости? А как быть с тегами? Страниц тегов проиндексировано больше, чем новостей, хотя к каждой новости добавлен только один тег. Теги лучше закрыть или оставить? Изменено 2 мая 2011 пользователем ludmila Цитата Ссылка на сообщение Поделиться на других сайтах
WebSet 74 Опубликовано: 2 мая 2011 Рассказать Опубликовано: 2 мая 2011 А разве не так: /news/page/*/ /news/page/* лучше так А как быть с тегами? закрыть, теги не для поисковиков а для людей Цитата Ссылка на сообщение Поделиться на других сайтах
celsoft 6 077 Опубликовано: 2 мая 2011 Рассказать Опубликовано: 2 мая 2011 А разве не так: /news/page/*/ Это же не одна страница, а много? нет не так, а так как именно я вам написал /news/page/* лучше так тоже не нужно, т.к. строки Disallow: /news/page/ и Disallow: /news/page/* абсолютно одинаковы в плане функциональности http://help.yandex.ru/webmaster/?id=996567#996572 Цитата Ссылка на сообщение Поделиться на других сайтах
ludmila 0 Опубликовано: 3 мая 2011 Рассказать Опубликовано: 3 мая 2011 (изменено) Автор http://help.yandex.ru/webmaster/?id=996567#996572 Это я читала, но не со всем разобралась. А даже то, что понятно, хотелось, чтобы кто, более опытный, чем я, подтвердил, что я делаю правильно. Например, вот это все: Disallow: /*do=lastcomments Disallow: /*do=feedback Disallow: /*do=register Disallow: /*do=lostpassword Disallow: /*do=addnews Disallow: /*do=stats Disallow: /*do=pm я заменила Disallow: /*do= А это: Disallow: /index.php?do=feedback Disallow: /index.php?do=stats Disallow: /index.php?do=search Disallow: /index.php?do=* Disallow: /index.php?do=lastnews Disallow: /index.php?action=mobiledisable Disallow: /index.php?do=search&mode=advanced Disallow: /index.php?subaction=newposts Disallow: /index.php?action=* заменила Disallow: /index.php Оба эти варианта: Disallow: /index.php Disallow: /index.php* идентичны, правильно? Изменено 3 мая 2011 пользователем ludmila Цитата Ссылка на сообщение Поделиться на других сайтах
- Den - 32 Опубликовано: 4 мая 2011 Рассказать Опубликовано: 4 мая 2011 В панели вебмастера яндекса есть проверка файла robots. Создали правило, введите проверяемую ссылку и вам будет показано, разрешена она к индексации или нет, учитывая ваше правило. Это будет самый компетентный ответ. Цитата Ссылка на сообщение Поделиться на других сайтах
celsoft 6 077 Опубликовано: 4 мая 2011 Рассказать Опубликовано: 4 мая 2011 заменила Disallow: /index.php позравляю, вы закрыли свой сайт от индексации полностью. Нельзя закрывать от индексации главную страницу вашего сайта. Цитата Ссылка на сообщение Поделиться на других сайтах
- Den - 32 Опубликовано: 4 мая 2011 Рассказать Опубликовано: 4 мая 2011 Если ниже будет прописано Allow: / То httр://site.ru/index.php будет закрыт, а httр://site.ru/ открыт для индексации Что подтверждается здесь http://webmaster.yandex.ua/site/robots.xml Цитата Ссылка на сообщение Поделиться на других сайтах
celsoft 6 077 Опубликовано: 4 мая 2011 Рассказать Опубликовано: 4 мая 2011 Если ниже будет прописано Allow: / То httр://site.ru/index.php будет закрыт, а httр://site.ru/ открыт для индексации все равно плохо. Какую страницу поисковик посчитает за главную большой вопрос, это он будет решать. Я бы не рекомендовал делать подобного. Цитата Ссылка на сообщение Поделиться на других сайтах
maro 1 Опубликовано: 13 сентября 2011 Рассказать Опубликовано: 13 сентября 2011 Тут другой интересный эффект. Файл robots.txt закрывает полностью сайт от индексации Disallow: / но прописанный ниже sitemap.xml отменяет правила которые задал robots.txt и дает указание ботам проиндексировать страницы указанные в sitemap. Боты полным ходом индексируют эти ссылки игнорируя любые запреты. Соотвецтвенно и дублирования контента нет, индексация только страниц указанных в sitemap.xml Не считая тех случаев, когда боты игнорируют вобще robots.txt, мотивировка - видимо файл не считался из-за сбоев у вас на сервере, но не переживайте через пару апов эти страницы из индекса уйдут... Google мне так отписался. Цитата Ссылка на сообщение Поделиться на других сайтах
Captain 623 Опубликовано: 14 сентября 2011 Рассказать Опубликовано: 14 сентября 2011 Тут другой интересный эффект. Файл robots.txt закрывает полностью сайт от индексации Disallow: / но прописанный ниже sitemap.xml отменяет правила которые задал robots.txt и дает указание ботам проиндексировать страницы указанные в sitemap. Это не верно и не логично, sitemap не отменяет правила роботс и ни каких указаний ботам не дает. Да, файл сканируется, но запрещенные страницы в индекс не попадут, если не будет каких-либо других внешних факторов (вроде ссылок с других сайтов на запрещенные страницы). ...мотивировка - видимо файл не считался из-за сбоев у вас на сервере... Все правильно, недоступность роботса для бота является разрешающим действием, это тоже самое что его просто нет. Цитата Ссылка на сообщение Поделиться на других сайтах
mixmix 0 Опубликовано: 27 октября 2011 Рассказать Опубликовано: 27 октября 2011 А как например закрыть от google User-agent: googlebot Disallow: / User-agent: * Disallow: /engine/go.php Disallow: /user/ Disallow: /newposts/ Disallow: /statistics.html Disallow: /*subaction=userinfo Disallow: /*subaction=newposts Disallow: /*do=lastcomments Disallow: /*do=feedback Disallow: /*do=register Disallow: /*do=lostpassword Disallow: /*do=addnews Disallow: /*do=stats Disallow: /*do=pm Так прописал, всеравно пасётся на сайте, а толку от его 0 Цитата Ссылка на сообщение Поделиться на других сайтах
BGB 0 Опубликовано: 21 ноября 2011 Рассказать Опубликовано: 21 ноября 2011 А как например закрыть от google User-agent: googlebot Disallow: / ..... Так прописал, всеравно пасётся на сайте, а толку от его 0 Правильно закрыли от google, но это не является командой запрета на посещение роботом google страниц Вашего сайта. Это команда запрета индексации всех страниц сайта, но ходить по сайту робот будет и запретить ему это делать можно только, например, средствами серверного скрипта. Цитата Ссылка на сообщение Поделиться на других сайтах
Рекомендованные сообщения
Присоединяйтесь к обсуждению
Вы можете опубликовать сообщение сейчас, а зарегистрироваться позже. Если у вас есть аккаунт, войдите в него для написания от своего имени.