zhekamur 0 Опубликовано: 8 октября 2010 Рассказать Опубликовано: 8 октября 2010 (изменено) сайт verstov.info. Хочу рассказать о багах, которые переходят от версии к версии: В категориях появляются дубли страниц, что неприятно для поисковиков, особенно если категорий много. Состоит в следующем: При навигации скриптом создаются страницы вида /категория/page/1/, должно просто: /категория/. Ведь /page/1/ и /категория/ это одно и тоже. На главной повторяется тоже самое! Появляются опять /page/1/... Зачем, ведь это и есть гланая? ещё заметил что подкатегории(podkategory) в основной категории(category) доступны по адресу site.ru/podkategory/, хотя должны быть только site.ru/category/podkategory/. Отсюда опять дубли страниц. Изменено 8 октября 2010 пользователем zhekamur Цитата Ссылка на сообщение Поделиться на других сайтах
FreeRider 8 Опубликовано: 8 октября 2010 Рассказать Опубликовано: 8 октября 2010 Эти дубли появятся в индексе поисковиков, только если вы сами укажите им на них. Не пишите на сайте левых ссылок и дублей не будет. PS: научитесь пользоваться поиском, эта тема тут уже раз 100 поднималась. Цитата Ссылка на сообщение Поделиться на других сайтах
zhekamur 0 Опубликовано: 8 октября 2010 Рассказать Опубликовано: 8 октября 2010 Автор "Сами укажите им на них"??? Они СОЗДАЮТСЯ СКРИПТОМ и ссылки на них появляются если перейти на вторую страницу!! ЭТО БАГ!! Как это можно отрицать? Тем более, если темы уже ни раз поднимались! при переходе на site/page/2/ появляется ссылка на site/page/1/ -это дубль главной.В категориях тоже самое. ЭТО 100% дубли. Это действительно баг и если вам говорят о багах вы должны прислушиваться к этому, а не научитесь и прочее...В календаре тоже самое, посмотрите в гугл: Для примера: free-get.ru/2009/05/18/page/1/ free-get.ru/2009/05/29/page/1/ free-get.ru/2009/05/27/page/1/ free-get.ru/2009/05/15/page/1/ free-get.ru/2009/05/13/page/1/ free-get.ru/2009/05/25/page/1/ И так за КАЖДОЕ число и все эти дубли В ИНДЕКСЕ!! Пожалуйста, передайте программистам и скажите спасибо. это баг. Цитата Ссылка на сообщение Поделиться на других сайтах
FreeRider 8 Опубликовано: 8 октября 2010 Рассказать Опубликовано: 8 октября 2010 (изменено) Disallow: /*/page/1/ Запретит к индексации всё, что заканчивается на page/1/ Например: site.ru/2009/05/18/page/1/ site.ru/page/1/ и тд. PS: к движку это не имеет никакого отношения и это присутствует во всех движках без исключения. Тут всё зависит только от знаний директив robots.txt Изменено 8 октября 2010 пользователем FreeRider Цитата Ссылка на сообщение Поделиться на других сайтах
zhekamur 0 Опубликовано: 8 октября 2010 Рассказать Опубликовано: 8 октября 2010 Автор на самом деле это несложно исправить в программной части. А запретить в роботс можно всё что угодно. PS: к движку это не имеет никакого отношения и это присутствует во всех движках без исключения. Тут всё зависит только от знаний директив robots.txt ясно. А почему вы так не сделали на собственном сайте?? Цитата Ссылка на сообщение Поделиться на других сайтах
FreeRider 8 Опубликовано: 9 октября 2010 Рассказать Опубликовано: 9 октября 2010 ясно. А почему вы так не сделали на собственном сайте?? На 2ом сделал, первым я уже давно не занимаюсь. А раньше просто как-то не думал об этом... И при этом поисковики повыкинули все эти дубли, а оставили только оригиналы... так что ничего встрашного поидее нет... Цитата Ссылка на сообщение Поделиться на других сайтах
lepus 1 Опубликовано: 9 октября 2010 Рассказать Опубликовано: 9 октября 2010 Исправить это кажется действительно не сложно. Цитата Ссылка на сообщение Поделиться на других сайтах
zgr 72 Опубликовано: 9 октября 2010 Рассказать Опубликовано: 9 октября 2010 Сей недочет исправить можно, к тоже там кода очень мало, код даже есть готовый, предлагал, но Целсофт этого исправлять не будет, хоть застрелитесь и багом это тоже никто никогда не признает, хотя я тоже абсолютно уверен - это баг, - любая система должна иметь элементарный обработчик ошибок пользователей, а не исполнять их Цитата Ссылка на сообщение Поделиться на других сайтах
celsoft 6 081 Опубликовано: 10 октября 2010 Рассказать Опубликовано: 10 октября 2010 но Целсофт этого исправлять не будет, хоть застрелитесь на основе чего сделано подобное утверждение? Цитата Ссылка на сообщение Поделиться на других сайтах
lepus 1 Опубликовано: 10 октября 2010 Рассказать Опубликовано: 10 октября 2010 PS: к движку это не имеет никакого отношения и это присутствует во всех движках без исключения. Тут всё зависит только от знаний директив robots.txt Ничего подобного. Если посмотреть на сервисы wordpress и blogspot или на движок wordpress, то при навигации ссылка на первую страницу всегда будет указывать в корень сайта (каталога). Цитата Ссылка на сообщение Поделиться на других сайтах
zgr 72 Опубликовано: 10 октября 2010 Рассказать Опубликовано: 10 октября 2010 (изменено) Тут всё зависит только от знаний директив robots.txt Сам по себе подход неверен, вам же в магазине по продаже телевизоров не будут объяснять, что каждый канал должен вручную настраиваться, вилка к теле на базаре продается, а пульт в соседнем супермаркете? Все должно уже быть настроенным и работать при включении но Целсофт этого исправлять не будет, хоть застрелитесь на основе чего сделано подобное утверждение? Ну, на основе того, что пользователи разделились на два лагеря: одни "за" баг, другие - "против". Как-то подобную ветку уже создавал. Я прекрасно понимаю, что скрипт ничего не генерирует сам и все ссылки ставятся в модулях, в ЧПУ и т.д., но вполне очевидно, что если категории/страницы нет, то должна быть ошибка, либо редирект на правильную категорию/страницу и новости ни в коем случае не должны быть доступны в разных путях (ссылаться на кривые руки, модули и т.д. - неверный путь, все равно, что продать телевизор, а потом сослаться на двухсотстраничную эксплуатацию, мол, читайте и неделю-другую делайте всё по инструкции правильно - абсурд же Сейчас любой гаджет купил-включил-работаешь...). Решается эта проблема банально просто: собираем все категории в многоуровневую кучу одним запросом в БД разово при редактировании категорий и кидаем в кеш, далее проверяем адрес на который зашли - хоть с ЧПУ, хоть без можно так проверить правильность пути, если путь неверен, то отредиректить на правильный путь и, думается, подобные темы в будущем уже создаваться не будут. Никакой нагрузки совершенно нет. Изменено 10 октября 2010 пользователем zgr Цитата Ссылка на сообщение Поделиться на других сайтах
lepus 1 Опубликовано: 10 октября 2010 Рассказать Опубликовано: 10 октября 2010 На мой взгляд адреса с ЧПУ обязательно надо проверять. Цитата Ссылка на сообщение Поделиться на других сайтах
celsoft 6 081 Опубликовано: 10 октября 2010 Рассказать Опубликовано: 10 октября 2010 Ну, на основе того, что пользователи разделились на два лагеря: одни "за" баг, другие - "против". Как-то подобную ветку уже создавал. А теперь найдите ветку, которую вы создавали и сравните с этой, и найдите принципиальные различия. но вполне очевидно, что если категории/страницы нет, то должна быть ошибка, Вы наверное сейчас удивитесь, но если страницы или категории нет, то скрипт отдает 404 ошибку поисковикам.(ссылаться на кривые руки, модули и т.д. - неверный путь, все равно, что продать телевизор, а потом сослаться на двухсотстраничную эксплуатацию, мол, читайте и неделю-другую делайте всё по инструкции правильно - абсурд же Сейчас любой гаджет купил-включил-работаешь...). Извините но если кривые руки то тут ничего не поможет, можно и телевизор воткнуть в розетку на 380 вольт, а потом возмущаться почему он дымит а не работает, и зачем читать инструкцию, что его номинальное напряжение 220 вольт. Решается эта проблема банально просто: собираем все категории в многоуровневую кучу одним запросом в БД разово при редактировании категорий и кидаем в кеш, далее проверяем адрес на который зашли - хоть с ЧПУ, хоть без можно так проверить правильность пути, если путь неверен, то отредиректить на правильный путь и, думается, подобные темы в будущем уже создаваться не будут. Никакой нагрузки совершенно нет. ну да лишние полмиллиона запросов к БД в день, это совсем не нагрузка, это же мелочи. Не судите по своему сайту с 10 посетителями, есть сайты где более полумиллиона обращений в сутки. Запомните раз и навсегда, я на любом сайте, на любом движке могу дописать что угодно к URL и он будет отображаться по двум адресам, его родному и тому что я допишу. Повторю еще раз на любом сайте, на любом движке, даже на если он просто на HTML и поисковиков это будут два разных адреса. И я это на форуме уже неоднократно демонстрировал как это делается. Но суть не в этом. В этой теме я нигде не написал, что автор темы не прав. Почему? Прочитайте о чем идет речь в этой теме, она идет совсем о другом. Цитата Ссылка на сообщение Поделиться на других сайтах
zgr 72 Опубликовано: 10 октября 2010 Рассказать Опубликовано: 10 октября 2010 ну да лишние полмиллиона запросов к БД в день, это совсем не нагрузка, это же мелочи. Я написал про один разовый запрос, который может быть вообще 1 за всё время существования сайта, откуда остальные запросы взяты? С кем-либо спорить и что-то доказывать нет особой нужды и такого интереса, но вот узнать построение вашей логики было бы интересно, поскольку я подобное делал без всяких запросов и всё прекрасно работало на весьма примитивной логике без каких-либо серьезных нагрузок (посещаемость здесь не при чем, проверку вообще можно вкл./выкл. сделать). Но суть не в этом. В этой теме я нигде не написал, что автор темы не прав. Почему? Прочитайте о чем идет речь в этой теме, она идет совсем о другом. Разве? - ТС, как и я, и другие пишет, что страница доступна по адресу, которого нет, точнее по разным несуществующим адресам (не хочу вдаваться в философию о ЧПУ, поскольку каждый все равно со своей колокольни смотрит): ещё заметил что подкатегории(podkategory) в основной категории(category) доступны по адресу site.ru/podkategory/, хотя должны быть только site.ru/category/podkategory/. Отсюда опять дубли страниц. Поэтому 2 лагеря: одни "за" баг, другие - "против" (багом это не считают). Впрочем, я уже давно понял, что это как-либо исправляться не будет, поэтому стою в сторонке, кто заказывает исправления, пишу под заказ. "Жираф большой, ему видней" (Высоцкий). Ну, спорить или что-то доказывать смысла нет, все равно все будут при своем Цитата Ссылка на сообщение Поделиться на других сайтах
celsoft 6 081 Опубликовано: 10 октября 2010 Рассказать Опубликовано: 10 октября 2010 Разве? - ТС, как и я, и другие пишет, что страница доступна по адресу, которого нет, точнее по разным несуществующим адресам (не хочу вдаваться в философию о ЧПУ, поскольку каждый все равно со своей колокольни смотрит): Представьте себе разве, тс пишет о другом. Прочитайте первое сообщение топика, не увидели разницы, прочитайте еще раз, и т.д. пока не увидите.Поэтому 2 лагеря: одни "за" баг, другие - "против" (багом это не считают). про категории и я багом не считаю, но основная эта тема о другом. Я написал про один разовый запрос, который может быть вообще 1 за всё время существования сайта, откуда остальные запросы взяты? С кем-либо спорить и что-то доказывать нет особой нужды и такого интереса, но вот узнать построение вашей логики было бы интересно, поскольку я подобное делал без всяких запросов и всё прекрасно работало на весьма примитивной логике без каких-либо серьезных нагрузок (посещаемость здесь не при чем, проверку вообще можно вкл./выкл. сделать). Правильно, зачем спорить, куда уж нам простым смертным. Давайте просто ссылку на то что вы делали подобное, я вам наглядно продемонстрирую как ваш алгоритм не работает, и успешно отправлю в поисковик два разных адреса с одинаковой страницей и получу утвердительный ответ от поисковика что спасибо за адреса мы приняли их к рассмотрению. Это просто вы по наивности думаете что у вас работает, видимо не представляете даже какими могуть быть URL и проверить все абсолютно невозможно. А теперь ответьте на вопрос, зачем заниматься глупыми алгоритмами от которых никакого толку, да и никак и ни в коей мере не может отразиться на поисковиках, потому что они намного умнее чем вы о них думаете, и подписать и подредактировать вручную можно любой URL, на любом сайте, но он никогда от этого не попадет в индекс поисковика. Если честно я устал от подобных тем каждый год, зачем тогда вообще писать, если у вас один ответ на все: "С кем-либо спорить и что-то доказывать нет особой нужды". Это делает ваши сообщения полностью бессмысленными. Цитата Ссылка на сообщение Поделиться на других сайтах
lepus 1 Опубликовано: 11 октября 2010 Рассказать Опубликовано: 11 октября 2010 А ведь действительно, к любому url можно добавить любую лишнюю переменную, и для индекса это будут разные страницы с одинаковым содержанием. И проверить все варианты либо невозможно, либо трудоемко. Тогда также не имеет смысла проверять различные варианты написания ЧПУ. celsoft, я правильно понял? А что касается вопроса про "/page/1/", то выходит, что здесь есть два решения: - исключить дубли в robots.txt - это можно сделать уже сейчас; - внести исправления в движок - тут ждем следующего обновления. Надеюсь и здесь я не ошибаюсь.Вообще проблемы дублированных страниц одного сайта похоже слишком раздуты или неверно воспринимаются. Я имею ввиду то, что штрафы ПС могут быть наложены только в случае "неприлично большого" количества одинаковых страниц. Сколько это "неприлично большого" никто не знает. Но, думаю, что наличие 2-3 одинаковых страниц не критично. Цитата Ссылка на сообщение Поделиться на других сайтах
celsoft 6 081 Опубликовано: 11 октября 2010 Рассказать Опубликовано: 11 октября 2010 А что касается вопроса про "/page/1/", то выходит, что здесь есть два решения: - внести исправления в движок - тут ждем следующего обновления. в новом релизе будет внесеноА ведь действительно, к любому url можно добавить любую лишнюю переменную, и для индекса это будут разные страницы с одинаковым содержанием. И проверить все варианты либо невозможно, либо трудоемко. Тогда также не имеет смысла проверять различные варианты написания ЧПУ. celsoft, я правильно понял? абсолютно верно. Цитата Ссылка на сообщение Поделиться на других сайтах
zhekamur 0 Опубликовано: 11 октября 2010 Рассказать Опубликовано: 11 октября 2010 (изменено) Автор Но, думаю, что наличие 2-3 одинаковых страниц не критично. Насчет 2-3 страниц вы ошибаетесь. Дубли Возникнут там, где есть вообще какая-либо навигация. Это дубль главной, дубль каждой категории, подкатегории, дубль календаря, тегов, комментариев и т.д... В календаре дубли возникают ЕЖЕДНЕВНО, я писал выше с примером в индексе гугл. Изменено 11 октября 2010 пользователем zhekamur Цитата Ссылка на сообщение Поделиться на других сайтах
lepus 1 Опубликовано: 11 октября 2010 Рассказать Опубликовано: 11 октября 2010 Я имел ввиду в общем случае, то есть не применительно к дле.К тому же то, что вы перечислили - это все разные дубли разных страниц. Тогда как я говорил про количество дублей одной отдельно взятой страницы. То есть имеются две копии главной страницы, две копии категории и так далее. Цитата Ссылка на сообщение Поделиться на других сайтах
lepus 1 Опубликовано: 2 ноября 2010 Рассказать Опубликовано: 2 ноября 2010 Цитата Disallow: /*/page/1/ Может так правильнее: Disallow: /*page/1/ ? Цитата Ссылка на сообщение Поделиться на других сайтах
FreeRider 8 Опубликовано: 2 ноября 2010 Рассказать Опубликовано: 2 ноября 2010 а какая разница? Нам же только page отсечь надо, а так вы отсекаете любые страницы, которые на page заканчиваются... Например mainpage... хотя поидее в скрипте таких страниц нет, так что без разницы... Цитата Ссылка на сообщение Поделиться на других сайтах
lepus 1 Опубликовано: 2 ноября 2010 Рассказать Опубликовано: 2 ноября 2010 Ну, отсекаются не страницы, а содержимое каталогов. А смысл правки вот в чем - "*" может означать и отсутствие символа, что в вашем варианте будет соответствовать "//page/1/". Тогда получается, что запрет индексации для директории "www.site.ru/page/1/" просто не сработает. По-моему так. Цитата Ссылка на сообщение Поделиться на других сайтах
FreeRider 8 Опубликовано: 2 ноября 2010 Рассказать Опубликовано: 2 ноября 2010 хм, ну так да, я просто 2 раза прописал: Disallow: /*/page/1/ Disallow: /page/1/ Цитата Ссылка на сообщение Поделиться на других сайтах
zgr 72 Опубликовано: 2 ноября 2010 Рассказать Опубликовано: 2 ноября 2010 (изменено) Тогда получается, что запрет индексации для директории "www.site.ru/page/1/" просто не сработает. Сработает. Чтобы все вложения сработали, начиная от корня и глубже нужно так: Disallow: /*page/1/ Первый слеш означает "от корня", а "звезда" - во всех вложениях, т.е.: Disallow: /page/1/ Disallow: /cat/page/1/ Disallow: /cat/cat2/page/1/ ... Если проверять альт_нейм в скрипте хотя бы, то вообще супер для начала, а то /1-bla-bla.html всегда грузит страницу с контентом новости с айд=1, где bla-bla может быть все что угодно: адреса разные, а контент один. Надеюсь, хотя бы это исправят - уже дублей меньше будет Изменено 2 ноября 2010 пользователем zgr Цитата Ссылка на сообщение Поделиться на других сайтах
Рекомендованные сообщения
Присоединяйтесь к обсуждению
Вы можете опубликовать сообщение сейчас, а зарегистрироваться позже. Если у вас есть аккаунт, войдите в него для написания от своего имени.