Перейти к публикации

НЕБОЛЬШОЙ БАГ


Рекомендованные сообщения

сайт verstov.info.

Хочу рассказать о багах, которые переходят от версии к версии:

В категориях появляются дубли страниц, что неприятно для поисковиков, особенно если категорий много. Состоит в следующем:

При навигации скриптом создаются страницы вида /категория/page/1/, должно просто: /категория/. Ведь /page/1/ и /категория/ это одно и тоже. На главной повторяется тоже самое! Появляются опять /page/1/... Зачем, ведь это и есть гланая?

ещё заметил что подкатегории(podkategory) в основной категории(category) доступны по адресу site.ru/podkategory/, хотя должны быть только

site.ru/category/podkategory/. Отсюда опять дубли страниц.

Изменено пользователем zhekamur
Ссылка на сообщение
Поделиться на других сайтах

Эти дубли появятся в индексе поисковиков, только если вы сами укажите им на них. Не пишите на сайте левых ссылок и дублей не будет.

PS: научитесь пользоваться поиском, эта тема тут уже раз 100 поднималась.

Ссылка на сообщение
Поделиться на других сайтах

"Сами укажите им на них"??? Они СОЗДАЮТСЯ СКРИПТОМ и ссылки на них появляются если перейти на вторую страницу!! ЭТО БАГ!! Как это можно отрицать? Тем более, если темы уже ни раз поднимались! при переходе на site/page/2/ появляется ссылка на site/page/1/ -это дубль главной.В категориях тоже самое. ЭТО 100% дубли. Это действительно баг и если вам говорят о багах вы должны прислушиваться к этому, а не научитесь и прочее...

В календаре тоже самое, посмотрите в гугл:

Для примера:

free-get.ru/2009/05/18/page/1/

free-get.ru/2009/05/29/page/1/

free-get.ru/2009/05/27/page/1/

free-get.ru/2009/05/15/page/1/

free-get.ru/2009/05/13/page/1/

free-get.ru/2009/05/25/page/1/

И так за КАЖДОЕ число и все эти дубли В ИНДЕКСЕ!!

Пожалуйста, передайте программистам и скажите спасибо. это баг.

Ссылка на сообщение
Поделиться на других сайтах

Disallow: /*/page/1/

Запретит к индексации всё, что заканчивается на page/1/

Например:

site.ru/2009/05/18/page/1/

site.ru/page/1/

и тд.

PS: к движку это не имеет никакого отношения и это присутствует во всех движках без исключения. Тут всё зависит только от знаний директив robots.txt

Изменено пользователем FreeRider
Ссылка на сообщение
Поделиться на других сайтах

на самом деле это несложно исправить в программной части. А запретить в роботс можно всё что угодно.

PS: к движку это не имеет никакого отношения и это присутствует во всех движках без исключения. Тут всё зависит только от знаний директив robots.txt

ясно. А почему вы так не сделали на собственном сайте??

Ссылка на сообщение
Поделиться на других сайтах

ясно. А почему вы так не сделали на собственном сайте??

На 2ом сделал, первым я уже давно не занимаюсь. А раньше просто как-то не думал об этом...

И при этом поисковики повыкинули все эти дубли, а оставили только оригиналы... так что ничего встрашного поидее нет...

Ссылка на сообщение
Поделиться на других сайтах

Сей недочет исправить можно, к тоже там кода очень мало, код даже есть готовый, предлагал, но Целсофт этого исправлять не будет, хоть застрелитесь :D и багом это тоже никто никогда не признает, хотя я тоже абсолютно уверен - это баг, - любая система должна иметь элементарный обработчик ошибок пользователей, а не исполнять их :D

Ссылка на сообщение
Поделиться на других сайтах

но Целсофт этого исправлять не будет, хоть застрелитесь

на основе чего сделано подобное утверждение?

Ссылка на сообщение
Поделиться на других сайтах

PS: к движку это не имеет никакого отношения и это присутствует во всех движках без исключения. Тут всё зависит только от знаний директив robots.txt

Ничего подобного. Если посмотреть на сервисы wordpress и blogspot или на движок wordpress, то при навигации ссылка на первую страницу всегда будет указывать в корень сайта (каталога).

Ссылка на сообщение
Поделиться на других сайтах

Тут всё зависит только от знаний директив robots.txt

Сам по себе подход неверен, вам же в магазине по продаже телевизоров не будут объяснять, что каждый канал должен вручную настраиваться, вилка к теле на базаре продается, а пульт в соседнем супермаркете? Все должно уже быть настроенным и работать при включении ;)

но Целсофт этого исправлять не будет, хоть застрелитесь

на основе чего сделано подобное утверждение?

Ну, на основе того, что пользователи разделились на два лагеря: одни "за" баг, другие - "против". Как-то подобную ветку уже создавал.

Я прекрасно понимаю, что скрипт ничего не генерирует сам и все ссылки ставятся в модулях, в ЧПУ и т.д., но вполне очевидно, что если категории/страницы нет, то должна быть ошибка, либо редирект на правильную категорию/страницу и новости ни в коем случае не должны быть доступны в разных путях (ссылаться на кривые руки, модули и т.д. - неверный путь, все равно, что продать телевизор, а потом сослаться на двухсотстраничную эксплуатацию, мол, читайте и неделю-другую делайте всё по инструкции правильно - абсурд же :D Сейчас любой гаджет купил-включил-работаешь...).

Решается эта проблема банально просто: собираем все категории в многоуровневую кучу одним запросом в БД разово при редактировании категорий и кидаем в кеш, далее проверяем адрес на который зашли - хоть с ЧПУ, хоть без можно так проверить правильность пути, если путь неверен, то отредиректить на правильный путь и, думается, подобные темы в будущем уже создаваться не будут. Никакой нагрузки совершенно нет.

Изменено пользователем zgr
Ссылка на сообщение
Поделиться на других сайтах

Ну, на основе того, что пользователи разделились на два лагеря: одни "за" баг, другие - "против". Как-то подобную ветку уже создавал.

А теперь найдите ветку, которую вы создавали и сравните с этой, и найдите принципиальные различия.

но вполне очевидно, что если категории/страницы нет, то должна быть ошибка,

Вы наверное сейчас удивитесь, но если страницы или категории нет, то скрипт отдает 404 ошибку поисковикам.

(ссылаться на кривые руки, модули и т.д. - неверный путь, все равно, что продать телевизор, а потом сослаться на двухсотстраничную эксплуатацию, мол, читайте и неделю-другую делайте всё по инструкции правильно - абсурд же Сейчас любой гаджет купил-включил-работаешь...).

Извините но если кривые руки то тут ничего не поможет, можно и телевизор воткнуть в розетку на 380 вольт, а потом возмущаться почему он дымит а не работает, и зачем читать инструкцию, что его номинальное напряжение 220 вольт.

Решается эта проблема банально просто: собираем все категории в многоуровневую кучу одним запросом в БД разово при редактировании категорий и кидаем в кеш, далее проверяем адрес на который зашли - хоть с ЧПУ, хоть без можно так проверить правильность пути, если путь неверен, то отредиректить на правильный путь и, думается, подобные темы в будущем уже создаваться не будут. Никакой нагрузки совершенно нет.

ну да лишние полмиллиона запросов к БД в день, это совсем не нагрузка, это же мелочи. Не судите по своему сайту с 10 посетителями, есть сайты где более полумиллиона обращений в сутки. Запомните раз и навсегда, я на любом сайте, на любом движке могу дописать что угодно к URL и он будет отображаться по двум адресам, его родному и тому что я допишу. Повторю еще раз на любом сайте, на любом движке, даже на если он просто на HTML и поисковиков это будут два разных адреса. И я это на форуме уже неоднократно демонстрировал как это делается.

Но суть не в этом. В этой теме я нигде не написал, что автор темы не прав. Почему? Прочитайте о чем идет речь в этой теме, она идет совсем о другом.

Ссылка на сообщение
Поделиться на других сайтах

ну да лишние полмиллиона запросов к БД в день, это совсем не нагрузка, это же мелочи.

Я написал про один разовый запрос, который может быть вообще 1 за всё время существования сайта, откуда остальные запросы взяты? С кем-либо спорить и что-то доказывать нет особой нужды и такого интереса, но вот узнать построение вашей логики было бы интересно, поскольку я подобное делал без всяких запросов и всё прекрасно работало на весьма примитивной логике без каких-либо серьезных нагрузок (посещаемость здесь не при чем, проверку вообще можно вкл./выкл. сделать).

Но суть не в этом. В этой теме я нигде не написал, что автор темы не прав. Почему? Прочитайте о чем идет речь в этой теме, она идет совсем о другом.

Разве? - ТС, как и я, и другие пишет, что страница доступна по адресу, которого нет, точнее по разным несуществующим адресам (не хочу вдаваться в философию о ЧПУ, поскольку каждый все равно со своей колокольни смотрит):

ещё заметил что подкатегории(podkategory) в основной категории(category) доступны по адресу site.ru/podkategory/, хотя должны быть только site.ru/category/podkategory/. Отсюда опять дубли страниц.

Поэтому 2 лагеря: одни "за" баг, другие - "против" (багом это не считают).

Впрочем, я уже давно понял, что это как-либо исправляться не будет, поэтому стою в сторонке, кто заказывает исправления, пишу под заказ.

"Жираф большой, ему видней" (Высоцкий). Ну, спорить или что-то доказывать смысла нет, все равно все будут при своем :)

Ссылка на сообщение
Поделиться на других сайтах

Разве? - ТС, как и я, и другие пишет, что страница доступна по адресу, которого нет, точнее по разным несуществующим адресам (не хочу вдаваться в философию о ЧПУ, поскольку каждый все равно со своей колокольни смотрит):

Представьте себе разве, тс пишет о другом. Прочитайте первое сообщение топика, не увидели разницы, прочитайте еще раз, и т.д. пока не увидите.

Поэтому 2 лагеря: одни "за" баг, другие - "против" (багом это не считают).

про категории и я багом не считаю, но основная эта тема о другом.

Я написал про один разовый запрос, который может быть вообще 1 за всё время существования сайта, откуда остальные запросы взяты? С кем-либо спорить и что-то доказывать нет особой нужды и такого интереса, но вот узнать построение вашей логики было бы интересно, поскольку я подобное делал без всяких запросов и всё прекрасно работало на весьма примитивной логике без каких-либо серьезных нагрузок (посещаемость здесь не при чем, проверку вообще можно вкл./выкл. сделать).

Правильно, зачем спорить, куда уж нам простым смертным. Давайте просто ссылку на то что вы делали подобное, я вам наглядно продемонстрирую как ваш алгоритм не работает, и успешно отправлю в поисковик два разных адреса с одинаковой страницей и получу утвердительный ответ от поисковика что спасибо за адреса мы приняли их к рассмотрению. Это просто вы по наивности думаете что у вас работает, видимо не представляете даже какими могуть быть URL и проверить все абсолютно невозможно. А теперь ответьте на вопрос, зачем заниматься глупыми алгоритмами от которых никакого толку, да и никак и ни в коей мере не может отразиться на поисковиках, потому что они намного умнее чем вы о них думаете, и подписать и подредактировать вручную можно любой URL, на любом сайте, но он никогда от этого не попадет в индекс поисковика.

Если честно я устал от подобных тем каждый год, зачем тогда вообще писать, если у вас один ответ на все: "С кем-либо спорить и что-то доказывать нет особой нужды". Это делает ваши сообщения полностью бессмысленными.

Ссылка на сообщение
Поделиться на других сайтах

А ведь действительно, к любому url можно добавить любую лишнюю переменную, и для индекса это будут разные страницы с одинаковым содержанием. И проверить все варианты либо невозможно, либо трудоемко. Тогда также не имеет смысла проверять различные варианты написания ЧПУ.

celsoft, я правильно понял?

А что касается вопроса про "/page/1/", то выходит, что здесь есть два решения:

- исключить дубли в robots.txt - это можно сделать уже сейчас;

- внести исправления в движок - тут ждем следующего обновления.

Надеюсь и здесь я не ошибаюсь.

Вообще проблемы дублированных страниц одного сайта похоже слишком раздуты или неверно воспринимаются. Я имею ввиду то, что штрафы ПС могут быть наложены только в случае "неприлично большого" количества одинаковых страниц. Сколько это "неприлично большого" никто не знает. Но, думаю, что наличие 2-3 одинаковых страниц не критично.

Ссылка на сообщение
Поделиться на других сайтах

А что касается вопроса про "/page/1/", то выходит, что здесь есть два решения:

- внести исправления в движок - тут ждем следующего обновления.

в новом релизе будет внесено

А ведь действительно, к любому url можно добавить любую лишнюю переменную, и для индекса это будут разные страницы с одинаковым содержанием. И проверить все варианты либо невозможно, либо трудоемко. Тогда также не имеет смысла проверять различные варианты написания ЧПУ.

celsoft, я правильно понял?

абсолютно верно.

Ссылка на сообщение
Поделиться на других сайтах

Но, думаю, что наличие 2-3 одинаковых страниц не критично.

Насчет 2-3 страниц вы ошибаетесь. Дубли Возникнут там, где есть вообще какая-либо навигация. Это дубль главной, дубль каждой категории, подкатегории, дубль календаря, тегов, комментариев и т.д... В календаре дубли возникают ЕЖЕДНЕВНО, я писал выше с примером в индексе гугл.

Изменено пользователем zhekamur
Ссылка на сообщение
Поделиться на других сайтах

Я имел ввиду в общем случае, то есть не применительно к дле.

К тому же то, что вы перечислили - это все разные дубли разных страниц. Тогда как я говорил про количество дублей одной отдельно взятой страницы. То есть имеются две копии главной страницы, две копии категории и так далее.

Ссылка на сообщение
Поделиться на других сайтах
  • 3 недели спустя...

а какая разница? Нам же только page отсечь надо, а так вы отсекаете любые страницы, которые на page заканчиваются... Например mainpage... хотя поидее в скрипте таких страниц нет, так что без разницы...

Ссылка на сообщение
Поделиться на других сайтах

Ну, отсекаются не страницы, а содержимое каталогов. А смысл правки вот в чем - "*" может означать и отсутствие символа, что в вашем варианте будет соответствовать "//page/1/". Тогда получается, что запрет индексации для директории "www.site.ru/page/1/" просто не сработает. По-моему так.

Ссылка на сообщение
Поделиться на других сайтах

Тогда получается, что запрет индексации для директории "www.site.ru/page/1/" просто не сработает.

Сработает. Чтобы все вложения сработали, начиная от корня и глубже нужно так:

Disallow: /*page/1/

Первый слеш означает "от корня", а "звезда" - во всех вложениях, т.е.:

Disallow: /page/1/

Disallow: /cat/page/1/

Disallow: /cat/cat2/page/1/

...

Если проверять альт_нейм в скрипте хотя бы, то вообще супер для начала, а то /1-bla-bla.html всегда грузит страницу с контентом новости с айд=1, где bla-bla может быть все что угодно: адреса разные, а контент один. Надеюсь, хотя бы это исправят - уже дублей меньше будет :)

Изменено пользователем zgr
Ссылка на сообщение
Поделиться на других сайтах

Присоединяйтесь к обсуждению

Вы можете опубликовать сообщение сейчас, а зарегистрироваться позже. Если у вас есть аккаунт, войдите в него для написания от своего имени.

Гость
Ответить в тему...

×   Вставлено в виде отформатированного текста.   Вставить в виде обычного текста

  Разрешено не более 75 эмодзи.

×   Ваша ссылка была автоматически встроена.   Отобразить как ссылку

×   Ваш предыдущий контент был восстановлен.   Очистить редактор

×   Вы не можете вставить изображения напрямую. Загрузите или вставьте изображения по ссылке.

×
×
  • Создать...