НЕБОЛЬШОЙ БАГ

zhekamur · 8 октября 2010

сайт verstov.info.

Хочу рассказать о багах, которые переходят от версии к версии:

В категориях появляются дубли страниц, что неприятно для поисковиков, особенно если категорий много. Состоит в следующем:

При навигации скриптом создаются страницы вида /категория/page/1/, должно просто: /категория/. Ведь /page/1/ и /категория/ это одно и тоже. На главной повторяется тоже самое! Появляются опять /page/1/... Зачем, ведь это и есть гланая?

ещё заметил что подкатегории(podkategory) в основной категории(category) доступны по адресу site.ru/podkategory/, хотя должны быть только

site.ru/category/podkategory/. Отсюда опять дубли страниц.

FreeRider · 8 октября 2010

Эти дубли появятся в индексе поисковиков, только если вы сами укажите им на них. Не пишите на сайте левых ссылок и дублей не будет.

PS: научитесь пользоваться поиском, эта тема тут уже раз 100 поднималась.

zhekamur · 8 октября 2010

"Сами укажите им на них"??? Они СОЗДАЮТСЯ СКРИПТОМ и ссылки на них появляются если перейти на вторую страницу!! ЭТО БАГ!! Как это можно отрицать? Тем более, если темы уже ни раз поднимались! при переходе на site/page/2/ появляется ссылка на site/page/1/ -это дубль главной.В категориях тоже самое. ЭТО 100% дубли. Это действительно баг и если вам говорят о багах вы должны прислушиваться к этому, а не научитесь и прочее...

В календаре тоже самое, посмотрите в гугл:

Для примера:

free-get.ru/2009/05/18/page/1/

free-get.ru/2009/05/29/page/1/

free-get.ru/2009/05/27/page/1/

free-get.ru/2009/05/15/page/1/

free-get.ru/2009/05/13/page/1/

free-get.ru/2009/05/25/page/1/

И так за КАЖДОЕ число и все эти дубли В ИНДЕКСЕ!!

Пожалуйста, передайте программистам и скажите спасибо. это баг.

FreeRider · 8 октября 2010

Disallow: /*/page/1/

Запретит к индексации всё, что заканчивается на page/1/

Например:

site.ru/2009/05/18/page/1/

site.ru/page/1/

и тд.

PS: к движку это не имеет никакого отношения и это присутствует во всех движках без исключения. Тут всё зависит только от знаний директив robots.txt

zhekamur · 8 октября 2010

на самом деле это несложно исправить в программной части. А запретить в роботс можно всё что угодно.

PS: к движку это не имеет никакого отношения и это присутствует во всех движках без исключения. Тут всё зависит только от знаний директив robots.txt

ясно. А почему вы так не сделали на собственном сайте??

FreeRider · 9 октября 2010

ясно. А почему вы так не сделали на собственном сайте??

На 2ом сделал, первым я уже давно не занимаюсь. А раньше просто как-то не думал об этом...

И при этом поисковики повыкинули все эти дубли, а оставили только оригиналы... так что ничего встрашного поидее нет...

lepus · 9 октября 2010

Исправить это кажется действительно не сложно.

zgr · 9 октября 2010

Сей недочет исправить можно, к тоже там кода очень мало, код даже есть готовый, предлагал, но Целсофт этого исправлять не будет, хоть застрелитесь и багом это тоже никто никогда не признает, хотя я тоже абсолютно уверен - это баг, - любая система должна иметь элементарный обработчик ошибок пользователей, а не исполнять их

celsoft · 10 октября 2010

но Целсофт этого исправлять не будет, хоть застрелитесь

на основе чего сделано подобное утверждение?

lepus · 10 октября 2010

PS: к движку это не имеет никакого отношения и это присутствует во всех движках без исключения. Тут всё зависит только от знаний директив robots.txt

Ничего подобного. Если посмотреть на сервисы wordpress и blogspot или на движок wordpress, то при навигации ссылка на первую страницу всегда будет указывать в корень сайта (каталога).

zgr · 10 октября 2010

Тут всё зависит только от знаний директив robots.txt

Сам по себе подход неверен, вам же в магазине по продаже телевизоров не будут объяснять, что каждый канал должен вручную настраиваться, вилка к теле на базаре продается, а пульт в соседнем супермаркете? Все должно уже быть настроенным и работать при включении

но Целсофт этого исправлять не будет, хоть застрелитесь
на основе чего сделано подобное утверждение?

Ну, на основе того, что пользователи разделились на два лагеря: одни "за" баг, другие - "против". Как-то подобную ветку уже создавал.

Я прекрасно понимаю, что скрипт ничего не генерирует сам и все ссылки ставятся в модулях, в ЧПУ и т.д., но вполне очевидно, что если категории/страницы нет, то должна быть ошибка, либо редирект на правильную категорию/страницу и новости ни в коем случае не должны быть доступны в разных путях (ссылаться на кривые руки, модули и т.д. - неверный путь, все равно, что продать телевизор, а потом сослаться на двухсотстраничную эксплуатацию, мол, читайте и неделю-другую делайте всё по инструкции правильно - абсурд же Сейчас любой гаджет купил-включил-работаешь...).

Решается эта проблема банально просто: собираем все категории в многоуровневую кучу одним запросом в БД разово при редактировании категорий и кидаем в кеш, далее проверяем адрес на который зашли - хоть с ЧПУ, хоть без можно так проверить правильность пути, если путь неверен, то отредиректить на правильный путь и, думается, подобные темы в будущем уже создаваться не будут. Никакой нагрузки совершенно нет.

lepus · 10 октября 2010

На мой взгляд адреса с ЧПУ обязательно надо проверять.

celsoft · 10 октября 2010

Ну, на основе того, что пользователи разделились на два лагеря: одни "за" баг, другие - "против". Как-то подобную ветку уже создавал.

А теперь найдите ветку, которую вы создавали и сравните с этой, и найдите принципиальные различия.

но вполне очевидно, что если категории/страницы нет, то должна быть ошибка,

Вы наверное сейчас удивитесь, но если страницы или категории нет, то скрипт отдает 404 ошибку поисковикам.

(ссылаться на кривые руки, модули и т.д. - неверный путь, все равно, что продать телевизор, а потом сослаться на двухсотстраничную эксплуатацию, мол, читайте и неделю-другую делайте всё по инструкции правильно - абсурд же Сейчас любой гаджет купил-включил-работаешь...).

Извините но если кривые руки то тут ничего не поможет, можно и телевизор воткнуть в розетку на 380 вольт, а потом возмущаться почему он дымит а не работает, и зачем читать инструкцию, что его номинальное напряжение 220 вольт.

Решается эта проблема банально просто: собираем все категории в многоуровневую кучу одним запросом в БД разово при редактировании категорий и кидаем в кеш, далее проверяем адрес на который зашли - хоть с ЧПУ, хоть без можно так проверить правильность пути, если путь неверен, то отредиректить на правильный путь и, думается, подобные темы в будущем уже создаваться не будут. Никакой нагрузки совершенно нет.

ну да лишние полмиллиона запросов к БД в день, это совсем не нагрузка, это же мелочи. Не судите по своему сайту с 10 посетителями, есть сайты где более полумиллиона обращений в сутки. Запомните раз и навсегда, я на любом сайте, на любом движке могу дописать что угодно к URL и он будет отображаться по двум адресам, его родному и тому что я допишу. Повторю еще раз на любом сайте, на любом движке, даже на если он просто на HTML и поисковиков это будут два разных адреса. И я это на форуме уже неоднократно демонстрировал как это делается.

Но суть не в этом. В этой теме я нигде не написал, что автор темы не прав. Почему? Прочитайте о чем идет речь в этой теме, она идет совсем о другом.

zgr · 10 октября 2010

ну да лишние полмиллиона запросов к БД в день, это совсем не нагрузка, это же мелочи.

Я написал про один разовый запрос, который может быть вообще 1 за всё время существования сайта, откуда остальные запросы взяты? С кем-либо спорить и что-то доказывать нет особой нужды и такого интереса, но вот узнать построение вашей логики было бы интересно, поскольку я подобное делал без всяких запросов и всё прекрасно работало на весьма примитивной логике без каких-либо серьезных нагрузок (посещаемость здесь не при чем, проверку вообще можно вкл./выкл. сделать).

Но суть не в этом. В этой теме я нигде не написал, что автор темы не прав. Почему? Прочитайте о чем идет речь в этой теме, она идет совсем о другом.

Разве? - ТС, как и я, и другие пишет, что страница доступна по адресу, которого нет, точнее по разным несуществующим адресам (не хочу вдаваться в философию о ЧПУ, поскольку каждый все равно со своей колокольни смотрит):

ещё заметил что подкатегории(podkategory) в основной категории(category) доступны по адресу site.ru/podkategory/, хотя должны быть только site.ru/category/podkategory/. Отсюда опять дубли страниц.

Поэтому 2 лагеря: одни "за" баг, другие - "против" (багом это не считают).

Впрочем, я уже давно понял, что это как-либо исправляться не будет, поэтому стою в сторонке, кто заказывает исправления, пишу под заказ.

"Жираф большой, ему видней" (Высоцкий). Ну, спорить или что-то доказывать смысла нет, все равно все будут при своем

celsoft · 10 октября 2010

Разве? - ТС, как и я, и другие пишет, что страница доступна по адресу, которого нет, точнее по разным несуществующим адресам (не хочу вдаваться в философию о ЧПУ, поскольку каждый все равно со своей колокольни смотрит):

Представьте себе разве, тс пишет о другом. Прочитайте первое сообщение топика, не увидели разницы, прочитайте еще раз, и т.д. пока не увидите.

Поэтому 2 лагеря: одни "за" баг, другие - "против" (багом это не считают).

про категории и я багом не считаю, но основная эта тема о другом.

Я написал про один разовый запрос, который может быть вообще 1 за всё время существования сайта, откуда остальные запросы взяты? С кем-либо спорить и что-то доказывать нет особой нужды и такого интереса, но вот узнать построение вашей логики было бы интересно, поскольку я подобное делал без всяких запросов и всё прекрасно работало на весьма примитивной логике без каких-либо серьезных нагрузок (посещаемость здесь не при чем, проверку вообще можно вкл./выкл. сделать).

Правильно, зачем спорить, куда уж нам простым смертным. Давайте просто ссылку на то что вы делали подобное, я вам наглядно продемонстрирую как ваш алгоритм не работает, и успешно отправлю в поисковик два разных адреса с одинаковой страницей и получу утвердительный ответ от поисковика что спасибо за адреса мы приняли их к рассмотрению. Это просто вы по наивности думаете что у вас работает, видимо не представляете даже какими могуть быть URL и проверить все абсолютно невозможно. А теперь ответьте на вопрос, зачем заниматься глупыми алгоритмами от которых никакого толку, да и никак и ни в коей мере не может отразиться на поисковиках, потому что они намного умнее чем вы о них думаете, и подписать и подредактировать вручную можно любой URL, на любом сайте, но он никогда от этого не попадет в индекс поисковика.

Если честно я устал от подобных тем каждый год, зачем тогда вообще писать, если у вас один ответ на все: "С кем-либо спорить и что-то доказывать нет особой нужды". Это делает ваши сообщения полностью бессмысленными.

lepus · 11 октября 2010

А ведь действительно, к любому url можно добавить любую лишнюю переменную, и для индекса это будут разные страницы с одинаковым содержанием. И проверить все варианты либо невозможно, либо трудоемко. Тогда также не имеет смысла проверять различные варианты написания ЧПУ.

celsoft, я правильно понял?

А что касается вопроса про "/page/1/", то выходит, что здесь есть два решения:

- исключить дубли в robots.txt - это можно сделать уже сейчас;

- внести исправления в движок - тут ждем следующего обновления.

Надеюсь и здесь я не ошибаюсь.

Вообще проблемы дублированных страниц одного сайта похоже слишком раздуты или неверно воспринимаются. Я имею ввиду то, что штрафы ПС могут быть наложены только в случае "неприлично большого" количества одинаковых страниц. Сколько это "неприлично большого" никто не знает. Но, думаю, что наличие 2-3 одинаковых страниц не критично.

celsoft · 11 октября 2010

А что касается вопроса про "/page/1/", то выходит, что здесь есть два решения:

- внести исправления в движок - тут ждем следующего обновления.

в новом релизе будет внесено

А ведь действительно, к любому url можно добавить любую лишнюю переменную, и для индекса это будут разные страницы с одинаковым содержанием. И проверить все варианты либо невозможно, либо трудоемко. Тогда также не имеет смысла проверять различные варианты написания ЧПУ.

celsoft, я правильно понял?

абсолютно верно.

zhekamur · 11 октября 2010

Но, думаю, что наличие 2-3 одинаковых страниц не критично.

Насчет 2-3 страниц вы ошибаетесь. Дубли Возникнут там, где есть вообще какая-либо навигация. Это дубль главной, дубль каждой категории, подкатегории, дубль календаря, тегов, комментариев и т.д... В календаре дубли возникают ЕЖЕДНЕВНО, я писал выше с примером в индексе гугл.

lepus · 11 октября 2010

Я имел ввиду в общем случае, то есть не применительно к дле.

К тому же то, что вы перечислили - это все разные дубли разных страниц. Тогда как я говорил про количество дублей одной отдельно взятой страницы. То есть имеются две копии главной страницы, две копии категории и так далее.

lepus · 2 ноября 2010

Цитата
Disallow: /*/page/1/

Может так правильнее:

Disallow: /*page/1/

?

FreeRider · 2 ноября 2010

а какая разница? Нам же только page отсечь надо, а так вы отсекаете любые страницы, которые на page заканчиваются... Например mainpage... хотя поидее в скрипте таких страниц нет, так что без разницы...

lepus · 2 ноября 2010

Ну, отсекаются не страницы, а содержимое каталогов. А смысл правки вот в чем - "*" может означать и отсутствие символа, что в вашем варианте будет соответствовать "//page/1/". Тогда получается, что запрет индексации для директории "www.site.ru/page/1/" просто не сработает. По-моему так.

FreeRider · 2 ноября 2010

хм, ну так да, я просто 2 раза прописал:

Disallow: /*/page/1/

Disallow: /page/1/

zgr · 2 ноября 2010

Тогда получается, что запрет индексации для директории "www.site.ru/page/1/" просто не сработает.

Сработает. Чтобы все вложения сработали, начиная от корня и глубже нужно так:

Disallow: /*page/1/

Первый слеш означает "от корня", а "звезда" - во всех вложениях, т.е.:

Disallow: /page/1/

Disallow: /cat/page/1/

Disallow: /cat/cat2/page/1/

...

Если проверять альт_нейм в скрипте хотя бы, то вообще супер для начала, а то /1-bla-bla.html всегда грузит страницу с контентом новости с айд=1, где bla-bla может быть все что угодно: адреса разные, а контент один. Надеюсь, хотя бы это исправят - уже дублей меньше будет

НЕБОЛЬШОЙ БАГ

Рекомендованные сообщения

zhekamur 0

Ссылка на сообщение

Поделиться на других сайтах

FreeRider 8

Ссылка на сообщение

Поделиться на других сайтах

zhekamur 0

Ссылка на сообщение

Поделиться на других сайтах

FreeRider 8

Ссылка на сообщение

Поделиться на других сайтах

zhekamur 0

Ссылка на сообщение

Поделиться на других сайтах

FreeRider 8

Ссылка на сообщение

Поделиться на других сайтах

lepus 1

Ссылка на сообщение

Поделиться на других сайтах

zgr 72

Ссылка на сообщение

Поделиться на других сайтах

celsoft 6242

Ссылка на сообщение

Поделиться на других сайтах

lepus 1

Ссылка на сообщение

Поделиться на других сайтах

zgr 72

Ссылка на сообщение

Поделиться на других сайтах

lepus 1

Ссылка на сообщение

Поделиться на других сайтах

celsoft 6242

Ссылка на сообщение

Поделиться на других сайтах

zgr 72

Ссылка на сообщение

Поделиться на других сайтах

celsoft 6242

Ссылка на сообщение

Поделиться на других сайтах

lepus 1

Ссылка на сообщение

Поделиться на других сайтах

celsoft 6242

Ссылка на сообщение

Поделиться на других сайтах

zhekamur 0

Ссылка на сообщение

Поделиться на других сайтах

lepus 1

Ссылка на сообщение

Поделиться на других сайтах

lepus 1

Ссылка на сообщение

Поделиться на других сайтах

FreeRider 8

Ссылка на сообщение

Поделиться на других сайтах

lepus 1

Ссылка на сообщение

Поделиться на других сайтах

FreeRider 8

Ссылка на сообщение

Поделиться на других сайтах

zgr 72

Ссылка на сообщение

Поделиться на других сайтах

Архивировано