Перейти к публикации

НЕБОЛЬШОЙ БАГ


zhekamur

Рекомендованные сообщения

сайт verstov.info.

Хочу рассказать о багах, которые переходят от версии к версии:

В категориях появляются дубли страниц, что неприятно для поисковиков, особенно если категорий много. Состоит в следующем:

При навигации скриптом создаются страницы вида /категория/page/1/, должно просто: /категория/. Ведь /page/1/ и /категория/ это одно и тоже. На главной повторяется тоже самое! Появляются опять /page/1/... Зачем, ведь это и есть гланая?

ещё заметил что подкатегории(podkategory) в основной категории(category) доступны по адресу site.ru/podkategory/, хотя должны быть только

site.ru/category/podkategory/. Отсюда опять дубли страниц.

Ссылка на сообщение
Поделиться на других сайтах

Эти дубли появятся в индексе поисковиков, только если вы сами укажите им на них. Не пишите на сайте левых ссылок и дублей не будет.

PS: научитесь пользоваться поиском, эта тема тут уже раз 100 поднималась.

Ссылка на сообщение
Поделиться на других сайтах

"Сами укажите им на них"??? Они СОЗДАЮТСЯ СКРИПТОМ и ссылки на них появляются если перейти на вторую страницу!! ЭТО БАГ!! Как это можно отрицать? Тем более, если темы уже ни раз поднимались! при переходе на site/page/2/ появляется ссылка на site/page/1/ -это дубль главной.В категориях тоже самое. ЭТО 100% дубли. Это действительно баг и если вам говорят о багах вы должны прислушиваться к этому, а не научитесь и прочее...

В календаре тоже самое, посмотрите в гугл:

Для примера:

free-get.ru/2009/05/18/page/1/

free-get.ru/2009/05/29/page/1/

free-get.ru/2009/05/27/page/1/

free-get.ru/2009/05/15/page/1/

free-get.ru/2009/05/13/page/1/

free-get.ru/2009/05/25/page/1/

И так за КАЖДОЕ число и все эти дубли В ИНДЕКСЕ!!

Пожалуйста, передайте программистам и скажите спасибо. это баг.

Ссылка на сообщение
Поделиться на других сайтах

Disallow: /*/page/1/

Запретит к индексации всё, что заканчивается на page/1/

Например:

site.ru/2009/05/18/page/1/

site.ru/page/1/

и тд.

PS: к движку это не имеет никакого отношения и это присутствует во всех движках без исключения. Тут всё зависит только от знаний директив robots.txt

Ссылка на сообщение
Поделиться на других сайтах

на самом деле это несложно исправить в программной части. А запретить в роботс можно всё что угодно.

PS: к движку это не имеет никакого отношения и это присутствует во всех движках без исключения. Тут всё зависит только от знаний директив robots.txt

ясно. А почему вы так не сделали на собственном сайте??

Ссылка на сообщение
Поделиться на других сайтах

ясно. А почему вы так не сделали на собственном сайте??

На 2ом сделал, первым я уже давно не занимаюсь. А раньше просто как-то не думал об этом...

И при этом поисковики повыкинули все эти дубли, а оставили только оригиналы... так что ничего встрашного поидее нет...

Ссылка на сообщение
Поделиться на других сайтах

Сей недочет исправить можно, к тоже там кода очень мало, код даже есть готовый, предлагал, но Целсофт этого исправлять не будет, хоть застрелитесь :D и багом это тоже никто никогда не признает, хотя я тоже абсолютно уверен - это баг, - любая система должна иметь элементарный обработчик ошибок пользователей, а не исполнять их :D

Ссылка на сообщение
Поделиться на других сайтах

но Целсофт этого исправлять не будет, хоть застрелитесь

на основе чего сделано подобное утверждение?

Ссылка на сообщение
Поделиться на других сайтах

PS: к движку это не имеет никакого отношения и это присутствует во всех движках без исключения. Тут всё зависит только от знаний директив robots.txt

Ничего подобного. Если посмотреть на сервисы wordpress и blogspot или на движок wordpress, то при навигации ссылка на первую страницу всегда будет указывать в корень сайта (каталога).

Ссылка на сообщение
Поделиться на других сайтах

Тут всё зависит только от знаний директив robots.txt

Сам по себе подход неверен, вам же в магазине по продаже телевизоров не будут объяснять, что каждый канал должен вручную настраиваться, вилка к теле на базаре продается, а пульт в соседнем супермаркете? Все должно уже быть настроенным и работать при включении ;)

но Целсофт этого исправлять не будет, хоть застрелитесь

на основе чего сделано подобное утверждение?

Ну, на основе того, что пользователи разделились на два лагеря: одни "за" баг, другие - "против". Как-то подобную ветку уже создавал.

Я прекрасно понимаю, что скрипт ничего не генерирует сам и все ссылки ставятся в модулях, в ЧПУ и т.д., но вполне очевидно, что если категории/страницы нет, то должна быть ошибка, либо редирект на правильную категорию/страницу и новости ни в коем случае не должны быть доступны в разных путях (ссылаться на кривые руки, модули и т.д. - неверный путь, все равно, что продать телевизор, а потом сослаться на двухсотстраничную эксплуатацию, мол, читайте и неделю-другую делайте всё по инструкции правильно - абсурд же :D Сейчас любой гаджет купил-включил-работаешь...).

Решается эта проблема банально просто: собираем все категории в многоуровневую кучу одним запросом в БД разово при редактировании категорий и кидаем в кеш, далее проверяем адрес на который зашли - хоть с ЧПУ, хоть без можно так проверить правильность пути, если путь неверен, то отредиректить на правильный путь и, думается, подобные темы в будущем уже создаваться не будут. Никакой нагрузки совершенно нет.

Ссылка на сообщение
Поделиться на других сайтах

Ну, на основе того, что пользователи разделились на два лагеря: одни "за" баг, другие - "против". Как-то подобную ветку уже создавал.

А теперь найдите ветку, которую вы создавали и сравните с этой, и найдите принципиальные различия.

но вполне очевидно, что если категории/страницы нет, то должна быть ошибка,

Вы наверное сейчас удивитесь, но если страницы или категории нет, то скрипт отдает 404 ошибку поисковикам.

(ссылаться на кривые руки, модули и т.д. - неверный путь, все равно, что продать телевизор, а потом сослаться на двухсотстраничную эксплуатацию, мол, читайте и неделю-другую делайте всё по инструкции правильно - абсурд же Сейчас любой гаджет купил-включил-работаешь...).

Извините но если кривые руки то тут ничего не поможет, можно и телевизор воткнуть в розетку на 380 вольт, а потом возмущаться почему он дымит а не работает, и зачем читать инструкцию, что его номинальное напряжение 220 вольт.

Решается эта проблема банально просто: собираем все категории в многоуровневую кучу одним запросом в БД разово при редактировании категорий и кидаем в кеш, далее проверяем адрес на который зашли - хоть с ЧПУ, хоть без можно так проверить правильность пути, если путь неверен, то отредиректить на правильный путь и, думается, подобные темы в будущем уже создаваться не будут. Никакой нагрузки совершенно нет.

ну да лишние полмиллиона запросов к БД в день, это совсем не нагрузка, это же мелочи. Не судите по своему сайту с 10 посетителями, есть сайты где более полумиллиона обращений в сутки. Запомните раз и навсегда, я на любом сайте, на любом движке могу дописать что угодно к URL и он будет отображаться по двум адресам, его родному и тому что я допишу. Повторю еще раз на любом сайте, на любом движке, даже на если он просто на HTML и поисковиков это будут два разных адреса. И я это на форуме уже неоднократно демонстрировал как это делается.

Но суть не в этом. В этой теме я нигде не написал, что автор темы не прав. Почему? Прочитайте о чем идет речь в этой теме, она идет совсем о другом.

Ссылка на сообщение
Поделиться на других сайтах

ну да лишние полмиллиона запросов к БД в день, это совсем не нагрузка, это же мелочи.

Я написал про один разовый запрос, который может быть вообще 1 за всё время существования сайта, откуда остальные запросы взяты? С кем-либо спорить и что-то доказывать нет особой нужды и такого интереса, но вот узнать построение вашей логики было бы интересно, поскольку я подобное делал без всяких запросов и всё прекрасно работало на весьма примитивной логике без каких-либо серьезных нагрузок (посещаемость здесь не при чем, проверку вообще можно вкл./выкл. сделать).

Но суть не в этом. В этой теме я нигде не написал, что автор темы не прав. Почему? Прочитайте о чем идет речь в этой теме, она идет совсем о другом.

Разве? - ТС, как и я, и другие пишет, что страница доступна по адресу, которого нет, точнее по разным несуществующим адресам (не хочу вдаваться в философию о ЧПУ, поскольку каждый все равно со своей колокольни смотрит):

ещё заметил что подкатегории(podkategory) в основной категории(category) доступны по адресу site.ru/podkategory/, хотя должны быть только site.ru/category/podkategory/. Отсюда опять дубли страниц.

Поэтому 2 лагеря: одни "за" баг, другие - "против" (багом это не считают).

Впрочем, я уже давно понял, что это как-либо исправляться не будет, поэтому стою в сторонке, кто заказывает исправления, пишу под заказ.

"Жираф большой, ему видней" (Высоцкий). Ну, спорить или что-то доказывать смысла нет, все равно все будут при своем :)

Ссылка на сообщение
Поделиться на других сайтах

Разве? - ТС, как и я, и другие пишет, что страница доступна по адресу, которого нет, точнее по разным несуществующим адресам (не хочу вдаваться в философию о ЧПУ, поскольку каждый все равно со своей колокольни смотрит):

Представьте себе разве, тс пишет о другом. Прочитайте первое сообщение топика, не увидели разницы, прочитайте еще раз, и т.д. пока не увидите.

Поэтому 2 лагеря: одни "за" баг, другие - "против" (багом это не считают).

про категории и я багом не считаю, но основная эта тема о другом.

Я написал про один разовый запрос, который может быть вообще 1 за всё время существования сайта, откуда остальные запросы взяты? С кем-либо спорить и что-то доказывать нет особой нужды и такого интереса, но вот узнать построение вашей логики было бы интересно, поскольку я подобное делал без всяких запросов и всё прекрасно работало на весьма примитивной логике без каких-либо серьезных нагрузок (посещаемость здесь не при чем, проверку вообще можно вкл./выкл. сделать).

Правильно, зачем спорить, куда уж нам простым смертным. Давайте просто ссылку на то что вы делали подобное, я вам наглядно продемонстрирую как ваш алгоритм не работает, и успешно отправлю в поисковик два разных адреса с одинаковой страницей и получу утвердительный ответ от поисковика что спасибо за адреса мы приняли их к рассмотрению. Это просто вы по наивности думаете что у вас работает, видимо не представляете даже какими могуть быть URL и проверить все абсолютно невозможно. А теперь ответьте на вопрос, зачем заниматься глупыми алгоритмами от которых никакого толку, да и никак и ни в коей мере не может отразиться на поисковиках, потому что они намного умнее чем вы о них думаете, и подписать и подредактировать вручную можно любой URL, на любом сайте, но он никогда от этого не попадет в индекс поисковика.

Если честно я устал от подобных тем каждый год, зачем тогда вообще писать, если у вас один ответ на все: "С кем-либо спорить и что-то доказывать нет особой нужды". Это делает ваши сообщения полностью бессмысленными.

Ссылка на сообщение
Поделиться на других сайтах

А ведь действительно, к любому url можно добавить любую лишнюю переменную, и для индекса это будут разные страницы с одинаковым содержанием. И проверить все варианты либо невозможно, либо трудоемко. Тогда также не имеет смысла проверять различные варианты написания ЧПУ.

celsoft, я правильно понял?

А что касается вопроса про "/page/1/", то выходит, что здесь есть два решения:

- исключить дубли в robots.txt - это можно сделать уже сейчас;

- внести исправления в движок - тут ждем следующего обновления.

Надеюсь и здесь я не ошибаюсь.

Вообще проблемы дублированных страниц одного сайта похоже слишком раздуты или неверно воспринимаются. Я имею ввиду то, что штрафы ПС могут быть наложены только в случае "неприлично большого" количества одинаковых страниц. Сколько это "неприлично большого" никто не знает. Но, думаю, что наличие 2-3 одинаковых страниц не критично.

Ссылка на сообщение
Поделиться на других сайтах

А что касается вопроса про "/page/1/", то выходит, что здесь есть два решения:

- внести исправления в движок - тут ждем следующего обновления.

в новом релизе будет внесено

А ведь действительно, к любому url можно добавить любую лишнюю переменную, и для индекса это будут разные страницы с одинаковым содержанием. И проверить все варианты либо невозможно, либо трудоемко. Тогда также не имеет смысла проверять различные варианты написания ЧПУ.

celsoft, я правильно понял?

абсолютно верно.

Ссылка на сообщение
Поделиться на других сайтах

Но, думаю, что наличие 2-3 одинаковых страниц не критично.

Насчет 2-3 страниц вы ошибаетесь. Дубли Возникнут там, где есть вообще какая-либо навигация. Это дубль главной, дубль каждой категории, подкатегории, дубль календаря, тегов, комментариев и т.д... В календаре дубли возникают ЕЖЕДНЕВНО, я писал выше с примером в индексе гугл.

Ссылка на сообщение
Поделиться на других сайтах

Я имел ввиду в общем случае, то есть не применительно к дле.

К тому же то, что вы перечислили - это все разные дубли разных страниц. Тогда как я говорил про количество дублей одной отдельно взятой страницы. То есть имеются две копии главной страницы, две копии категории и так далее.

Ссылка на сообщение
Поделиться на других сайтах
  • 3 недели спустя...

а какая разница? Нам же только page отсечь надо, а так вы отсекаете любые страницы, которые на page заканчиваются... Например mainpage... хотя поидее в скрипте таких страниц нет, так что без разницы...

Ссылка на сообщение
Поделиться на других сайтах

Ну, отсекаются не страницы, а содержимое каталогов. А смысл правки вот в чем - "*" может означать и отсутствие символа, что в вашем варианте будет соответствовать "//page/1/". Тогда получается, что запрет индексации для директории "www.site.ru/page/1/" просто не сработает. По-моему так.

Ссылка на сообщение
Поделиться на других сайтах

Тогда получается, что запрет индексации для директории "www.site.ru/page/1/" просто не сработает.

Сработает. Чтобы все вложения сработали, начиная от корня и глубже нужно так:

Disallow: /*page/1/

Первый слеш означает "от корня", а "звезда" - во всех вложениях, т.е.:

Disallow: /page/1/

Disallow: /cat/page/1/

Disallow: /cat/cat2/page/1/

...

Если проверять альт_нейм в скрипте хотя бы, то вообще супер для начала, а то /1-bla-bla.html всегда грузит страницу с контентом новости с айд=1, где bla-bla может быть все что угодно: адреса разные, а контент один. Надеюсь, хотя бы это исправят - уже дублей меньше будет :)

Ссылка на сообщение
Поделиться на других сайтах

Архивировано

Эта тема находится в архиве и закрыта для публикации сообщений.

×
×
  • Создать...