Перейти к публикации

Рекомендованные сообщения

Всем привет, вот такой вопрос, яша индексит много лишнего, что естественно ведёт к медленой индексации сайта. ешить это можно посредством robots.txt, собственно вопрос, как правильно его составить, скажем для DLE 6.5 вот мой пример

User-agent: *

Disallow: /admin.php

Disallow: /index.php?do=pm

Disallow: /index.php?do=search

Disallow: /index.php?do=register

Disallow: /index.php?do=feedback

Disallow: /index.php?do=lostpassword

Disallow: /engine/

Disallow: /templates/

Disallow: /language/

Disallow: /register.html

Disallow: /feedback.html

Disallow: /lostpassword.html

Host: сайт.ru

Также рекомендуют включать ещё и

Disallow: /user/

но думаю это не правильно так как мы теряем ПР и Виц особенно если один пользователь создал множество новостей, напремер у меня страница профиля имеет ПР 2 что есть гуд так как этот вес передаётся на морду.

У кого какие мысли по этому поводу, тема уже подымалась но раскрыта не была

Ссылка на сообщение
Поделиться на других сайтах

apache,

никакого robots.txt не нужно создавать для DLE.

Все, что не надо, уже давно запрещено!!!!

Зачем выдумывать что то новое?

Ссылка на сообщение
Поделиться на других сайтах

apache,

никакого robots.txt не нужно создавать для DLE.

Все, что не надо, уже давно запрещено!!!!

Зачем выдумывать что то новое?

Категорически с вам не согласен. У меня 3500 ссылок через leech. Яндекс обалдел от этого, закрыл папку /engine/ через роботс и все стало нормально.

И таких вещей куча. Топикстартер правильно сказал. Но я бы лично еще закрыл папку /user/. Есть пользователи, которые регистрируются и в поле о себе вставляют рекламу своих сайтов, собственно они только для этого и регистрируются. Потом дают с другого сервера ссылку на свой профайл, чтоб робот их ссылки проиндексировал. Далее, я бы не запрещал

Disallow: /index.php?do=search

Disallow: /index.php?do=register

Disallow: /index.php?do=feedback

Disallow: /index.php?do=lostpassword

Disallow: /register.html

Disallow: /feedback.html

Disallow: /lostpassword.html

И сделал бы Host: www.site.ru

Ссылка на сообщение
Поделиться на других сайтах

Есть пользователи, которые регистрируются и в поле о себе вставляют рекламу своих сайтов, собственно они только для этого и регистрируются. Потом дают с другого сервера ссылку на свой профайл, чтоб робот их ссылки проиндексировал

Так в профиле пользователя можно поставить тег <noindex> и проблема должна быть решена...

<br />Немного о себе:<br /><noindex>{info}</noindex>

Изменено пользователем kosen
Ссылка на сообщение
Поделиться на других сайтах

Есть пользователи, которые регистрируются и в поле о себе вставляют рекламу своих сайтов

а не проще вырезать ссылки из профиля?..

Ссылка на сообщение
Поделиться на других сайтах

·• Greeze •·,

Не думаю...

Если пользователей много - то на это уйдёт куча времени... или надо делать хак...

Ссылка на сообщение
Поделиться на других сайтах

<noindex> Яндексу не позволит индексировать, а гугл будет нормально ходить по этим ссылкам... В любом случае, там нет сколь-нибудь ценной информации для поисковиков, я закрыл user полностью.

Есть пользователи, которые регистрируются и в поле о себе вставляют рекламу своих сайтов

а не проще вырезать ссылки из профиля?..

Это как это? Не понял вашей мысли...

Если имеется ввиду ручное удаление, то я 18000 пользователей редактировать не собираюсь. Можно через phpmyadmin удалить все http:// из таблицы dle_user Но проще через роботс все закрыть и не париться.

Изменено пользователем Danila
Ссылка на сообщение
Поделиться на других сайтах

не ручное.

надо сделать хак, который не будет обрабатывать [url=] в профиле.

проще тогда один запрос в phpmyadmin сделать или через роботос закрыть.

Ссылка на сообщение
Поделиться на других сайтах

Возник вопрос, может кто знает...

Как одним махом закрыть все урлы, например такие:

/index.php?do=

Можно, например, как-то вписать

Disallow: /index.php?do=*

Или как-то подругому?

Ссылка на сообщение
Поделиться на других сайтах

буга-га вы видели свои подписи???

robotstxt.org.ru

здесь хорошо всё объяснено

а урл из профиля лучше вырезать - надо всего пару строк из файла удалить и всё, закрывать же индексирование профилей - имхо полная чушь

Ссылка на сообщение
Поделиться на других сайтах
  • 11 месяцев спустя...

Поисковики находят страницы на сайте, которые для распечатки текста. Например эту http://digest-news.ru/print:page,1,4-kak-p...30-tysjach.html

Что указать в robots.txt , чтобы закрыть к индексации такие страницы?

Ссылка на сообщение
Поделиться на других сайтах

Хочу более сузить вопрос. Мне нужно, чтобы индексировались ТОЛЬКО страницы с контентом полной новости. Вот такие: http://digest-news.ru/616-socialnye-seti-z...osli-vdvoe.html

Все остальное (служебные разделы, принты, категории новостей и т.д. и т.п.) чтобы закрыть. Как это грамотно прописать в robots.txt ? Много перерыл информации по этому вопросу, но конкретным применением к данному движку я не владею. Заранее благодарю за ответ. :)

Изменено пользователем Neoman
Ссылка на сообщение
Поделиться на других сайтах

Возник вопрос, может кто знает...

Как одним махом закрыть все урлы, например такие:

/index.php?do=

Можно, например, как-то вписать

Disallow: /index.php?do=*

Или как-то подругому?

Disallow: /index.php?*

Ссылка на сообщение
Поделиться на других сайтах

Вопросик снова возник такой.

сайт www.digest-news.ru

Я сделал такой robots.txt

User-agent: *

Disallow: /templates/

Disallow: /engine/

Disallow: /language/

Disallow: /*print*

Disallow: /index.php?

Disallow: /obschestvo/

Disallow: /money/

Disallow: /proisshestviya/

Disallow: /technologies/

Disallow: /zdorovie/

Disallow: /culture/

Disallow: /nauka/

Disallow: /sport/

Disallow: /auto/

Disallow: /tourizm/

Disallow: /nedvizh/

Disallow: /kaleidoskop/

Disallow: /polezno/

Disallow: /moda/

Disallow: /tags/

Disallow: /user/

Disallow: /page/

Disallow: /favorites/

Таким образом я закрыл все ненужные страницы. Есть только доступ к страницам с полными новостями, т.е. то, что мне и нужно. Есть хорошие сервисы для этих дел http://webmaster.yandex.ru/wmconsole/public_robots_txt.xml и https://www.google.com/webmasters/tools/rob...ru%2F&hl=ru

И в этих сервисах я проверил, что запрещены все страницы, кроме контента полной новости. Но, меня смущает одна деталь. Доступ с главной страницы к полным новостям получается проходит через страницы, которые я закрыл. Так вот вопрос. Скажется ли это коим-нибудь образом на индексации страниц с полными новостями. Или раз яндекс и гугл говорят, что страница разрешена для индексирования, то неважны ссылки на них с главной страницы. Вот такая дилемма. :) Спрашиваю у асов, т.к. вопрос серьезный.

Ссылка на сообщение
Поделиться на других сайтах

еще вопрос по поисковой оптимизации:

не навредят ли индекцации тэги, ведь у них ссылки имеют вид - сайт.ру/tags/%F5%E0%EB%FF%E2%E0/

может их тоже запретить в роботс.тхт?

Ссылка на сообщение
Поделиться на других сайтах

Присоединяйтесь к обсуждению

Вы можете опубликовать сообщение сейчас, а зарегистрироваться позже. Если у вас есть аккаунт, войдите в него для написания от своего имени.

Гость
Ответить в тему...

×   Вставлено в виде отформатированного текста.   Вставить в виде обычного текста

  Разрешено не более 75 эмодзи.

×   Ваша ссылка была автоматически встроена.   Отобразить как ссылку

×   Ваш предыдущий контент был восстановлен.   Очистить редактор

×   Вы не можете вставить изображения напрямую. Загрузите или вставьте изображения по ссылке.

×
×
  • Создать...