Россияне! Горько! Очень горько пить чай без сахара!

Создаем файл Robots.txt

     Для чего нужен файл robots.txt? ...или как улучшить индексацию сайта!


Для того, чтобы поисковые роботы глубже проходили по вашему сайту, нужно:
во-первых, сделать файл robots.txt в корне сервера,
во-вторых, необходимо написать карту сайта со ссылками на все страницы, при чем ссылка на карту сайта должна быть с главной страницы,
в-третьих, при добавлении новой страницы нужно отображать это в новостях со ссылкой на нее,
в-четвертых, надо чаще обновлять сайт и страницы на нем,
в-пятых, все страницы сайта должны отдавать Last-Modified документов.

     Что такое файл robots.txt?


firewall Linux Если Вы Веб-мастер то должны знать, что все поисковые роботы при заходе на Ваш сайт в первую очередь ищут файл robots.txt. А если нет то знайте, что Файл robots.txt – это текстовый файл, находящийся в корневой директории сайта, в котором записываются специальные инструкции для поисковых роботов. Эти инструкции могут запрещать к индексации некоторые разделы или страницы на сайте, указывают на правильное «зеркалирование» домена, рекоммендуют поисковому роботу соблюдать определенный временной интервал между скачиванием документов с веб-сервера. Файл robots.txt должен называться именно так и не иначе, либо поисковые системы просто не будут обращать на него внимание. По своей сути файл robots.txt это простой текстовый файл. И если Вы не собираетесь создавать запреты к индексации, можно оставить текстовый файл robots.txt просто пустым. Файлы robots.txt, вложенные во внутренние каталоги сайта, поисковыми машинами просто игнорируются и для сайта не несут смысловую нагрузку.
И расположен файл robots.txt должен быть именно в корне сайта:
http://www.bestcatalog.hut4.ru/robots.txt #Пример расположения файла robots.txt

    Основные параметры robots.txt

При написании кода robots.txt всегда вводятся два параметра: User-Agent (имя поискового робота) и Disallow (имя папки/документа, который не будет индексироваться). Эти параметры являются свойствами файла robots.txt.

Параметр User-agent: * показывает, что свойство Disallow будет в равной мере применено ко всем поисковым системам.
Параметр Disallow: запрешает к индексации указанные директории
Каждая директория указываеся на отдельной строке, т. е. нельзя написать «Disallow: /cgi-bin/ /tmp/». Нельзя также разбивать одну инструкцию Disallow или User-agent на несколько строк, т.к. перенос строки используется для отделения инструкций друг от друга.

Запретить весь сайт для индексации всеми роботами

User-agent: *
Disallow: /

Как запредить индексацию ссылок в robots.txt

Можна дать конкретную инструкцию роботам, что именно не нужно индексировать, т. е. какую ссылку например:
Disallow: /catalog.php?url=http://itmemo.ru/&stat=1338439806&id=1338448196
Конкретная ссылка в моем каталоге, которую я запрещаю к индексации поисковым роботам.
Ну или весь раздел каталога до кучи:
Disallow: /catalog.php?id=1338448196 #Вот так
Пример создания файла robots.txt для WordPress, и ограничение индексации для отдельных каталогов, с использованием параметра Allow смотрите тут.
Ну это я для примера, ведь мой каталог белый и такими грязными трюками я не пользуюсь:) Все ссылки каталога открыты для индексации поисковыми роботами. Поэтому если вы свой интернет ресурс находите интересным, и что самое главное полезным для конечного пользователя, то милости прошу.

Как запредить индексацию ссылок для Yandex и Google


Яндекс решил однажды:) облегчить жизнь Веб-мастерам и дал возможность указать часть веб страницы, которую не нужно индексировать роботу Яндекса.
Для этого нужно заключить текст, не подлежащий индексированию, между тегами <noindex> и </noindex>.
Ну на пример отрывок кода:
Эй <noindex> <a href="http://soft-deev.blogspot.com/" >туда не ходи,</a> </noindex></br>
<a href="http://soft-deev.blogspot.com/2012/09/sos.html" >суда ходи</a> </br>
Снег башка попадет,</br>
Совсем мертвым будишь!
У Google есть свое понимание того, что хочет сказать веб-мастер:) а именно ссылки по которым он ходить не должен. Предположим, Вы не желаете, чтобы Googlebot следовал (follow) по определенной ссылке со страницы. Для этого можно в атрибуте rel тега <a> указать значение nofollow. По ссылкам с таким атрибутом, Googlebot не ходит.
Пример:
<a href="http://www.bestcatalog.hut4.ru/service.php" rel="nofollow">Ремонт компьютеров в Орле</a>
Этот атрибут работает только для робота Google. Однако, знать об этом все же стоит. Очень удобно использовать атрибут nofollow при оптимизации страниц для получения большего Page Rank от Google.

 

X