Блог

Google: Разбивать ли Sitemap XML на несколько файлов?

На очередной видеовстрече веб-мастеров, специалист отдела качества поиска Google Джон Мюллер заявил о том, что разбиение Sitemap XML на несколько файлов не влияет на индексацию, либо рейтинг сайта. Но может быть полезным для самого веб-мастера в отладке и аналитике.
“На практике, разбиение карты сайта на несколько файлов может помочь только вам, т.к в Search Console вы сможете посмотреть статистику по индексации каждого файла.Какие страницы в настоящее время индексируются, какие нет. С помощью разбиения карты сайта на категории, вы сможете понимать, какие категории и на сколько процентов проиндексированы. На практике, с технической точки зрения, наши сервера могут обрабатывать как небольшие файлы карт сайта, так и очень объемные. Тем самым время обработки информации от этого не зависит”.
В виду того, что веб-мастера затронули данную тему, мы решили напомнить нашим читателям о корректности настройки карты сайта (http://sitename/sitemap.xml).

  • Добавьте в файл Sitemap следующее пространство имен XML: xmlns= http://www.sitemaps.org/schemas/sitemap/0.9.
  • Используйте один и тот же синтаксис при указании URL. Например, если адрес главной страницы выглядит как http://www.example.com/, то в файле Sitemap не должно быть URL, начинающихся с http://example.com/.


Существуют обязательные атрибуты:


1. <urlset>
Атрибут инкапсулирует этот файл и указывает стандарт текущего протокола.
2. <url>
Это родительский тег для каждой записи URL. Остальные теги являются для него дочерними.
3. <loc>
Представляет URL-адрес страницы. Этот URL должен начинаться с префикса (например, HTTP) и заканчиваться косой чертой, если ваш веб-сервер требует этого. Длина этого значения не должна превышать 2 048 символов.

Пример

<?xml version=»1.0″ encoding=»UTF-8″?>
<urlset xmlns=»http://www.sitemaps.org/schemas/sitemap/0.9″>
<url>
<loc>http://www.example.com/foo.html</loc>
</url>
</urlset>


Наряду

с обязательными, есть и необязательные атрибуты:


1. <lastmod>
Здесь в формате W3C Datetime указывается дата последнего изменения файла. W3C Datetime позволяет при необходимости опустить сегмент времени и использовать формат ГГГГ-ММ-ДД.
Обратите внимание: этот тег не имеет отношения к заголовку ‘If-Modified-Since (304)’, который может вернуть сервер, поэтому поисковые системы иногда по разному используют информацию из этих двух источников.

2. <changefreq>
Атрибут задает вероятную частоту изменения страницы. Это значение предоставляет общую информацию для поисковых систем и может не соответствовать в точности частоте сканирования этой страницы.

Допустимые значения:
always, hourly, daily, weekly, monthly, yearly, never
Значение «всегда» (always) должно использоваться для описания документов, которые изменяются при каждом доступе к ним, значение «никогда» (never) – для описания архивных URL-адресов.
Имейте в виду, что значение для этого тега рассматривается как подсказка, а не как команда. Несмотря на то, что сканеры поисковой системы учитывают эту информацию при принятии решений, они могут сканировать страницы с пометкой «ежечасно» менее часто, чем указано, а страницы с пометкой «ежегодно» – чаще одного раза в год. Бывает, что поисковые роботы сканируют страницы с пометкой «никогда», чтобы отслеживать неожиданные изменения на этих страницах.

3. <priority>
Указывается приоритетность данного URL относительно других URL на вашем сайте. Допустимый диапазон значений – от 0,0 до 1,0; по умолчанию приоритетность равна 0,5.
Значение <priority> не влияет на процедуру сравнения ваших страниц со страницами других сайтов, оно только позволяет указать поисковым системам, какие страницы более важны для сканеров, на ваш взгляд. Таким образом, вы не сможете повлиять на положение ваших URL на страницах результатов какой-либо поисковой системы. Однако поисковые системы используют эту информацию при обработке URL, которые относятся к одному и тому же сайту. Поэтому можно использовать этот тег для увеличения вероятности присутствия в поисковом индексе самых важных страниц вашего сайта.
Вы должны понимать, что нет смысла назначать высокий приоритет всем URL вашего сайта. Это очень относительная величина, поэтому параметр используется лишь для того, чтобы определить очередность обработки URL в пределах одного сайта.
Пример Sitemap:
<?xml version=»1.0″ encoding=»UTF-8″?>
<urlset xmlns=»http://www.sitemaps.org/schemas/sitemap/0.9″><url><loc>http://mobiguru.ru/</loc><changefreq>hourly</changefreq><lastmod>2010-07-21</lastmod></url><url><loc>http://mobiguru.ru/phones/</loc><changefreq>hourly</changefreq><lastmod>2010-07-21</lastmod></url><url><loc>http://www.musichall.com.ua/vendor.asp?Vendor_Id=85</loc><changefreq>hourly</changefreq><lastmod>2010-07-21</lastmod></url><url>
<loc>http://www.musichall.com.ua/musichall.asp</loc>
<changefreq>hourly</changefreq>
<lastmod>2010-07-21</lastmod>
</url>
<url>
<loc>http://www.musichall.com.ua/products.asp?Type_Id=1091&Vendor_Id=178</loc>
<changefreq>daily</changefreq>
<lastmod>2010-07-21</lastmod>
</url>
</urlset>
После того, как файл будет сформирован, в robots.txt необходимо добавить следующую строку:
Sitemap: 
http://example.com/mestopolozhenie_sitemap.xml

Ответы на вопросы, которые возникают на момент формирования карты сайта, можно увидеть на официальном сайте.