Тема 2. SEO, PPC, SММ. Особливості формування веб-аналітики для сайтів та соціальних мереж, меседжерів

6. SEO - Особливості індексування вебресурсів

При перевірці сайту важливо знати, які сторінки індексуються, а які — ні. Чим більше в індексі корисних сторінок, тим краще сайт в очах пошукової системи. І тим, теоретично, більше трафіку, охоплення та грошей ви зможете отримати.

Якщо реальна кількість сторінок на сайті не відповідає кількості проіндексованих сторінок, це може сигналізувати про проблеми на сайті. Сторінка потрапляє в індекс після відвідування пошукового робота, якщо він вважає її важливою. Тобто, щоб сторінка потрапила до індексу:

1. Робот має зайти на неї.

2. Робот повинен вважати її важливою.

3. Робот може відвідати сторінку, але не додати її до індексу, якщо вважатиме неважливою цю сторінку.

Марно кликати робота повторно, якщо він вже відвідував сторінку і не додав до індексу — спочатку потрібно знайти та усунути ймовірні причини, через які робот міг вважати її неважливою.

Складаємо список усіх сторінок сайту - вивантажуємо список усіх сторінок за одним з варіантів

Перевіряємо індексацію цих сторінок

- Дивимося в індексі сторінка є чи ні:

Розмічаємо сторінки — на важливі та неважливі § Розмічаємо вручну: дивимося URL та відзначаємо. § Або виробляємо можливі шаблони для пошуку неважливих сторінок та їх розмітки, але для кожного сайту потрібно думати окремо. Знаходимо закономірності і використовуємо їх для автоматизації пошуку та розмітки (наприклад, за допомогою формул у таблицях).

Чому неважливі сторінки в індексі – це проблема?

Аналізуємо та виправляємо.

Якщо важлива сторінка не в індексі, і робот її не відвідував, треба привести з нею роботу.

ВАЖЛИВО – ПОСТІЙНИЙ АУДИТ. Індексація та Google Search Console § Щоб перевірити індексацію в Google, переходимо до «Індексу» → «Покриття» Google Search Console. Там відображаються помилки та проблеми, які виникли при індексації сторінок, а також попередження, кількість сторінок без помилок та виключені сторінки. Дані можна експортувати до Таблиці Google або у форматі .XLSX або .CSV.

ВАЖЛИВО – ПОСТІЙНИЙ АУДИТ. Перевіряємо sitemap. Докладніше про sitemap дивіться у джерелах: • XML-формат файлу Sitemap - https://www.sitemaps.org/ru/protocol.html ; • Як створювати та відправляти файли Sitemap від Google. - https://developers.google.com/search/docs/advanced/sitemaps/build- sitemap?hl=ru&visit_id=637809757503977876-2561064002&rd=1

Не роблячи таку перевірку, можна упускати цілий пул проблем. Це додатковий зріз для аналізу, який доповнює перевірку. Також це допоможе знайти огріхи у шаблоні автогенерації sitemap, наприклад: дублі сторінок; заміни сторінок (приклад - /home замість / , коли це дубль); неактуальні адреси - адреса сторінки з http: коли актуальна з https; адреса сторінки з www. коли актуальний без www. і т.д.; сторінки із редиректом; 404- сторінки. У sitemap мають бути сторінки лише з відповіддю сервера 200. 1) сторінки пагінації; 2) закриті від індексації сторінки. У sitemap не повинні бути: 1) сторінки закриті у robots.txt директивами Disallow або Clean-param; 2) закриті meta name="robots"; 3) неканонічні (з яких стоїть rel cannonical). 4) незакриті сторінки, яких у веб-сайті бути не повинно (приклад - шаблонні, технічні та ін.). Також додатково моніторимо видачу в ніші і дивимося картинний потенціал: якщо у видачі виводиться блок з картинками, то користувачі при виборі йдуть в картинки і шукають там. У такому випадку, якщо сайт не оптимізований під трафік за зображеннями, тут можна знайти неочевидну

Перевіряємо у видачі вручну за допомогою оператора «site:» За допомогою оператора "site:" дивимося перші десять сторінок видачі. Робимо це і в Яндексі, і в Google. Завдання — вивчити максимум те, що є в індексі і виключити все непотрібне. Це допоможе сайту краще індексуватися та краще ранжуватися. Шукаємо в індексі технічні сторінки - адмінка сайту, це openstat, utm-мітки, кошик, сторінка замовлення, особистий кабінет користувача, сторінки пошуку. При цьому, якщо є сумніви, думаємо. Наприклад, сторінка Кошики, сторінка Пошуку тощо. "Кошик" є фактором ранжирування, і закривати його в robots.txt, ймовірно, не варто. Кошик - це комерційний фактор, а також наскрізний блок через весь сайт - краще використовувати закриття meta name = "robots".

Перевіряємо обмеження у robots.txt Дивимося, щоб важливі сторінки були доступні для індексації, щоб вони не були заблоковані в robots.txt. Можливо на одному з минулих кроків, наприклад, коли аналізували помилки індексації, в Яндекс.Вебмайстрі, Google Search Console або при ручній перевірці видачі вже помітили можливості для поліпшення за допомогою robots.txt. Впроваджуємо їх. Також перевіряємо в Яндекс.Вебмайстрі → «Інструменти» → «Аналіз robots.txt» (тут валідатор + перевірка, можемо перевірити адреси сторінок у блоці «Чи дозволено URL?»). Дивимося в Аудіті Serpstat → «Закриті в Robots.txt». Для Google слід пам'ятати, що прописане в robots.txt обмеження - не панацея, тому Вам також може знадобитися інструмент "Параметри URL" (Google Search Console → "Колишні інструменти та звіти" → "Параметри URL").

Можливі причини відсутності індексування: 1. Робот пошукової системи поки не дійшов: А) сторінка нещодавно з'явилася і робот просто поки що не дійшов до неї: можливо все гаразд і сторінка просто поки що не встигла проіндексуватися. Б) на сторінку немає посилань: потрібно перевірити наявність у sitemap.xml та перелінкування на сайті. 2. Робот вважав сторінку неважливою. Відсутність унікального контенту. Унікальність контенту – важливий параметр для пошукових систем. Є два варіанти неунікального контенту: • Зміст не є унікальним у рамках сайту (тобто це по суті дубль — є така сама сторінка за іншою адресою на цьому ж сайті). Якщо на сайті є дублікати сторінки - пошуковий робот може не індексувати їх усі, обмежившись однією копією на власний розсуд. Така проблема може виникнути через помилку при розробці неоптимізованої структури системи управління. Дублі сторінок на сайті можна знайти, наприклад, за допомогою інструмента "Аудит сайту" Serpstat. Додатково - ось стаття, інформація з якої може бути корисною при пошуку та видаленні дублів. https://serpstat.com/ru/blog/kak-najti-i-udalit-dubli-stranitc-na- sajte-instruktciya-dlya-novichkov/ • Зміст не є унікальним у рамках інтернету — контент сторінки запозичений зі стороннього джерела, така сторінка може не індексуватися.