Cloudflare офіційно заблокувала приховані краулери Perplexity — пошукача на базі ШІ, який обходив robots.txt, змінював IP і маскувався під Chrome, щоб отримати доступ до закритого контенту.
Тести підтвердили: навіть за повного блокування через robots.txt і WAF, Perplexity продовжував сканувати сайти — включно з комерційними доменами, лендингами, пабліками та закритими базами знань.
Що робив Perplexity
Використовував офіційного бота Perplexity-User/1.0 → ~25 млн запитів на день
І паралельно — «стелс»-ботів, що маскуються під браузер Chrome на macOS → до 6 млн запитів на день
Підміняв IP-діапазони та ASN, щоб обходити антибот-захист
Ігнорував robots.txt і налаштування обмеження швидкості
Завантажував контент із лендингів, де явно заборонено сканування
Чому це важливо для арбітражників
Ваші преленди, нутра-лендинги та статті могли витікати у видачу Perplexity AI — навіть якщо ви заборонили індексацію
Зростали ризики копіювання, спаму та обману алгоритмів: ШІ міг використовувати контент без дозволу
Якщо ви монетизуєте контент (наприклад, статті з рекламою або лід-магніти) — Perplexity міг «викрадати» його без можливості трекінгу
Що робить Cloudflare
Повне блокування Perplexity, включно з його прихованими ботами
Оновлені керовані правила доступні для всіх клієнтів, навіть на безкоштовному тарифі
Сайти, які використовують стандартні WAF/бот-фільтри Cloudflare, вже захищені
Як захиститися, якщо ти не на Cloudflare
Додай перевірку User-Agent на рівні сервера
Використовуй поведінкові захисти та JS-челенджі проти краулінгу
Переконайся, що контент недоступний по прямим URL без авторизації
Стеж за логами: виявляй підозрілі заходи з ASN, не пов’язаних з пошуковими системами
Використовуй honeypot-пастки для краулерів
Висновок
Perplexity перейшов межу — і великі інфраструктурні провайдери почали відповідати.
Якщо ти працюєш з авторським контентом, прихованими зв’язками або просто не хочеш, щоб ШІ крав твої матеріали — час ставити захист.
👉🏻Слідкуйте за новинами в нашому telegram-каналі — Новини Арбітражу.
Нема коментарів