Добро или зло? Что боты-парсеры означают для вашего сайта.

Mutt

Professional
Messages
1,059
Reputation
7
Reaction score
576
Points
113
Интернет кишит ботами. Бот - это программа, которая выполняет автоматические задачи через Интернет, обычно выполняя простые повторяющиеся задачи с огромной скоростью, недостижимой или нежелательной для людей. Они несут ответственность за множество небольших заданий, которые мы считаем само собой разумеющимися, например сканирование в поисковых системах, мониторинг работоспособности веб-сайтов, получение веб-контента, измерение скорости сайта и использование API-интерфейсов. Их также можно использовать для автоматизации аудита безопасности путем сканирования вашей сети и веб-сайтов, чтобы найти уязвимости и помочь устранить их.

Согласно нашему отчету о трафике ботов за 2020 год, почти половина всего веб-трафика - это боты, а две трети проанализированного нами трафика ботов - вредоносные. Один из способов, которым боты могут навредить бизнесу, - это использование веб-скрапинга . Мы часто работаем с клиентами над этим вопросом и хотели поделиться тем, что узнали. В этом посте обсуждается, что такое парсинг веб-сайтов, как он работает и почему это проблема владельцев веб-сайтов.

Что такое соскабливание?
Веб-скрапинг - это процесс автоматического сбора информации из Интернета. Наиболее распространенным типом очистки является очистка сайта, цель которой - скопировать или украсть веб-контент для использования в другом месте. Такое перепрофилирование контента может быть одобрено или не одобрено владельцем веб-сайта.

Обычно боты делают это, сканируя веб-сайт, обращаясь к исходному коду веб-сайта, а затем анализируя его, чтобы удалить ключевые фрагменты данных, которые им нужны. После получения контента они обычно размещают его в другом месте в Интернете.

Web-scraping-1.png


Более продвинутый тип очистки - это очистка базы данных. Концептуально это похоже на очистку сайта, за исключением того, что хакеры создают бота, который взаимодействует с приложением целевого сайта для извлечения данных из его базы данных. Примером парсинга базы данных является случай, когда бот нацеливается на страховой веб-сайт, чтобы получить расценки на страховое покрытие. Бот попробует все возможные комбинации в веб-приложении, чтобы получить расценки и цены для всех сценариев.

Web-scraping-2.png


В этом примере бот сообщает приложению, что это 25-летний мужчина, который ищет расценки на Honda, затем на Toyota, а затем на Ferrari. Каждый раз бот получает другой результат от приложения. При достаточном количестве попыток можно получить целые наборы данных. Очевидно, что с учетом количества возможных вариантов в этом сценарии бот будет предпочтительнее человека.

Очистка базы данных может использоваться для кражи интеллектуальной собственности, прайс-листов, списков клиентов, цен на страхование и других наборов данных, которые потребуют чрезмерно утомительных для людей усилий, но вполне в пределах того, что обычно делают боты.

Рассмотрим случай агентства по аренде автомобилей: если компания создаст бота, который регулярно проверяет цены своего конкурента и немного занижает их в каждой ценовой категории, у нее будет конкурентное преимущество. Эта более низкая цена будет отображаться на всех сайтах-агрегаторах, которые сравнивают обе компании, и, вероятно, приведет к увеличению конверсий в аренде автомобилей и более высокому рейтингу в поисковых системах.

Web-scraping-3.png


Чтобы справиться с угрозой, которую парсинг представляет для вашего бизнеса, рекомендуется использовать решение, которое адекватно обнаруживает, идентифицирует и смягчает ботов.

Не все веб-парсинг - это плохо
Очистка не всегда злонамеренна. Во многих случаях владельцы данных хотят передать данные как можно большему количеству людей. Например, многие правительственные веб-сайты предоставляют данные для широкой публики. Эти данные часто доступны через API-интерфейсы, но из-за масштабов работы, необходимой для этого, иногда приходится использовать парсеры для сбора этих данных.

Другой пример законного парсинга, который часто осуществляется с помощью ботов, включает сайты-агрегации, такие как сайты путешествий, порталы бронирования отелей и сайты билетов на концерты. Боты, распространяющие контент с этих сайтов, получают данные через API или путем парсинга и, как правило, направляют трафик на сайты владельцев данных. В этом случае боты могут стать важной частью их бизнес-модели.

Боты легальны? По словам Эрика Гольдмана, профессора права юридического факультета Университета Санта-Клары, который пишет об интернет-праве,

Хотя очистка является повсеместной, она не совсем легальна. К несанкционированному соскабливанию могут применяться различные законы, в том числе договор, авторские права и законы о нарушении права на движимое имущество. («Посягательство на движимое имущество» защищает от несанкционированного использования чьей-либо личной собственности, например, компьютерных серверов). Тот факт, что многие законы ограничивают очистку, означает, что это сомнительно с юридической точки зрения.
Поскольку парсеры-боты также могут нанести вред вашему бизнесу, как мы уже упоминали, важно создать экосистему, которая была бы удобна для ботов и способна блокировать вредоносных автоматических клиентов. Владельцы веб-сайтов могут значительно повысить безопасность своих веб-сайтов, блокируя плохих ботов, не исключая легитимных ботов.

Четыре вещи, которые вы можете сделать, чтобы обнаружить и остановить парсинг сайта
Парсинг сайта может быть мощным инструментом. В умелых руках он автоматизирует сбор и распространение информации. Попадание в чужие руки может привести к краже интеллектуальной собственности или несправедливому конкурентному преимуществу.

За последние два десятилетия боты эволюционировали от простых скриптов с минимальными возможностями до сложных интеллектуальных программ, которые иногда способны убедить веб-сайты и их системы безопасности в том, что они люди.

Мы используем следующий процесс для классификации автоматических клиентов и определения следующих шагов.

layer-7-ddos-client-classification-1.jpg


Вы можете использовать следующие методы для классификации и смягчения последствий ботов, включая обнаружение ботов-парсеров:

Используйте инструмент анализа - вы можете идентифицировать и смягчать ботов, в том числе мошенников сайта, с помощью инструмента статического анализа, который исследует структурные веб-запросы и информацию заголовков. Связывая эту информацию с тем, что утверждает бот, вы можете определить его истинную личность и заблокировать ее по мере необходимости.

Используйте подход, основанный на задачах - этот подход является следующим шагом в обнаружении скребкового бота. Использовать проактивные веб-компоненты для оценки поведения посетителей, например, поддерживает ли он файлы cookie и JavaScript? Вы также можете использовать зашифрованные изображения, такие как CAPTCHA, которые могут блокировать некоторые атаки.

Возьмите поведенческий подход - поведенческий подход к смягчению бота следующий шаг. Здесь вы можете посмотреть на активность, связанную с конкретным ботом, чтобы определить, соответствует ли он тем, кем он себя называет. Большинство ботов связываются с родительской программой, такой как JavaScript, Internet Explorer или Chrome. Если характеристики бота отличаются от характеристик родительской программы, вы можете использовать аномалию для обнаружения, блокировки и устранения проблем в будущем.

Использование robots.txt
Вы можете использовать robots.txt для защиты своего сайта от парсеров-ботов, но в долгосрочной перспективе это может оказаться неэффективным. robots.txt сообщает плохому боту, что это не приветствуется. Поскольку плохие боты не придерживаются правил, они игнорируют любые команды. В некоторых ситуациях некоторые вредоносные боты будут искать в robots.txt скрытые драгоценные камни (личные папки, страницы администратора), которые владелец сайта пытается скрыть от индекса Google, и использовать их.

Поэтому еще более важно, чем когда-либо, чтобы ваше решение для защиты ботов могло полностью оценить влияние конкретного бота, прежде чем принимать решение о том, разрешить ли ему доступ к вашему веб-сайту. Чтобы проверить, подходит ли ваше текущее решение, задайте следующие вопросы: добавляет ли этот автоматизированный клиент ценность вашему бизнесу? Привлекает ли он трафик к вашему сайту или от вашего сайта? Ответы на эти вопросы помогут вам определить, какой курс следует предпринять, чтобы встроить обнаружение ботов и смягчение их последствий в свои системы безопасности.
 
Top