Веб-скрапинг: тонкая грань между бизнес-аналитикой и нарушением конфиденциальности данных. Это законно?

Mutt

Professional
Messages
1,059
Reputation
7
Reaction score
573
Points
113
Веб-скрапинг - это использование автоматизированного программного обеспечения (также известного как боты) для извлечения контента и данных с веб-сайта. Он также классифицируется OWASP как автоматизированная угроза (OAT-011). Web Scraping отличается от Screen Scraping тем, что он может извлекать базовый HTML-код и данные, которые хранятся в базах данных, в то время как Screen Scraping копирует только те пиксели, которые отображаются на экране. Но где проходит грань между извлечением данных для законных деловых целей и извлечением вредоносных данных, наносящим ущерб бизнесу? Граница, кажется, с каждым днем становится все более размытой по мере того, как усиливаются попытки изобразить веб-парсинг как законный бизнес. Судебные иски против веб-скрапинга медленные и различаются в зависимости от страны.

Каковы допустимые варианты использования веб-скрапинга?
Чтобы понять проблему, давайте сначала объясним несколько законных вариантов использования веб-скрапинга. Первыми примерами являются роботы поисковых систем, такие как Googlebot или Bingbot. Они развернуты с тремя основными функциями, которые помогают создавать и поддерживать индекс веб-страниц с возможностью поиска: сканирование, индексирование и ранжирование. Другими примерами являются компании, занимающиеся исследованиями рынка, которые собирают данные с онлайн-форумов и социальных сетей, а также сайты сравнения цен, запрашивающие цены и описания продуктов у различных интернет-магазинов.

Вредоносные варианты использования веб-парсинга
Какие случаи незаконного использования? Самый простой способ определить незаконный веб-скрейпинг - это «извлечение данных с определенного веб-сайта без разрешения его владельца». Ценовой парсинг и парсинг контента - два наиболее распространенных случая злонамеренного использования. Ценовой выскабливание обычно предполагает, что конкурирующие компании очищают ваши цены, чтобы превзойти ваши цены и выиграть на рынке. Это вредит бизнесу из-за потери в поиске SEO по цене. Но вам не обязательно продавать какие-либо товары или услуги, чтобы вас могли атаковать парсеры-боты. Кража вашего проприетарного контента может быть не хуже. Парсинг контента - это прямая кража контента в крупном масштабе, и если ваш контент появляется где-то в Интернете, ваш рейтинг SEO обязательно пострадает.

Законный бизнес?
В 2020 году мы обсуждали изображение «плохих ботов как услугу». Эти предполагаемые компании предлагают услуги бизнес-аналитики, получившие название «ценообразование», альтернативные финансовые данные или конкурентные аналитические данные. Вдобавок к этому в отраслях растет давление, заставляющее их покупать очищенные данные. Недавно я наткнулся на сообщение в блоге, в котором обсуждается, почему для организации важно использовать ботов для очистки веб-страниц, чтобы оставаться конкурентоспособными на своем рынке. Ни одна организация не хочет терять бизнес, потому что у конкурентов есть доступ к данным, которые можно купить. Автор даже пошел на лишнюю милю, объяснив последние методы, позволяющие оставаться «под радаром», маскируясь под законного пользователя, например, использование домашних интернет-провайдеров в качестве прокси.

Правовая позиция против парсинга веб-сайтов
Возможно, наиболее актуальным судебным постановлением, касающимся парсинга веб-страниц, является дело hiQ Labs vs. Linkedin. В своих усилиях по прекращению использования веб-скрапинга Linkedin решительно отказалась от услуг hiQ. В свою очередь, hiQ подала иск против Linkedin. Апелляционная инстанция Девятого округа вынесла решение в пользу разрешения ботам очищать общедоступный контент.

После этого решения LinkedIn подала петицию с просьбой о пересмотре решения в Верховном суде в марте 2020 года, на что hiQ ответили. Они заявили, что вопрос о том, может ли компания использовать Закон о компьютерном мошенничестве и злоупотреблениях, чтобы предотвратить доступ к информации, которой пользователи веб-сайта поделились в своих общедоступных профилях и которая доступна для просмотра любым пользователям веб-браузера, является спорным .

Linkedin не единственный, кто борется с парсингом веб-страниц. В октябре 2020 года Facebook подал иск в США против двух компаний, которые участвовали в международной операции по сбору данных с нескольких веб-сайтов. И хотя до сих пор не было возбуждено никаких серьезных судебных исков против операций веб-скрейпинга, их бизнес остается в лучшем случае теневым.

Что дальше с веб-парсингом?
Эта ситуация ставит перед организациями моральную дилемму. Поскольку все больше из них понимают, что неиспользование определенных методов может поставить их в невыгодное положение, вероятность того, что они обратятся к указанным методам, высока. Особенно с учетом того, что никаких серьезных юридических действий, направленных на прекращение операций по парсингу веб-страниц, не предпринимается. В среде, где прилагаются постоянные усилия для узаконивания веб-парсинга, трудно увидеть, что эта конкретная проблема с ботами исчезнет в ближайшее время.

Примите защитные меры
Поскольку веб-парсинг остается проблемой, которую сложно решить законным путем, все большее число организаций принимают превентивные меры. Они понимают необходимость защиты своих конфиденциальных данных при сохранении законного потока трафика на свой веб-сайт.

Imperva предлагает лучшее в своем классе решение Advanced Bot Protection, способное нейтрализовать самые сложные автоматизированные угрозы, включая все автоматические угрозы OWASP. Он использует передовые технологии для защиты всех потенциальных точек доступа, включая веб-сайты, мобильные приложения и API. И это не влияет на опыт законных пользователей.

Advanced Bot Protection является частью платформы Imperva Application Security. Начните бесплатную пробную версию Application Security сегодня, чтобы защитить свои активы от ботов Grinch и других автоматизированных угроз.
 
Top