Веб-скрапинг предполагает сбор информации в виде данных с веб-сайтов или страниц. Хотя ваш поступок может и не быть сознательным, вы тем или иным образом копались в сети, собирая информацию. Но обычно это тонко.
Веб-скрапинг или скрин-скрапинг, как правило, является целенаправленным действием, и профессионалы автоматизируют дизайн, чтобы получить огромные данные. Будь то копирование текстов на веб-сайт вручную, с использованием специальных инструментов или написанием скриптов скрапинга, веб-скраперы иногда сильно бьют по сайту, выполняя несколько запросов одновременно.
Но хотя многие компании сейчас используют скрапинг веб-страниц для получения конкурентных преимуществ, действительно ли это законно?
Интернет - это хранилище информации, дающее людям доступ к старым данным в реальном времени. Скрапинг веб-страниц существует уже некоторое время. Но должны ли вы его использовать и какие веб-сайты вы можете скрапить?
Некоторые веб-сайты ужесточают требования к поисковым роботам или веб-скраперам и полностью их блокируют. Совершенно очевидно, что такие сайты не следует очищать. Но люди по-прежнему так делают.
К сожалению, такие сайты вряд ли могут что-то сделать, кроме того, чтобы залатать свои лазейки.
В идеале перед скрапингом веб-сайта вы должны проверить, разрешено ли сканирование на нем. Обычно это можно узнать, проверив файл robots.txt на сайте. Вы можете сделать это, набрав «[URL-адрес веб-сайта] /robots.txt».
Файл robots.txt обычно устанавливает правила для различных поисковых роботов или пользовательских агентов. Однако эти правила различаются в зависимости от задействованного веб-сайта. В то время как некоторые сайты разрешают сканирование на всех страницах, некоторые указывают страницы, которые бот может сканировать, а некоторые полностью блокируют поисковые роботы.
Веб-сайт, который блокирует сканирование всех страниц всеми пользовательскими агентами, обычно устанавливает следующие правила:
user-agent: *
Disallow: /
Файл robots.txt, который блокирует сканирование всеми ботами определенных каталогов или страниц, обычно выглядит следующим образом:
user-agent: *
Disallow: /URL to page 1
Disallow : /URL to page 2
Если файл robots.txt не запрещает сканирование страницы, вы, вероятно, можете. В противном случае вам следует отступить или запросить согласие администратора. Они могут предоставить вам доступ.
Кроме того, на некоторых веб-сайтах прямо указано, разрешено ли сканирование, в их условиях использования. Некоторые даже указывают это в верхней части своего файла robots.txt. Всегда проверяйте это, чтобы убедиться, что вы поступаете правильно.
Так что, если вы получали спам-сообщения или SMS от веб-сайтов или людей, которым вы никогда не сообщали своей личной информацией, то вы, вероятно, каким-то образом были где-то сканированы. И в основном через одну из ваших социальных сетей.
Тем не менее, скрапинг веб-страниц иногда - это больше, чем просто сбор данных, которые отображаются в интерфейсе пользователя. В случае злонамеренного использования это может привести к утечке личной и секретной информации.
Хотя большинство платформ социальных сетей не одобряют это, сканирующие боты по-прежнему получают доступ к профилям людей, а их контактная информация утекает.
Например, сообщалось, что в Facebook есть уязвимости, из-за которых в прошлом происходила утечка контактной информации пользователей, хотя пользователи хранили ее в тайне.
Аналогичным образом, LinkedIn недавно пострадала от нарушения безопасности, которое привело к утечке личных данных, принадлежащих более чем 500 миллионам учетных записей. Следовательно, эта уязвимость привела к совместному использованию многих адресов электронной почты и номеров телефонов без согласия владельцев профиля.
Заключения о законности скрапинга веб-сайтов еще не было. Вместо этого основное внимание уделяется тому, как поисковый робот работает в каждом конкретном случае, и для чего они используют собранные данные.
Таким образом, вместо того, чтобы делать вывод о его законности, скрапинг, если он выполняется злонамеренно, является незаконным. Но если все сделано разумно, это не является незаконным.
Но, как и ожидалось, похоже, существует более строгая политика в отношении сбора и использования данных социальных сетей, поскольку конфиденциальность пользователей так важна. Однако все сводится к тому, как люди сканируют данные.
Internet & Social Media Law Blog проанализирован случай HiQ Labs, скрапинговые данные компании, которая выиграла иск против LinkedIn в 2019 году после того, как он пытался блокировать HiQ Labs из скрапинга данных публично доступных пользователей к LinkedIn.
Поскольку hiQ Labs утверждала, что Закон о компьютерном мошенничестве и злоупотреблениях (CFAA) запрещает только несанкционированный доступ, решение подтвердило, что данные LinkedIn были общедоступными, поэтому любой, кто их очищал, делал это, потому что они доступны.
Кроме того, hiQ Labs использовала полученные данные только для предоставления аналитических решений компаниям, чтобы они могли принимать более обоснованные решения о найме.
Напротив, Facebook недавно подал в суд на разработчиков расширений Chrome, которые сканировали профили пользователей Facebook без их согласия.
Точно так же Facebook подал в суд на сайт-подражатель за то, что он сканировал данные профилей нескольких пользователей Instagram и затем использовал их для создания клонов. Согласно этому отчету, Facebook пошел дальше, добиваясь постоянного судебного запрета против преступника.
Это несколько случаев, когда люди могли использовать веб-скрапинг незаконно. Указанные компании собирали данные пользователей Facebook обманным путем, без согласия пользователей. Таким образом, это нарушило политику конфиденциальности.
Таким образом, хотя веб-скрапинг может нарушить работу сайта, с которого он получает данные, в настоящее время нет общих правил, запрещающих людям получать то, что они хотят, если они не нарушают законы об Интернете.
Есть несколько мифов, связанных со сканированием веб-страниц. Одним из них является убеждение, что скрапинг веб-сайта означает, что вы его взломали. Хотя взлом может в конечном итоге привести к сканированию данных, утверждение, что этот термин сам по себе означает взлом веб-сайта, не соответствует действительности.
Скрапинг веб-страниц может включать использование специальных инструментов обхода или сканирования интерфейсов прикладного программирования (API) или скриптов сканирования веб-страниц для получения визуализированных данных с веб-сайта. В отличие от взлома, он не ставит под угрозу веб-сайт, который сканирует, и не мешает работе пользователей.
Таким образом, в то время как взлом предполагает несанкционированный доступ, обычно к базе данных веб-сайта, веб-скрапинг нацелен только на данные, которые уже видны на внешнем интерфейсе. Хотя люди могут злонамеренно использовать веб-скрапинг, это все же не синоним взлома.
В дополнение к этому, в отличие от веб-скрапинга, преднамеренный и неэтичный взлом является незаконным.
У скрапинга веб-страниц много положительных моментов, и даже некоторые технологические компании теперь предлагают свои данные бесплатно через API. Этой информации обычно недостаточно для оценки тенденций в бизнесе и принятия решений.
Таким образом, теперь компании получают больше данных, сканируя Интернет, чтобы улучшить практику и увеличить продажи. Кроме того, специалисты по обработке данных вводят в алгоритмы машинного обучения данные, собранные с помощью сканирования экрана.
Такие данные могут быть изображениями, используемыми при распознавании изображений, обычным текстом для анализа настроений или прямыми данными о продукте для анализа рынка и поведения потребителей.
Так что веб-скрапинг даже более полезен, потому что, если у вас есть доступ к информации, которой нет у вашего конкурента, вы можете победить его.
В то время как некоторые сайты недовольны веб-скраперами, некоторые службы электронной коммерции, не заботятся о том, сканируете ли вы их данные или нет. Веб-гиганты, такие как eBay и Salesforce, запустили свой API в 2000 году, впервые предложив программистам доступ к общедоступным данным.
Мы установили, что сканирование веб-страниц не является незаконной, если все сделано правильно. Но то, что вы делаете с сканируемыми данными, также вызывает беспокойство. Поэтому вместо того, чтобы злоупотреблять этим, используйте его, чтобы получить больше идей, которые помогут вам и другим принимать обоснованные решения.
Тем не менее, веб-скрапинг как навык дает вам доступ к большим объемам интернет-данных, которые могут помочь вам или вашей компании оставаться выше своей бизнес-ниши. Как специалисту по данным, это даже расширяет ваши возможности и улучшает ваши навыки программирования и технические навыки.