'Web scraping', el nuevo peligro

El robo de datos o plagio es una de las amenazas más fuertes para los negocios que están presentes en Internet. Tiene un nombre, el web scraping y puede hacerse con o sin el consentimiento del propietario de la página. Esta herramienta, que significa raspado de web, es una técnica usada por los programadores para la extracción y recolección de los contenidos de una página web. Si uno se pregunta si es legal esta situación cae en un error pues se están plagiando contenidos que afectan a la competitividad de un negocio, llegando a provocar la pérdida de clientes. De todas maneras, no hay que ser un programador experimentado para hacerlo pues el simple copiar y pegar, es decir, hacerlo de manera manual, ya estaríamos cayendo en esta práctica, aunque lo más normal es automatizar el rastreo. Es tan habitual que lo realizan los comparadores de precios o aquellos que está investigando datos con el objetivo de obtener beneficios económicos. Por ejemplo, la recolección de direcciones de email, o la obtención de perfiles de usuarios en Facebook, la detección de cambios en las páginas web de los competidores, el plagio de contenidos como noticias, artículos, información médica y financiera, o republicar información de directorios telefónicos es caer en actividades ilícitas. Si uno está realizando una tarea para la escuela o una investigación, siempre que se cite la fuente, se puede quedar tranquilo pues no es ilegal. Esta práctica está más generalizada de lo que parece, lo que ocurre es que los ataques de web scraping no se difunden. Por ejemplo, hace ya algunos años la aerolínea de bajo costo Ryanair denunció su web scraping que puso en peligro las reservas de sus clientes. Las empresas más susceptibles de recibir estos ataques son las tiendas online, las compañías aéreas, los sitios de apuestas, las redes sociales, y las empresas con contenidos.

Las implicaciones legales de una extracción de datos de una página web nos alertan sobre la protección de datos de los usuarios. Por un lado, depende de si el sistema únicamente obtiene la conducta del usuario para sugerir después artículos relacionados, ignorando sus datos personales o si por el contrario utiliza información personal del usuario. Si fuera esto último habría que recabar el consentimiento del usuario ya que nos hallaríamos ante un caso de cesión de datos. Esto es, si utiliza, por ejemplo, las cinco últimas compras de un usuario relacionadas con un estilo de ropa para luego sugerirle otra similar a la conducta comercial que ha registrado el motor, y no estudiando los datos personales del usuario (nombre, dirección IP o domicilio), se estaría produciendo un uso legal.

Si quisiéramos evitar a los web scrapers podemos usar un firewall de aplicaciones Web, o utilizar cookies para comprobar que el visitante es un navegador web ya que no procesan código javascript complejo. Otra de las alternativas pasa por introducir Captchas (que el usuario teclee unas letras que le aparecen al azar) para asegurarnos de que el usuario es un humano y no una máquina (aunque ya los scrapers han encontrado la manera de saltárselos). También se pueden esconder los datos ya que los web scrapers rastrean datos en formato texto y si se publica en formato imagen o flash ya no seremos víctimas atractivas. No estaría de más bloquear la IP de nuestros competidores para que sus web scrapers no visiten nuestra página. Lógicamente debemos detectar y bloquear las herramientas de site scraping ya que gran parte de las herramientas utilizan una firma identificable que sirven para poderse detectarse y por tanto, se pueden bloquear. Si cambiamos con frecuencia los tags mediante espacios, comentarios, nuevas etiquetas, etc … podemos lograr evitarlos ya que los scrapers se programan para buscar determinados contenidos en los tags de la página web.

De todas maneras, esquivar los ataques del scraping es difícil porque resulta complicado cada vez más distinguir a los scrapers de los usuarios legítimos. Es por ello que las empresas más expuestas a este tipo plagio de sus contenidos se protegen con la propiedad intelectual.

* Investigadora del Proyecto Internet, Cátedra de Comunicaciones Digitales Estratégicas, Tecnológico de Monterrey, campus Estado de México. Su cuenta de correo electrónico: amaya.arribas@itesm.mx