Recentemente si è sentito parlare di web scraping (cioè di estrazione dati) per casi di database rubati o venduti.
Basta citare la denuncia fatta da LinkedIn a hiQ Labs – nel 2017 – con l’accusa di aver raccolto, senza autorizzazione, informazioni varie sugli utenti del proprio network.
Idem per l’azione legale intrapresa da Facebook contro le società BrandTotal Ltd. e Unimania.
Dove vogliamo arrivare? Qual è il punto?
Che, in realtà, il web scraping è una questione ancora molto dibattuta. Insomma, non è semplice capire se si tratta di una pratica consentita o no.
Ecco perché ce ne occuperemo nel corso di questo articolo.
In pochi punti:
Cos’è il web scraping e a cosa serve
Cominciamo con la traduzione letterale. “Scraping” in inglese significa grattare, raschiare, scalfire.
Ma che cosa definisce esattamente l’espressione web scraping?
Per la risposta citiamo subito una fonte conosciuta:
Il web scraping (detto anche web harvesting o web data extraction) è una tecnica informatica di estrazione di dati da un sito web per mezzo di programmi di software.
Wikipedia
In pratica è un po’ quello che fa Google quando – utilizzando i famosi bot – scandaglia la Rete per analizzare siti da indicizzare.
Per quanto riguarda il web scraping “classico”, in genere, le informazioni che si cerca di raccogliere sono:
- dati di contatti;
- indirizzi email;
- numeri di telefono;
- contenuti testuali;
- prezzi;
- singoli termini di ricerca;
- URL.
Inutile aggiungere che si tratta di un’attività fondamentale per chi si occupa di marketing. Offre – infatti – la possibilità di mettere le mani su dati preziosi.
Il problema è a monte. Ovvero… che non sempre è possibile farlo rimanendo nei termini della legalità.
Vedremo più avanti di comprenderne le motivazioni.
Come funziona il web scraping
In sostanza ci sono due modi di effettuare web scraping. Cioè:
- manualmente, tramite copia/incolla (ma è poco indicato quando si ha a che fare con grosse moli di dati);
- con software appositi chiamati web scraper che effettuano l’estrazione in maniera automatizzata simulando la navigazione di utenti in carne ed ossa.
Come operano questi programmi? In linea di massima, lo scraper:
- invia una richiesta HTTP GET al sito web interessato;
- analizza uno o più documenti HTMLHTML è l'acronimo di Hyper Text Markup Language, in italiano Linguaggio di Contrassegno per Ipertesti. Non si tratta di un linguaggio di programmazione, ma di un sistema che permette di... alla ricerca di informazioni utili;
- traduce i dati trovati nel formato richiesto.
Tutti i passaggi si svolgono in pochi minuti.
Tool per il web scraping
Con la teoria dovremmo esserci. Ma come operiamo nella realtà dei fatti?
Per fortuna la Rete mette a disposizione numerosi strumenti utili. Sia a pagamento che gratuiti.
Ad esempio:
- Data Miner
Si tratta di un’estensione di Google Chrome e del browser Edge. Può eseguire lo scraping di una singola pagina o di un sito completo convertendo i dati in file CSV o Microsoft Excel. - Parsehube
Disponibile anche in versione gratuita (200 pagine di dati in 40 minuti) offre soluzioni per ogni esigenza, anche personalizzate. - Octoparse
L’uso è semplice ed intuitivo. Basta inserire l’URL del sito interessato, fare click sui dati da estrarre e il gioco è fatto. Include diverse funzioni avanzate tra cui la rotazione automatica dell’IP. - Scraper Api
Gestisce proxy, browser e CAPTCHA per ottenere HTML di qualsiasi sito web senza che si corra il rischio di venire bloccati.
Terminiamo l’elenco segnalando uno strumento a parte: Phantom Buster.
Che cos’è che lo rende diverso dagli altri? Permette di estrarre dati da piattaforme e social network noti come Facebook, Instagram, Twitter e LinkdIn.
Quali sono i vantaggi
Abbiamo già spiegato che il web scraping costituisce una risorsa importante per tutte le aziende. Specie per quelle che operano online.
Proviamo a riassumerne i principali vantaggi.
Lo scraping consente di:
- trovare potenziali mercati di vendita e nuovi contatti;
- scovare informazioni utili per il database;
- analizzare il sentiment dei consumatori;
- studiare i competitors;
- monitorare notizie e contenuti;
- migliorare la propria strategia SEOSEO è l'acronimo di Search Engine Optimization, ovvero Ottimizzazione per i Motori di Ricerca. Questa sigla comprende tutte le pratiche volte a migliorare l'indicizzazione e il posizionamento di un contenuto...;
- ispezionare i prezzi di siti concorrenti per rilanciare con offerte più competitive;
- effettuare indagini statistiche.
Domanda da un milione di euro: quali sono gli effetti collaterali? Esistono?
Beh, dobbiamo ricollegarci al titolo della guida.
In caso di attività di web scraping non autorizzate – dunque ILLEGALI – si rischia la retrocessione del posizionamento del sito e sanzioni economiche anche molto elevate.
CASE STUDY. Nel 2022 il Garante per la Privacy ha imposto il pagamento di ben 20 milioni di euro alla società americana Clearview Al. colpevole di aver raccolto, ed elaborato illegalmente, dati biometrici di cittadini ignari della pratica, mediante tecniche di riconoscimento facciale.
Quindi? Il web scraping è legale?
Dipende dalle situazioni. Diciamo che il web scraping è legale se i dati estratti sono liberamente accessibili a terzi. Pubblici.
Quindi possiamo parlare di web scraping lecito quando viene effettuato:
- dai robots dei motori di ricerca per analizzare e classificare siti web;
- da siti comparatori di offerte;
- da società di ricerche di mercato;
- da normali utenti per creare copie di sicurezza di website o pagine navigabili offline.
Il 40% di tutto il traffico su Internet è prodotto da bot malevoli, in grado di eludere il monitoraggio, creati per eseguire web scraping,
https://www.cybersecurity360.it/nuove-minacce
Si ricade – invece – nella piena illegalità quando si violano la privacy degli utenti e i diritti di autore del sito web “raschiato”.
Suggerimenti utili
Un consiglio su tutti. Se vuoi operare nella legittimità NON aggirare le eventuali misure anti-scraping impostate dai siti.
Ci riferiamo a stratagemmi ormai consolidati come l’utilizzo di servizi di terze parti per la risoluzione dei quiz CAPTCHA o di user agent riconosciuti.
P.S.
Per evitare errori, prima di fare web scraping su un sito web, leggi con attenzione le sezioni “Privacy degli utenti” e “Condizioni di utilizzo”.
Esempio
Giunti a questo punto del discorso vogliamo citare un particolare caso di web scraping.
Quello del tutto positivo proposto da Import.io, piattaforma americana fondata nel 2012, che si occupa di estrazione dati su larga scala. Opera nella totale legalità e si rivolge – soprattutto – agli e-commerce.
Ti consigliamo di dare un’occhiata. Presenta anche un’utilissima sezione blog per approfondimenti e notizie dal mondo digital.
Conclusioni
Il web scraping trova ampia applicazione in diversi settori del marketing e del business. Specialmente se si lavora con e-commerce, selezione del personale e viaggi (come illustra un recente articolo di Datahut). I risultati sono notevoli a patto che si rispettino le norme della legalità.
Hai bisogno di ulteriori informazioni sull’argomento o di una consulenza personalizzata?
MailSenpai è a tua disposizione!