Con il documento di seguito scaricabile, il 20 maggio 2024 il Garante della Privacy ha fornito indicazioni sul fenomeno del web scraping, ossia la raccolta massiva di dati personali dal web per l’addestramento di modelli di intelligenza artificiale generativa (IAG).
Il focus del documento è rivolto ai gestori di siti web e piattaforme online, sia pubblici che privati, operanti in Italia, che sono titolari del trattamento dei dati personali pubblicati.
Il documento sottolinea come il web scraping, quando implica la raccolta di informazioni riconducibili a persone fisiche identificate o identificabili, sollevi problematiche di protezione dei dati personali in conformità al Regolamento (UE) 2016/679 (GDPR).
Viene evidenziato che i titolari del trattamento devono valutare caso per caso la liceità del web scraping, considerando la natura, l’ambito di applicazione, il contesto e le finalità dei dati personali trattati.
Il documento elenca diverse possibili azioni di contrasto al web scraping per finalità di addestramento di IAG che i gestori possono implementare. Tra queste, la creazione di aree riservate accessibili solo previa registrazione, l’inserimento di clausole specifiche nei Termini di Servizio che vietano l’uso di tecniche di web scraping, il monitoraggio del traffico di rete per individuare flussi anomali di dati e l’implementazione di tecniche per limitare l’accesso ai bot, come l’uso di CAPTCHA e la modifica periodica del markup HTML.
Viene inoltre menzionata la possibilità di intervenire sui file robots.txt per escludere specifici bot dallo scraping di dati, sebbene si riconosca che tale misura non possa garantire una protezione completa. Il documento sottolinea che nessuna misura può impedire al 100% il web scraping, ma che queste cautele possono contribuire a mitigare i rischi.
Il Garante evidenzia l’importanza di garantire la riservatezza, l’integrità, la disponibilità e la resilienza dei sistemi di trattamento dei dati, richiamando i principi di sicurezza espressi nell’art. 32 del GDPR. Infine, il documento riconosce i benefici dell’intelligenza artificiale generativa per la collettività, ma sottolinea la necessità di un bilanciamento tra l’innovazione tecnologica e la protezione dei dati personali, invitando i titolari del trattamento a valutare attentamente le misure di contrasto più appropriate.