Privacy: (in)sicurezza dei filtri di pixeling di volti e testi.

A livello di privacy e protezione dei dati, è sufficiente pixellare delle scritte o dei volti sulle immagini prima di condividerle o pubblicarle online? No.

Per quanto attiene ai volti censurati nelle immagini con pixelatura, il machine learning ha permesso un salto di qualità. I ricercatori della Duke University, col progetto Pulse [1], hanno ottenuto risultati migliori rispetto all’approccio detto downscale, basato sull’incremento della risoluzione di un’immagine partendo dalla versione a bassa risoluzione alla quale si applicano algoritmi per prevedere e aggiungere ulteriori dettagli e pixel al fine di generare una versione ad alta risoluzione. Il software Pulse (acronimo di Photo Upsampling via Latent Space Exploration) si basa su un metodo differente, infatti parte sempre da un’immagine in bassa risoluzione ma non la modifica, bensì la ricrea. Mediante l’applicazione di metodi di intelligenza artificiale, Pulse prende come riferimento l’immagine pixelata e genera il viso in modo quasi casuale [2].

In tema di depixeling, miglioramenti importanti sono avvenuti anche per i testi censurati con la sfocatura e la pixelatura, detta anche pixeling o mosaicism, applicate a caratteri al fine di nasconderli nelle immagini. Passando dall’astratto al concreto, ne sono esempi lo screenshot di un codice fiscale pixellato oppure l’offuscamento della targa su una foto di automobile per ottemperare alle norme disciplinanti la protezione dei dati personali.

Anche se la pixellatura ed altri filtri di offuscamento sono più gradevoli da vedere su delle immagini, in questo testo vedremo perché l’unica soluzione sicura sia una banda nera sul testo da censurare.

Dalla lettura di una interessante ricerca intitolata “On the Ineffectiveness of Mosaicing and Blurring as Tools for Document Redaction” [3] (di Steven Hill, Zhimin Zhou, Lawrence Saul, and Hovav Shacham – leggibile in calce alla presente) si arguisce come tecniche quali offuscamento e pixeling non siano idonee a nascondere dati personali. Il testo citato indica il modello di Markov [4] quale ausilio per recuperare dei caratteri offuscati nelle immagini.

Inoltre, in questi ultimi anni, sono stati creati vari tool informatici di depixeling. Lo sviluppatore Jonas Schatz ha creato un software denominato DepixHMM [5] in grado di ricostruire i testi sui quali sia stato applicato un filtro di pixeling. Questo tool è da considerarsi migliorativo rispetto al precedente Depix [6] di Sipke Mellema che era stato oggetto di un articolo di Caleb Herbert “Can Depix deobfuscate your data?” [7] nel quale si argomentava, a seguito di prove su Depix, il basso rischio di sicurezza.

Facciamo una digressione sugli algoritmi di pixellatura per meglio comprendere la problematica. I programmi di grafica, tra i quali citiamo i molto diffusi Photoshop e Gimp, per la pixelatura impiegano linear box filter (filtri a scatola lineare) che dividono l’immagine in blocchi di pixel calcolandone per ognuno la media di pixel presenti. Ogni blocco viene poi sovrascritto con la media calcolata in precedenza. La sfocatura si ottiene invece convogliando l’immagine con una gaussiana bidimensionale. Questi processi non sono completamente irreversibili in quanto molti formati di file immagine supportano i livelli che rappresentano informazioni di elaborazione utili a ricostruire l’immagine originale. Ancor più, bisogna considerare che i testi hanno regolarità prevedibili. Al riguardo è didattico dare anche una definizione di livello. I livelli sono entità trasparenti, semitrasparenti o piene sovrapponibili una sopra l’altra e che possono contenere qualsiasi cosa che può essere importata ed elaborata con software di fotoritocco tipo Gimp. Il più banale degli esempi è uno sfondo bianco con una scritta nera che si compone di un livello completamente bianco sul quale si sovrappone un secondo livello trasparente con scritta nera.

Esempio di testo su immagineEsempio di applicazione di filtro pixel:

Esempio di applicazione di filtro pixel:

In passato, utilizzando algoritmi diversi dal linear box filter, si bypassava il problema del depixeling. Nel febbraio 2022, Dan Pedro, lead researcher della Bishop Fox, ha fatto un passo avanti, mettendo in chiaro un testo che non sarebbe stato possibile palesare con Depix. Il risultato di questo ricercatore è il tool Unredacter [8].

A fronte di tutto ciò, l’attento lettore avrà dedotto che, alla luce del Gdpr e dello stato della tecnica attuale, non sia più sicuro avvalersi di filtri di pixellatura ,offuscamento, fuzzy, swirl e blur per nascondere testi. Idee, la cui sicurezza è da verificare, potrebbero essere:

colorare la scritta in modo che non sia leggibile e salvare in formati che non supportino i livelli (probabilmente perdendo in qualità dato che i più diffusi jpg, tiff e png supportano livelli);

effettuato lo screenshot, bisognerebbe tracciare una banda colorata sopra la scritta e poi farne uno screenshot (sostanzialmente uno screenshot dello screenshot censurato).

Fonti:

[1]

https://www.gizmodo.com.au/2020/06/researchers-have-created-a-tool-that-can-perfectly-depixelate-faces/ [“Researchers Have Created a Tool That Can Perfectly Depixelate Faces”, come da accesso del 2giu2022]

[2]

http://pulse.cs.duke.edu/ [come da accesso del 2giu2022]

[3]

https://www.researchgate.net/publication/305423573_On_the_Ineffectiveness_
of_Mosaicing_and_Blurring_as_
Tools_for_Document_Redaction
[come da accesso del 27mag2022]

[4]

https://web.archive.org/web/20070209162249/http://www.caip.rutgers.edu/~lrr/Reprints/tutorial%20on%20hmm%
20and%20applications.pdf [come da accesso del 27mag2022]

https://it.wikipedia.org/wiki/Modello_di_Markov_nascosto [come da accesso del 27mag2022]

[5]

https://github.com/JonasSchatz/DepixHMM [come da accesso del 27mag2022]

[6]

https://www.forbes.com/sites/barrycollins/2020/12/07/huge-security-alert-as-free-tool-reveals-pixelized-passwords/?sh=225aaa503ea7 [come da accesso del 27mag2022]

https://github.com/beurtschipper/Depix [come da accesso del 27mag2022]

[7]

https://labs.jumpsec.com/can-depix-deobfuscate-your-data/ [come da accesso del 27mag2022]

[8]

https://bishopfox.com/blog/unredacter-tool-never-pixelation [come da accesso del 27mag2022]

https://github.com/bishopfox/unredacter [come da accesso del 27mag2022]

Andrea Gandini è un giurista e programmatore, autore di manuali e saggi. Master di secondo livello in protezione dei dati; perfezionamento in programmazione per giuristi e legal tech; laurea in giurisprudenza; diploma di perito informatico.​​ Responsabile di amministrazione del Personale presso una azienda ove partecipa a progetti di digitalizzazione ed automatismi amministrativi. A livello extra aziendale, svolge occasionali consulenze di office automation e protezione dati. Blog personale: www.dottorgandini.it Il dottor Gandini è autore dei seguenti ebook: Cyberfuture; Il buio oltre il web; Guadagnare con i bitcoin; Cavalca le bolle speculative; Dal CAD al web; Come trovare lavoro e fare carriera in tempo di crisi; Programmatore in 3 giorni. Blog personale: www.dottorgandini.it Progetto: www.normativedatabase.net