INTRODUZIONE 3
Indice
INTRODUZIONE 3
ACCORDO DI COLLABORAZIONE ENEA-ISTBO 4
CRONOPROGRAMMA DELLE ATTIVITÀ 5
Attività svolte 6
Attività future 7
SELEZIONE DELLE OPERE ED INSTALLAZIONE DEI DISPOSITIVI 7
ARCHITETTURA DELLA RETE WI-FI 11
SCELTA DEI DISPOSITVI 12
ACQUISIZIONE DEI DATI TRAMITE RETI NEURALI CONVOLUZIONALI (CNN) 15
Risoluzione delle criticità emerse nelle precedenti sperimentazioni 15
Introduzione di nuove funzionalità 17
Scelta dell’algoritmo di acquisizione dei dati 17
Addestramento di una rete neurale convoluzionale per il riconoscimento del genere 19
Dati di output 20
ARCHITETTURA DEL SISTEMA 21
MQTT Topic 22
Grabber 23
Data base 23
ANALISI DEI DATI 24
Implementazione di un’applicazione basata su tecnologie web per l’elaborazione dei dati 25
CONCLUSIONI 28
Introduzione
Da oltre venti anni ENEA è impegnata in attività volte alla conoscenza, conservazione, valorizzazione e fruizione del patrimonio artistico e culturale del Paese, utilizzando competenze avanzate, tecnologie innovative, strutture di prova complesse, elevata capacità di elaborazione ed interpretazione dei risultati.
In questo lungo e proficuo percorso di applicazioni informatiche al contesto dei beni culturali si inquadra il sistema denominato ShareArt, sviluppato a partire dal 2016 e già testato presso il museo del Centro Studi e Archivio della Comunicazione di Parma1 e presso il Museo Nazionale Etrusco di Villa Giulia a Roma2.
Scopo del sistema ShareArt è la “misurazione” del gradimento di un’opera d’arte, ottenuta non interrogando i visitatori come tradizionalmente fatto finora, quanto piuttosto registrando nel tempo, grazie all’utilizzo delle nuove tecnologie, molteplici indicatori ed ottenendo, con una tipica applicazione Big Data, le informazioni dall’esplorazione di grandi quantità di dati diversi.
In particolare, attraverso una telecamera il sistema ShareArt rileva automaticamente i volti che guardano in direzione dell’opera, acquisendo contestualmente una serie di informazioni relative al comportamento nell'osservazione delle opere d’arte, come il percorso compiuto per avvicinarsi all'opera, il numero di persone che l'hanno osservata, il tempo e la distanza di osservazione, il genere, la classe di età e lo stato d'animo dei visitatori che osservano. L’impiego di algoritmi Big Data consentirà l’estrazione di informazioni significative mettendo in relazione la fruizione delle opere con le caratteristiche dei visitatori.
Inoltre, in questa fase di emergenza legata alla diffusione del Covid-19, il sistema ShareArt può essere utilizzato per aumentare la sicurezza degli ambienti museali rilevando il corretto utilizzo della mascherina ed il distanziamento da parte dei visitatori,
1 Vedi RT ENEA MET-P000-009, Risultati della sperimentazione del sistema “ShareArt” presso il museo del CSAC a Parma
2 Vedi RT ENEA MET-P000-014, Risultati della sperimentazione del sistema “ShareArt” presso il Museo Nazionale Etrusco di Villa Giulia a Roma
attivando in tempo reale una segnalazione visiva per ricordare il rispetto delle disposizioni.
Si tratta di un cambio di prospettiva, per il quale non è solo il visitatore che osserva l’opera ma anche l’opera che monitora il pubblico all’interno di un percorso museale, in una mostra temporanea, in una galleria o in un sito archeologico, generando dati oggettivi in merito al gradimento ed alla fruizione da parte dell’osservatore dell’opera e degli spazi antistanti la stessa.
A differenza di altri metodi di monitoraggio del pubblico dei musei, ShareArt non richiede alcuna attività da parte del visitatore né dispositivi da indossare che, agendo sul suo comportamento naturale, influenzerebbero i dati raccolti alterandoli. Inoltre, la tecnologia impiegata è compatibile con il regolamento GDPR sul rispetto della privacy perché non acquisisce né memorizza dati associabili a una persona fisica o che ne indichino la posizione geografica.
Risulta evidente come i dati raccolti costituiscano un capitale informazionale molto prezioso per gli operatori museali, che possono così analizzare, con dati concreti, le modalità di fruizione delle opere esposte, evidenziando punti di forza, eventuali criticità, possibili miglioramenti utili per ottimizzare l’esposizione delle opere stesse e il percorso di visita, misurando poi gli effetti delle azioni intraprese.
Accordo di collaborazione ENEA-ISTBO
Per lo sviluppo del sistema ShareArt ENEA ha proposto una collaborazione all'Istituzione Bologna Musei, il sistema museale civico di Bologna che riunisce un articolato e complesso patrimonio storico, artistico e culturale, distribuito in quattordici sedi espositive. In quanto sistema museale, l’Istituzione si qualifica infatti come ambito ideale per la sperimentazione e l’applicazione del sistema ShareArt in diversi contesti, con un vantaggio reciproco per entrambi gli attori. La proposta è stata valutata di grande interesse ed è stato siglato un Accordo di collaborazione della durata di due
anni tra il dipartimento Tecnologie Energetiche e Fonti Rinnovabili (TERIN) di ENEA e ISTBO3.
Grazie all’accordo, XXXX può oggi disporre di un laboratorio sul campo per lo sviluppo del sistema, la verifica delle sue funzionalità ed in prospettiva la possibilità di testarlo su scala adeguata, in occasione di una mostra o su un’esposizione permanente. Dal canto suo l’Istituzione ha l’opportunità di incrementare, sia sul piano quantitativo che qualitativo, le attività di raccolta dati e analisi del pubblico relativamente alla percezione ed all’interazione verso i propri spazi e percorsi.
La collaborazione si inserisce inoltre a pieno titolo in un ambito di ricerca e sviluppo, quello dei Big Data, di grande e attuale interesse per la Regione Xxxxxx-Romagna, impegnata a realizzare un ambizioso progetto per concentrare nel Tecnopolo di Bologna una potenza di calcolo e un expertise di supercalcolo, Big Data e Intelligenza Artificiale di rilevanza internazionale.
Cronoprogramma delle attività
Per l’avvio del progetto, tra le diverse sedi espositive dell’Istituzione sono state individuate le Collezioni Comunali d'Arte, situate al secondo piano di Palazzo d'Accursio. Nelle loro sontuose sale ambientate, un tempo adibite a residenza dei Cardinali Legati rappresentanti del potere pontificio, è possibile ammirare un ricco e variegato patrimonio di dipinti, sculture, mobili, arredi e suppellettili sedimentatosi nel tempo grazie a successive donazioni di magistrature cittadine e collezioni private.
Le attività previste dall’accordo sono state definite in un cronoprogramma condiviso che purtroppo, a causa della diffusione del Covid-19, ha subito delle interruzioni per la forzata chiusura dei musei avuta dapprima nella primavera 2020 e nuovamente a partire da novembre 2020 fino a a gennaio 2021 come misura di contenimento dell’epidemia.
3 Prot. ENEA/2019/0061593/PROTGEN
Attività svolte
Di seguito si riportano le attività relative alla prima fase dell’accordo, attualmente concluse ed oggetto del presente Rapporto Tecnico.
• Sopralluogo presso le Collezioni Comunali d’Arte per la selezione delle prime opere da monitorare.
• Installazione di 2 dispositivi al fine di testarne il funzionamento e loro connessione alla rete ENEA per il trasferimento dei dati.
• Progettazione e realizzazione di un sistema per l’acquisizione in tempo reale dei dati e loro memorizzazione in una banca dati.
• Scelta degli apparati elettronici più idonei per l’assemblaggio dei dispositivi e per la visualizzazione degli alert in tempo reale sul rispetto delle misure di contrasto alla diffusione del Covid-19.
• Acquisizione degli apparati elettronici per l’assemblaggio di 20 dispositivi e la realizzazione di una rete Wi-Fi dedicata per la raccolta dei dati.
• Aggiornamento dell’algoritmo per l’implementazione delle nuove funzioni (rilevamento mascherine, rilevamento distanziamento sociale, stima del genere, della classe d’età e dello stato d’animo del visitatore).
• Implementazione di un’applicazione basata su tecnologie web per l’elaborazione dei dati, la loro consultazione e analisi.
A supporto delle attività di aggiornamento dell’algoritmo e di realizzazione dell’applicativo web è stato attivato un tirocinio curriculare, nell’ambito del master di secondo livello della Sapienza Università di Roma in Metodi statistici per la società della conoscenza4, che ha permesso a uno studente di approfondire lo studio di questi aspetti e di seguire, per un periodo di due mesi, il progetto di sviluppo e implementazione del dispositivo, effettuare l’analisi dei dati e sviluppare i tools necessari per la loro consultazione e visualizzazione.
4 La tesi, dal titolo “Rapporto di ricerca sul sistema ShareArt: un sistema di AI, open source, per la raccolta di dati tramite reti neurali convoluzionali e la loro elaborazione tramite una reactive Web-based application” è stata insignita di uno dei due premi da 2000€ per il miglior progetto finale tra i masterizzandi senza borsa o altre agevolazioni
Attività future
Le attività programmate nell’ambito della collaborazione e non ancora eseguite avranno inizio quando sarà terminata l’acquisizione dei dispositivi elettronici, presumiblmente a marzo 2021. Le attività previste sono riportate di seguito.
• Sopralluogo presso le Collezioni Comunali d’Arte per la selezione di tutte le opere da monitorare.
• Assemblaggio ed installazione di 20 dispositivi.
• Realizzazione della rete Wi-Fi dedicata per la raccolta dei dati.
• Aggiornamento del sistema di acquisizione per aumentarne l’efficienza e la scalabilità.
• Messa in eserciozio dei 20 dispositivi ed acquisizione dei dati per un periodo di 3 mesi.
Selezione delle opere ed installazione dei dispositivi
La scelta delle opere da monitorare nel corso della prima fase dell’accordo è stata ispirata dalla semplicità di installazione dei dispositivi, quindi partendo da una serie di requisiti:
• vicinanza alla presa di corrente;
• disponibilità di una connessione di rete con segnale stabile;
• possibilità di collocare la scheda di acquisizione dotata di monitor in posizione sicura ma visibile, per poter fornire al visitatore l’alert sul rispetto delle disposizioni anti Covid-19;
• possibilità di collocare la telecamera in posizione quanto più possibile nascosta.
La direttrice delle Collezioni Comunali d’Arte ha quindi selezionato in base a questi requisiti alcune opere il cui monitoraggio è di interesse per il museo, o perché opere di particolare rilevanza o perché caratterizzate da particolarità legate al percorso di visita o alle condizioni di esposizione che necessitano di approfondimento.
Successivamente, nel corso di un sopralluogo congiunto, tra queste opere sono state selezionate le due che meglio soddisfacevano tutti i requisiti: l’Annunciazione di
Xxxxxx xx Xxxxx, nella sala V, e la Crocefissione con San Xxxxxxxx e San Xxxxxxxx di Xxxxxxxxx Xxxxxxx, nella sala VI.
La prima opera è un dipinto su tavola (Fig. 1) di generose dimensioni (115x148 cm circa), datato XIV secolo, disposto su una parete laterale della sala insieme ad altri dipinti. Lo spazio antistante l’opera è molto ampio e privo di ostacoli essendo la sala di dimensioni particolarmente grandi; si tratta di una sala di “passaggio” nella quale i visitatori entrano dalla sinistra dell’opera ed escono alla destra per proseguire il percorso nella sala VI attraverso due porte, ma il flusso procede anche nel senso opposto poiché per uscire da questa ala del museo occorre percorrere a ritroso le sale. Attualmente, per favorire il distanziamento sociale, è stato istituito una sorta di senso unico per cui i visitatori escono da una porta ed entrano dall’altra, per cui il passaggio davanti all’opera dovrebbe avvenire da destra verso sinistra.
Fig. 1: Annunciazione di Xxxxxx xx Xxxxx
Di fronte all’opera, sulla parete opposta della sala, è presente una grande finestra oscurata da una tenda, che comporta una certa variabilità nelle condizioni di illuminazione dell’opera nel corso della giornata. Questa variabilità, unita al fatto che la telecamera del sistema debba lavorare in condizioni di contro luce, ha reso più
complessa la ricerca dei settaggi ottimali del sistema ai fini del riconoscimento. Inoltre potrebbe portare i visitatori all’osservazione dell’opera da aree ben definite della sala in cui non ci sia il disturbo del riflesso della finestra sulla superficie dell’opera stessa.
Sia il dispositivo, accoppiato al monitor su cui sono visualizzate le segnalazioni sul rispetto della normativa anti Covid-19, che la telecamera sono stati collocati sul fianco destro dell’opera, fissati sul cartellino che reca la didascalia con delle fascette in plastica (Fig. 2). Il router per la rete Wi-Fi è disposto a poca distanza, per cui il segnale della connessione è di ottima qualità. Sia il dispositivo che il router sono stati alimentati continuativamente, per cui il sistema non era soggetto allo spegnimento ed alla riaccensione ogni giorno.
Fig. 2: posizione del sistema ShareArt
La seconda opera monitorata è invece un dipinto su tavola (Fig. 3) di dimensioni più piccole (34x50cm circa), risalente al XV secolo ed esposto su un piedistallo ligneo che lo porta all’altezza degli occhi, collocato su una parete della sala VI.
Fig. 3: Crocefissione di Xxxxxxxxx Xxxxxxx
L’opera non è in un punto di passaggio obbligato del flusso dei visitatori, che insiste sulle due pareti lunghe della sala, ed ha di fronte a se, ad una distanza inferiore a due metri, un espositore a teca con illuminazione interna contenente altre opere. Questo espositore condiziona notevolmente le possibilità di osservazione dell’opera, che è limitata allo spazio ad essa antistante. Anche in questo caso, come per l’Annunciazione, la telecamera è posta in condizioni di contro luce, essendo disturbata dall’illuminazione della teca.
La telecamera è stata collocata sulla parte superiore della cornice del dipinto, leggermente inclinata verso il basso per poter rilevare anche le persone di statura più bassa, mentre la scheda di acquisizione con il monitor è stata fissata con delle fascette in plastica sul piedistallo al di sotto dell’opera (Fig. 4). La connessione alla rete Wi—Fi è abbastanza buona, nonostante una distanza di circa 15m dal router, posizionato nella sala a fianco. Questo sistema è collegato ad una presa di corrente che viene disalimentata ogni sera alla chiusura del museo e riattivata la mattina successiva, pertanto ogni giorno il sistema deve riaccendersi, collegarsi al Wi-Fi ed avviare il monitoraggio.
Fig. 4: posizione del sistema ShareArt
Architettura della rete Wi-Fi
Nel corso del primo sopralluogo effettuato è stato inoltre redatto un primo elenco delle opere che potrebbero essere oggetto di monitoraggio nel corso della seconda fase della collaborazione, quando sarà possibile installare 20 dispositivi contemporanemente, al fine di rilevare fin da subito possibili problematiche legate all’installazione ed individuare le eventuali soluzioni, programmando l’acquisizione della strumentazione necessaria, in particolare quella correlata alla realizzazione della rete Wi-Fi per il trasferimento dei dati. Infatti, non essendo disponibile in tutte le sale del museo una rete Wi-Fi dell’Istituzione e per evitare ogni possibile interferenza con i i sistemi informatici del museo per preservarne la sicurezza e la gestione esclusiva del museo, è stato deciso di creare una rete ad hoc, con l’acquisizione della strumentazione necessaria.
La possibilità di avere una rete dedicata di proprietà ENEA assicura, oltre ad una buona connessione per tutti i dispositivi che saranni installati, numerosi altri vantaggi: innanzi tutto garantisce l’indipendenza nella gestione della rete e degli eventuali
problemi, senza necessità di doversi interfacciare con il personale dell’Istituzione, e la massima flessibilità nella sua realizzazione che, essendo dedicata unicamente al sistema ShareArt, può essere ottimizzata per garantire a tutti i dispositivi che saranno installati la massima qualità del segnale possibile. Inoltre, essendo una rete basata su dispositivi mobili, ha il grande vantaggio di poter essere in futuro rapidamente spostata in un altro museo unitamente ai dispositivi, costituendo di fatto parte integrante del sistema ShareArt in un’ottica di servizio auto-consistente.
La numerosità dei dispositivi di acquisizione che saranno installati e la vastità dell’area su cui saranno dislocati richiedono la realizzazione di una rete di comunicazione Wi- Fi di tipo mesh. Questo approccio si basa su due tipologie di apparati: un router- modem per la connessione ad internet, e dei satelliti per estendere la copertura del segnale sull’intera area d’interesse con topologia a stella. In base alla planimetria dell’edificio ed alla disposizione ipotizzata per i dispositivi si è valutato che fosse necessario l’acquisto di 3 router-modem e di 15 satelliti.
Scelta dei dispositvi
Il sistema si compone di una serie di dispositivi di acquisizione dati, oggi disponibili sul mercato a costi contenuti, che raccolgono le informazioni e le inviano a un server centrale per l’elaborazione e l’immagazzinamento. Un’applicazione web consente la consultazione dei dati, consentendone un’analisi multidimensionale interattiva con tecniche OLAP (On-Line Analytical Processing).
In particolare, per l’assemblaggio di ognuno dei 20 dispositivi di acquisizione sono necessari: una telecamera; una scheda di elaborazione SBC (Single Board Computer) che si occupa di acquisire le immagini dalla fotocamera, estrarre i dati di interesse e di fornire un’interfaccia per il trasferimento in remoto dei dati acquisiti; una scheda microSD per l’archiviazione dei dati; uno stick USB per le reti neurali; un alimentatore 220V con connettore di tipo USB; un monitor per visualizzare gli alert.
I dispositivi scelti per la realizzazione del sistema ShareArt, dettagliati nella seguente tabella, sono stati selezionati per la loro facilità di reperimento sul mercato, per il loro
basso costo e, soprattutto, per l’elevata capacità computazionale che consente di fare tutte le elaborazioni necessarie ad estrarre i dati di interesse. Inoltre non è da sottovalutare il lato estetico dei componenti scelti che, combinati insieme, consentono di ottenere un dispositivo compatto e gradevole alla vista, facilmente installabile nelle vicinanze delle opere senza perturbare troppo l’allestimento della mostra.
L’elenco dettagliato della apparecchiature, delle specifiche tecniche e dei relativi prezzi è riportato nella Tabella 1.
Tabella 1: specifiche tecniche delle apparecchiature necessarie per l’assemblaggio dei dispositivi
Funzione | Descrizione | Prezzo (€) |
Single Board Computer (SBC), unità centrale di acquisizione, elaborazione e trasferimento dei dati | Raspberry PI 4, Model B, 4GB, ARM- Cortex-A72 4X 1,50 GHz, 4 GB RAM, WLAN-AC, Bluetooth 5, LAN, 4X USB, 2X Micro-HDMI | 60,00 |
Scheda di memoria per contenere il programma da eseguire ed i dati raccolti | Scheda di Memoria Microsdxc da 64 GB e Adattatore SD con App Performance A2 e Rescue Pro Deluxe, Fino a 160 MB/Sec, Classe 10, Uhs-I, U3, V30 | 20,00 |
Alimentatore della Raspberry. Il consumo stimato è di 16W. | Berls 5.1V 3A Cavo Caricatore Tipo C, Alimentatore Compatibile con Raspberry Pi 4 Modello B da 1 GB / 2 GB / 4 GB con Alimentatore Switching. | 8,00 |
Schermo LCD per visualizzare le segnalazioni in merito al rispetto delle normative anti Covid-19 | Owootecc Raspberry Pi 4 Modello B Touchscreen da 3,5 Pollici con Custodia Raspberry Pi 4, Monitor LCD TFT da 320x480 Monitor, con Ventola Raspberry Pi | 27,00 |
Telecamera per l’acquisizione delle immagini. Si collega alla Raspberry via cavo flex CSI. | Raspberry Pi Official Camera Module V2 8Mp | 27,00 |
Contenitore per la telecamera. | Raspberry Pi camera case/Enclouser - nero assemblare in 30 secondi | 8,00 |
Cavi Flex CSI di varie lunghezze per consentire il distanziamento della telecamera dalla Raspberry fino a 2m. | AZDelivery 3 x Cavo Flessibile Flex Cable da 200 cm Per Camera Raspberry Pi | 8,00 |
Stick USB per le reti neurali | Intel - Movidius Neural Compute Stick 2 w/Myramid | 130,00 |
Il costo totale di ogni singolo dispositivo è inferiore ai 300€, cifra abbastanza contenuta che permette, quindi, di poter acquisire un buon numero di dispositivi necessari ad eseguire la sperimentazione necessaria, compatibilmente con le risorse economiche a disposizione.
Acquisizione dei dati tramite reti neurali convoluzionali (CNN)
Le precedenti attività di sperimentazione, condotte nel 2016 presso il museo dello CSAC a Parma e nel 2018 presso il Museo nazionale Etrusco di Villa Giulia a Roma, hanno consentito di sviluppare le prime funzioni del sistema ShareArt, quali la misurazione del numero di volti rilevati, il tempo medio di osservazione e la posizione di osservazione. La verifica sul campo di tali funzionalità ha suscitato il grande interesse da parte di entrambe le istituzioni, sia per la capacità di fornire informazioni oggettive che per l’impatto nullo sul visitatore, al quale non è richiesta nessuna particolare attività. Dal confronto con la realtà museale e con le richieste dei curatori sono emerse alcune criticità da risolvere per migliorare ulteriormente la qualità dell’informazione ottenuta e si sono individuati altri aspetti di interesse da implementare nel sistema.
Risoluzione delle criticità emerse nelle precedenti sperimentazioni
Tra le principali criticità era emersa la difficoltà di correlare con precisione il numero di volti rilevati con il numero di osservatori reali. Infatti, sebbene i dispositivi rilevassero con molta precisione i volti che in un dato istante osservavano in direzione della telecamera, il fatto di non aver voluto sviluppare (per motivi legati alla privacy dei
visitatori) un algoritmo per il riconoscimento dei volti aveva reso difficile la traduzione di questa informazione in un numero oggettivo ed affidabile, poiché il dispositivo non correlava l’informazione acquisita in un dato istante a quella acquisita nell’istante successivo e quindi non permetteva di dire con certezza che il volto rilevato in quel momento fosse lo stesso di quello rilevato un attimo dopo.
Acquisendo nei primi test circa 3 frame al secondo, si riteneva logico ipotizzare che in frame consecutivi il volto rilevato potesse essere sempre lo stesso: tuttavia se questo era assolutamente valido nel caso in cui si rilevava un solo volto, poteva non esserlo se i volti rilevati fossero stati più di uno simultaneamente. Osservando i comportamenti del pubblico durante l’esperimento si era visto ad esempio che in presenza di gruppi di più persone difficilmente queste osservavano tutte contemporaneamente la stessa opera: alcuni guardavano altre opere, altri parlavano tra di loro, altri scattavano immagini con lo smartphone coprendosi così il volto. Quello che veniva rilevato in questo caso dal dispositivo era un numero oscillante di osservatori, quasi sempre inferiore al numero reale.
Per ovviare a questo problema, tutelando sempre la privacy dei visitatori in base alla normativa vigente, la soluzione individuata è consistita nell’ottimizzazione dei singoli dispositivi, finalizzata a rendere la rilevazione del pubblico più rapida, affidabile e particolareggiata. Questa ottimizzazione è basata su due azioni: la prima è l’utilizzo di uno stick USB per le reti neurali che aumenta le capacità di calcolo della scheda di acquisizione dati, permettendo quindi di incrementare notevolmente il numero di frame per secondo dell’analisi fino a circa 10.
La seconda è l’implementazione di un nuovo algoritmo di rilevamento dei volti, basato su reti neurali convoluzionali (CNN), che prevede anche una funzione di tracking dell’osservatore, ferma restando la tutela della privacy: quando l’osservatore entra nel campo visivo della telecamera gli viene assegnato un id numerico e viene seguito, indipendentemente che stia o meno osservando in direzione dell’opera, in modo che il numero di volti che osservano l’opera rilevato dal sistema sia riferito allo specifico id e dunque ad ogni singolo visitatore. Inoltre la funzione di tracking permette di migliorare la definizione del percorso seguito da ogni visitatore nello spazio antistante l’opera.
Introduzione di nuove funzionalità
L’impiego delle reti neurali convoluzionali ha permesso di introdurre nel sistema delle nuove funzionalità, come la verifica delle disposizioni anti Covid-19 (corretto utilizzo della mascherina e rispetto del distanziamento) e la stima della classe d’età e del genere dei visitatori, ottenendo in questo modo una loro profilazione.
Durante questa prima fase della collaborazione si è anche testata la valutazione dello stato d’animo degli osservatori, che permetterebbe di affinare ulteriormente la profilazione e soddisferebbe un’altra richiesta avanzata dai curatori dei musei. Attualmente, con l’obbligo di indossare la mascherina in osservanza delle normative per il contrasto della diffusione del Covid-19, la stima del loro stato d’animo è molto complessa poiché gran parte del volto risulta coperta, in particolare la bocca che è alla base di questa valutazione (Fig. 5).
Fig. 5: stima dello stato d’animo con e senza mascherina
I risultati ottenuti non sembrano per ora particolarmente significativi ma si è deciso di implementare comunque la funzione, in attesa che l’obbligo di indossare la mascherina sia revocato e quindi la stima sia più attendibile.
Scelta dell’algoritmo di acquisizione dei dati
Per quanto riguarda l’acquisizione dei dati si è partiti da un algoritmo open source scritto in Python, che utilizza rete neurali convoluzionali pre-addestrate al fine di fornire
diversi dati sulle immagini rilevate in tempo reale ed elaborate direttamente dalla Rasberry.
L’utilizzo di algoritmi già pronti ha sicuramente permesso al sistema di essere implementato in maniera abbastanza rapida, ma ha reso necessaria una fase successiva di messa a punto per migliorare l’attendibilità dell’analisi, in particolare per quanto riguarda l’età ed il genere dell’osservatore, che in alcune condizioni di luminosità sono più difficili da stimare. Si è quindi ricercato un nuovo algoritmo per il riconoscimento del genere ed è stata messa a punto una procedura per il suo addestramento.
Un modello di CNN particolarmente interessante, che rileva simultaneamente la presenza di un volto in un’immagine, lo localizza e ne stima la posa ed il genere è HyperFace5 (Fig. 6).
Fig. 6: architettura della rete Hyperface
L’algoritmo è costituito da tre moduli: il primo genera le proposte regionali dall’immagine di input e le ridimensiona a 227x227 pixel; il secondo è una CNN che
5 X. Xxxxxx, V. M. Xxxxx, and X. Xxxxxxxxx (2017). Hyperface: A deep multi-task learning framework for face detection, landmark localization, pose estimation, and gender recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence 41(1), 121–135.
prende le regioni candidate ridimensionate, effettua una classificazione binaria (volto, non volto) e se una regione viene classificata come volto fornisce le posizioni dei punti di riferimento facciali, la stima della posa e le informazioni sul genere; il terzo modulo è un post-processing. L’architettura di rete è estremamente complessa e consiste in 5 strati convoluzionali insieme a 3 strati completamente connessi.
Addestramento di una rete neurale convoluzionale per il riconoscimento del genere
L’addestramento della rete neurale convoluzionale utilizzata per il riconoscimento del genere è stato eseguito con l’utilizzo del cluster CRESCO6 dell’ENEA con sede a Portici. Il dataset utilizzato è composto da 56’658 immagini formato .jpg di diverse dimensioni presenti sul sito Kaggle.com6: il dataset è diviso in 29’084 immagini di donne e 29’574 di uomini. Per l’addestramento si sono create due partizioni, una pari al 70% delle immagini utilizzata per l’addestramento ed una pari al restante 30% per la validazione.
In fase di prepocessing le immagini si sono riportate tutte a dimensione 96x96x3, e la partizione per l’addestramento è stata estesa creando delle copie delle immagini (in batch e non in maniera additiva) modificando del 10% la loro altezza e larghezza, capovolgendole in altezza e larghezza, ruotandole, applicando uno zoom e ritagliando alcune parti in maniera casuale.
I risultati dell’addestramento sono stati molto positivi, con il modello che raggiunge circa il 97% di accuratezza ed ha un buon adattamento (Fig. 7).
6 xxx.xxxxxx.xxx/xxxxxxxxx/xxxxxx-xxxxxxxxxxxxxx- xxxxxxxxxx.xxxxxx.xxx/xxxxxxxxx/xxxxxxxxxxxxxxxxxxxx-xxxxxxx
Fig. 7: risultati dell’addestramento della CNN
Dati di output
L’algoritmo è realizzato in modo tale che il sistema non conservi, ne tanto meno trasferisca, dati che potrebbero in qualche modo portare al riconoscimento dei visitatori rilevati. Infatti i dati trasferiti tramite connessione Wi-Fi al DB sono solo delle stringhe, relative alle seguenti informazioni:
• devtime (variabile in formato datetime che indica data e ora dell’acquisizione);
• site (variabile categoriale nominale che indica il museo in cui è posizionata la telecamera);
• room (variabile categoriale nominale che indica l’ambiente in cui è posizionata la telecamera);
• device (variabile categoriale nominale che indica l’opera in esame);
• face id (variabile formalmente numerica, ma il cui scopo è quello di assegnare un’identificativo al visitatore per il tracking);
• bounding box del volto (4 variabili quantitative discrete che indicano le coordinate x,y e la larghezza e l’altezza del del volto);
• mask (variabile booleana true, false che indica se sul volto rilevato è presente e correttamente indossata la mascherina);
• xdir e ydir (2 variabili quantitative continue che indicano le coordinate x,y della posizione del volto rispetto alla telecamera);
• xdist e ydist (2 variabili quantitative continue che indicano le coordinate x,y in termini di distanza del volto rispetto alla telecamera);
• yaw, pitch, e roll (3 variabili quantitative continue che indicano l’insieme delle rotazioni della faccia del visitatore rispetto agli assi del sistema di riferimento cartesiano).
• age (variabile quantitativa discreta che fornisce l’età stimata del visitatore);
• gender (variabile categoriale dicotomica che indica il genere stimato del visitatore);
• emotion (variabile categoriale nominale che indica lo stato d’animo stimato del visitatore).
Architettura del sistema
In termini concettuali, il sistema ShareArt può essere considerato costituito da tre componenti fondamentali ciascuna delle quali svolge una funzione specifica: acquisizione, persitenza e analisi. Questa suddivisione funzionale risulta evidente osservando la Fig. 8 che illustra l’architettura del sistema.
SATELLITE
PUBLISH
ROUTER MODEM 4G
INTERNET
SATELLITE
COLLEZIONI COMUNALI D’ARTE
PALAZZO D’ACCURSIO
ANALISI
WEB APPLICATION
PERSISTENZA
GRABBER
DB
SUBSCRIBE
LAN
MQTT BROKER
SBC
SBC
SBC
SBC
SBC
SBC
ENEAGRID
XXXXXX XXXX XXXXXXX
Xxx. 0: architettura del sistema ShareArt
La componente di acquisizione comprende sia i dispositivi single-board-computer, dislocati presso la struttura museale, sia la rete Wi-Fi mesh che provvede a trasferire, tramite internet, i dati acquisiti. In particolare, quest’ultimi, sono trasmessi con protocollo mqtt a un server dedicato (MQTT BROKER) ospitato nell’infrastruttura ENEAGRID presso il Centro ENEA di Bologna. La logica seguita è quella tipica dell’Internet of Things (IoT): ogni SBC pubblica i propri dati presso il BROKER contrassegnandoli con un prefisso (TOPIC) definito secondo il protocollo MQTT.
La persistenza dei dati prodotti è assicurata da un server di ENEAGRID che, grazie a un’applicazione java sviluppata ad hoc (GRABBER), acquisisce (subscribe) i dati dal BROKER tramite la rete locale (LAN) e li memorizza in una banca dati.
Infine, un applicativo web (WEB APPLICATION) sviluppato con Dash, una libreria open source per la creazione di applicazioni reattive, consente l’analisi e la visualizzazione dei dati.
MQTT Topic
I dati acquisiti da ciascun dispositivo single-board-computer sono pubblicati sul Broker tramite protocollo mqtt. Affinchè sia possibile distinguere da quale dispositivo provengano i dati, ciascuno di essi utilizza un prefisso (topic) costituito da una stringa UTF-8. Nel protocollo mqtt versione 3 impiegato in ShareArt, il topic può essere strutturato in livelli gerarchici impiegando il simbolo / come separatore. Di seguito è riportata la struttura del topic che si riferisce ai volti dei visitatori:
Site/Room/Device/visitors/faces
I valori trasmessi sono contenuti in un’unica stringa (payload) e sono separati da uno spazio secondo l’ordine che segue:
DevTime RelTime FaceID Xcoord Ycoord Width Height Xdir Ydir Xdist Ydist Yaw Pitch Roll Age Gender Emotion
Per il loro significato si rimanda alla sezione Dati di output.
A titolo di esempio, si riporta un messaggio mqtt generato dal device SBC della sala numero 5, relativo all’Annunciazione di Xxxxxx xx Xxxxx:
IstBO/Room_5/Annunciazione_Iacopo/visitors/faces 1614178.27604 13.02 26 131.0 152.0 218 214 1
166.0 162.0 66.1 99.1 131.0 64.0 116.2 77.3 F Normal
Grabber
Il grabber è un applicativo Java che, utilizzando le librerie del progetto Eclipse Paho, acquisisce i messaggi mqtt dal broker e li memorizza in una banca dati appositamente progettata. Si basa su un thread java che può essere controllato da un’interfaccia grafica web. Oltre al comando di start/stop dell’acquisizione, visualizza alcuni indicatori grafici per valutare il corretto funzionamento dell’acquisizione, come illustrato in Fig. 9.
Fig. 9: interfaccia grafica del grabber
Data base
Il database, progettato per assicurare la persistenza dei dati acquisiti, è di tipo relazionale e si basa su una semplice tabella i cui attributi sono costituiti esattamente dai dati che compongono il payload dei messaggi mqtt. In definitiva, ciascun record della tabella contiene i dati relativi a un messaggio mqtt acquisito dal broker e, grazie al topic, è possibile associarlo al dispositivo che lo ha generato.
Opportune viste, ottenute dalla tabella principale, consentono di ottenere dati utili quali, a esempio, il numero di visitatori per unità di tempo, il tempo di osservazione dell’opera o la distribuzione spaziale dei visitatori di fronte a essa.
Analisi dei dati
L’installazione di venti dispositivi e l’implementazione delle nuove funzioni per la stima della classe d’età e del genere dei visitatori comporterà, nella prossima fase della collaborazione, notevoli impatti anche sulla fase di analisi dei dati. Se infatti nelle prime due sperimentazioni, con l’impiego di due soli dispositivi per un periodo molto limitato di tempo, i dati prodotti erano esigui ed utili fondamentalmente solo per testare il funzionamento del sistema, i dati che si otterranno da venti dispositivi su un periodo di tempo notevolmente più lungo saranno inevitabilmente molti di più ed anche più completi, considerando le nuove funzionalità.
Si supererà quindi la fase di mero test del sistema per entrare in una fase in cui allo sviluppo dei dispositivi si deve accompagnare la capacità di gestire la grande mole di dati che si otterrà e soprattutto la capacità di trasformarli in informazioni utili per l’Istituzione, incrociando gli aspetti legati all’osservazione (numero di visitatori, tempo e distanza di osservazione, percorsi seguiti) con quelli legati alla profilazione dei visitatori. Si potranno quindi ottenere informazioni quali ad esempio il tempo medio o la distanza di osservazione suddivisi per genere e per classe d’età, i punti di osservazione dell’opera preferiti dai bambini o dalle persone più anziane, i percorsi preferiti dagli uomini e quelli preferiti dalle donne.
Inoltre, installando un numero significativo di dispositivi lungo tutto il percorso della mostra, questi dati saranno disponibili non solo per le singole opere su cui sono installati i dispositivi, ma anche per l’insieme delle opere monitorate, aprendo lo studio alle correlazioni tra i dati ottenuti nei diversi punti del museo, classificandoli ad esempio per tipologia o dimensioni dell’opera, importanza all’interno del percorso espositivo, caratteristiche dell’ambiente circostante, posizione lungo l’itinerario di visita ecc.
In aggiunta, si potranno identificare i percorsi più probabili che il pubblico compie all’interno del museo, suddividendoli sempre in base alla profilazione dei visitatori, o ottenere informazioni sugli aspetti sociologici della fruizione delle opere, ad esempio, su come l’allestimento della mostra sia vissuto in maniera diversa a seconda dell’età e del genere dell’osservatore o, quando non sarà più obbligatorio indossare la mascherina ed il dato sarà attendibile, su come varia l’umore del pubblico in base all’opera osservata o su come un’opera susciti emozioni diverse su osservatori di età diversa.
Implementazione di un’applicazione basata su tecnologie web per l’elaborazione dei dati
L’applicativo web per la visualizzazione e l’analisi dei dati prodotti dai dispositivi da parte dell’utente finale doveva necessariamente rispettare alcuni requisiti, che hanno guidato la fase di sviluppo. Innanzi tutto, come per il software dei dispositivi, doveva essere interamente realizzato con sistemi open source, per avere un duplice vantaggio: da un lato l’assenza di costo, dall’altro una vasta comunità di supporto.
Inoltre doveva possedere le seguenti caratteristiche:
• scalabilità;
• dinamicità;
• basso carico computazionale;
• semplicità di utilizzo.
Per soddisfare questi requisiti e ridurre il carico computazionale gravante sull’applicazione si è deciso di fare una pre-elaborazione dei dati sul database, generando delle views; l’applicazione si collega poi al database ed attraverso delle chiamate attiva le views trasformando i dati in dataframes pandas, creando dei grafici interattivi tramite i quali l’utente può analizzare i dati in base agli specifici interessi.
Come detto l’applicazione è stata sviluppata con Python ed in particolare con Dash, una libreria open source per la creazione di applicazioni reattive basate sul Web. La scelta di utilizzare Dash è stata legata al fatto che tutto il sistema di reti neurali è stato scritto in Python e che è sviluppata dallo stesso team che ha realizzato Plotly, una
libreria che offre molti vantaggi in termini di interazione dinamica dell’utente, quali lo scaricamento dell’immagine in formato .jpg o .png, la possibilità di spostarsi dentro il grafico, di effettuare uno zoom dell’immagine per la visualizzazione nel dettaglio etc.
L’applicazione è strutturata in tre pannelli di output, in ognuno dei quali è possibile selezionare l’opera da analizzare scegliendola da un menù a tendina. Il primo pannello (Fig. 10) ha lo scopo di analizzare il flusso di visitatori nel tempo, tramite degli istogrammi; l’utente può quindi suddividere i visitatori in base alle caratteristiche demografiche stimate (visitatori totali, per genere, per età, per genere ed età).
Fig. 10: analisi del flusso dei visitatori nel tempo
Per quanto riguarda l’età, considerando comunque che c’è un certo margine di errore nella sua stima, si è ritenuto opportuno indicarla come classe d’età: il sistema quindi calcola il valore medio dell’età stimata per ogni individuo rilevato dalla telecamera ed in base a questo valore lo include in una delle quattro classi d’età prestabilite. Queste classi sono al momento solo indicative e si potrà decidere successivamente, in accordo con i curatori del museo, la suddivisione che possa corrispondere meglio alle loro esigenze di analisi semplicemente cambiando la classe d’età nella query, senza apportare nessun’altra modifica ai dati o all’applicazione di visualizzazione.
Il secondo pannello permette invece di monitorare alcuni aspetti legati alla fruizione dell’opera: dove si posizionano i visitatori nello spazio antistante ad essa e dove
guardano. Si può quindi selezionare il grafico della posizione (Fig. 11) o del punto osservato (Fig. 12) e filtrare in base al numero di visitatori che si trovano o che guardano nelle stesse coordinate x,y.
Fig. 11: analisi delle posizioni di osservazione
Fig. 12: analisi dei punti osservati
L’ultimo pannello ha lo scopo di analizzare per quanto tempo (in secondi) i visitatori vengono rilevati davanti alla telecamera, in modo da fornire una proxy sul gradimento o interesse dei visitatori per quella determinata opera. In questo caso l’utente ha a disposizione il filtraggio in base al tempo (Fig. 13).
Fig. 13: indice di gradimento (Crocefisso Xxxxxxxxx Xxxxxxx)
Conclusioni
Per archivi, biblioteche e musei trarre vantaggio dall’enorme potenziale che l’uso delle tecnologie dell’informazione e della comunicazione permette non rappresenta più una possibilità, ma una necessità fondamentale per portare avanti la propria missione e garantire un futuro di conservazione e condivisione pubblica delle proprie risorse.
Per rispondere a questa necessità nel 2016 è nata l’idea di XxxxxXxx, un sistema che mette la tecnologia al servizio dei curatori per fornire loro dati oggettivi in merito alla fruizione delle opere d’arte da parte dei visitatori, in un ambito, quello dello studio del “visitors behaviour”, che sta assumento una sempre maggior importanza per cercare di ampliare il possibile pubblico dei musei e delle collezioni d’arte.
Lo sviluppo del sistema ha ricevuto un notevole impulso sia dalla collaborazione instaurata con l’Istituzione Bologna Musei, che mettendo a disposizione le sue collezioni ha permesso di avviare un “laboratorio sul campo” in cui testare in maniera continuativa il sistema e le implementazioni di volta in volta messe a punto, sia dal finanziamento interno ENEA per l’acquisizione della strumentazione, necessaria tanto per lo sviluppo del sistema che per l’applicazione sul campo di un numero consistente di dispositivi.
La chiusura al pubblico dei musei per contenere la diffusione del Covid-19, sia nella primavera che a fine 2020, ha ostacolato la collaborazione allungando di fatto i tempi necessari per i test sul campo delle varie funzionalità del sistema. Nonostante ciò i progressi ottenuti in questa prima fase della collaborazione rispetto alle precedenti sperimentazioni eseguite nel 2016 e nel 2018 sono stati notevoli e la fase di sviluppo del sistema può considerarsi ormai conclusa.
Non appena sarà possibile avviare il monitoraggio delle opere delle Collezioni Comunali d’Arte di Palazzo d’Accursio con i venti dispositivi acquisiti si inizierà la fase successiva, che sarà incentrata sulla gestione e l’analisi dei dati e sulla loro consultazione, per la quale la collaborazione con il personale dell’Istituzione sarà di fondamentale importanza nella definizione delle informazioni che si vogliono ottenere e del modo in cui si vogliono presentare.