High-Performance Computing for Artificial Intelligence at the University of Turin
High-Performance Computing for Artificial Intelligence at the University of Turin
Service Level Agreement - SLA
versione 1.1 del 27 Luglio 2022
Introduzione
Il presente documento che descrive i Livelli di Servizio (Service Level Agreement - SLA) delle risorse di calcolo offerte dal Laboratorio HPC4AI del Dipartimento di Informatica - Università di Torino (HPC4AI@UniTO), e regola il rapporto tra il Laboratorio e i propri utenti al fine di tutelare i diritti e di stabilire i doveri di entrambi.
La disponibilità di uno SLA, pur non costituendo un documento di validità legale, è indice di una politica trasparente di HPC4AI@UniTO nell'offerta dei propri servizi.
Le risorse di calcolo offerte dal Laboratorio sono da considerarsi strumenti di ricerca e, sebbene le garanzie di continuità e tolleranza ai guasti siano ampie, non sono adatte all’erogazione di servizi di produzione o mission-critical.
I sistemi di storage hanno una tolleranza ai guasti equivalente ad un livello RAID6 e pertanto la probabilità di perdita dei dati a causa di guasti è limitata. Non è previsto alcun backup dei dati presenti sui sistemi di storage del Laboratorio, a meno di specifiche intese tra l’utente ed il Laboratorio, per cui è onere dell’utente provvedere alle necessarie copie dei dati su archivi personali, qualora ve ne sia la necessità.
Le risorse di calcolo sono definite come Infrastruttura di Ricerca, sia per la qualità delle attività poste in essere utilizzando i sistemi, sia per lo sviluppo dell’infrastruttura stessa, pertanto potranno rendersi necessarie nel tempo operazioni di manutenzione anche prolungata, al fine di far evolvere l’infrastruttura di calcolo di HPC4AI e mantenerla quindi adeguata. Tali periodi saranno comunicati con ampio anticipo e sarà cura del Laboratorio far si’ che i tempi siano i più brevi possibile.
Validità dei Service Level Agreement
I valori di SLA presentati in questo documento sono da considerarsi come valori di base erogati sui servizi standard erogati da HPC4AI@UniTO.
L'assenza nel presente documento di SLA specifici per altre famiglie di servizi, indica che per questi ultimi non è previsto alcuno SLA, a meno di non averlo concordato in modo specifico in sede contrattuale.
Dipartimento di Informatica - Laboratorio HPC4AI
Xxxxx Xxxxxxxx 000 - 00000 Xxxxxx Centralino: x00 000 0000000
P.I. 02099550010 C.F. 80088230018
Per progetti speciali HPC4AI@UniTO è in grado di offrire livelli di servizio più impegnativi e personalizzati sulle specifiche esigenze dell’utente.
Fatto salvo che il presente documento sia parte integrante di un contratto, HPC4AI@UniTO, in qualità di redattore dello SLA e del presente documento, che è da intendersi una unica entità nella sua interezza, si riserva il diritto di modificarne i contenuti senza preavviso, pubblicando la versione aggiornata sul proprio sito internet (xxxxx://xxx0xx.xxxxx.xx). Pertanto gli utenti di servizi HPC4AI@UniTO dovrebbero consultare periodicamente il presente documento per assicurarsi che le condizioni dello SLA non siano mutate (xxxxx://xxx0xx.xxxxx.xx/xxxxxxx-xxx).
In caso di contestazioni, salvo termini espressamente previsti dai contratti, farà fede lo SLA più recente.
HPC4AI@UniTO. si impegna nel mantenere per i servizi soggetti, gli SLA minimi per tutta la durata contrattuale, con crediti di servizio a favore dell’utente nell'eventualità che i parametri indicati non vengano rispettati, a meno di cause di forza maggiore o eventi eccezionali.
Parametri degli SLA
I principali parametri utilizzati da HPC4AI@UniTO per garantire gli SLA sono:
● Tempo di presa in carico dell’anomalia: è l’intervallo di tempo che intercorre tra l’apertura del trouble ticket e l’inizio delle attività di gestione del problema;
● GSAR (Guaranteed Service Availability Rate, o Uptime Garantito): definisce, in termini percentuali su base periodica la disponibilità nelle ore pianificate di servizio (operatività delle infrastrutture) al 100% delle prestazioni. L’indicatore di riferimento per il calcolo dell’availability sarà misurata con la seguente formula:
laddove:
● Ore di Servizio Effettive nel Periodo: sono date dalla differenza tra le ore pianificate nel periodo e ore di indisponibilità del servizio causate da HPC4AI@UniTO.
● Ore di Servizio Pianificate nel Periodo: sono pari alla differenza tra le ore complessive del periodo e le ore di manutenzione ordinaria e straordinaria pianificate nel corso del periodo.
Classificazione degli SLA
Gli SLA di HPC4AI@UniTO sono relativi alle infrastrutture di Data Center e Rete BackBone.
Gli SLA che HPC4AI@UniTO si impegna a garantire sono quelli sui servizi erogati attraverso le proprie infrastrutture di Data Center e di Rete IP (BackBone). Rientrano all’interno di questa categoria i servizi condivisi relativi a tutte le piattaforme (di calcolo e di archiviazione di dati) direttamente offerte e fornite da HPC4AI@UniTO.
Tempo di presa in carico dell’anomalia e di notifica al cliente
Il supporto (orario di presidio) è attivo dalle ore 08:00 alle ore 16:00 dal Lunedì al Venerdì (eccetto festività nazionali e/o locali del Comune di Torino) ed è contattabile con i seguenti metodi:
● sistema di ticketing (per utenti abilitati) xxxxx://xxxxxxxx.xxx0xx.xxxxx.xx:0000
● email a xxx0xx.xxxxxxxxx@xx.xxxxx.xx
● telefono allo 0000000000 (centralino del Dipartimento di Informatica, chiedendo dei Tecnici di Ricerca - HPC4AI)
Le modalità sono elencate in ordine di preferenza, in particolar modo per poter garantire la tracciabilità della richiesta. Le richieste inviate al di fuori degli orari indicati saranno lavorate nel primo periodo utile successivo, secondo il livello di criticità, come descritto successivamente.
Le problematiche e le relative richieste di assistenza sono differenziate in base alla criticità del problema. I tre livelli di criticità sono:
● Criticità 1 (Alta): guasti che provocano perdita totale del servizio (High Impact Incident Request).
● Criticità 2 (Media): guasti che provocano perdita parziale del servizio (es: intermittenze di servizio), guasti che provocano un limitato degrado del servizio, segnalazioni varie che non modificano la qualità del servizio (Low Impact Incident Request.
● Criticità 3 (Bassa): richieste di modifiche che impattano sulla configurazione del servizio ma che non sono ascrivibili ad un guasto (Service Request).
La Tabella seguente indica i tempi di presa in carico e notifica per i livelli di criticità:
Parametro | Criticità 1 | Criticità 2 | Criticità 3 |
Tempo di presa in carico in orario di presidio | 20 min. | 40 min | 60 min |
In caso di mancato rispetto dei tempi di presa in carico indicati in tabella, su richiesta dell’utente, il contratto potrà essere esteso come da tabella successiva.
GSAR (Guaranteed Service Availability Rate o Uptime del servizio)
La verifica della disponibilità del servizio basata sullo GSAR (Guaranteed Service Availability Rate o Uptime del servizio) deve essere effettuata su base annuale secondo la formula descritta precedentemente in questo documento.
rispetto dei tempi di presa in carico di una richiesta di supporto come da tabella al punto precedente
Tempo di presa in carico
interruzioni dovute a disservizi non programmabili (ad es. guasti critici all’infrastruttura, cause di forza maggiore, ecc.) calcolato sulla base dell’indicatore GSAR applicato proporzionalmente nel periodo di pertinenza del contratto.
Continuità del servizio - GSAR
interruzioni dovute a comprovati motivi di sicurezza e comunicate prontamente all'Utente.
Continuità del servizio - interruzioni
manutenzioni programmate, comunicate all'Utente con un anticipo di almeno 3 giorni lavorativi.
Continuità del servizio - manutenzione
Estensione del contratto
Fuori parametro
Garanzia
Parametro
Di seguito sono riportate le tabelle relative ai differenti livelli di servizio garantiti da HPC4AI@UNITO per i servizi Infrastrutturali e le estensioni temporali del contratto in caso di mancato rispetto delle tempistiche comunicate.
1-3 ore |
4-8 ore |
9-12 ore |
1 giorno |
1 settimana |
2 settimane |
1-3 ore |
4-8 ore |
9-12 ore |
1 giorno |
2 giorni |
1 settimana |
< 99,72 |
< 99,44 |
< 99,16 |
< 98,05 |
< 96,11 |
< 92,22 |
1 giorno |
2 giorni |
3 giorni |
1 settimana |
2 settimane |
4 settimane |
Criticità 1 |
Criticità 2 |
Criticità 3 |
3 giorni |
2 giorni |
1 giorno |