Godkända filformat för digitalt långtidsbevarande
Godkända filformat för digitalt långtidsbevarande
1. Inledning
Ursprungligen digitala handlingar ska konverteras till ett godkänt filformat före de överförs till Riksarkivet. I denna anvisning anges godkända filformat och praxis för att säkerställa deras kva- litet.
De godkända filformaten grupperas här i format för långtidsbevarande och överföringsformat. Den primära målsättningen är att materialet är i ett format för långtidsbevarande. Överförbara filformat godkänns villkorligt i händelse av att det inte finns ett bevarandeformat av materialet i fråga. Överförbara filer konverteras till bevarandeformat i samband med att arkiveringen in- leds. Filformat som säkerställer att datainnehållet bevaras och är begripligt under en längre tidsperiod godkänns som format för långtidsbevarande.
Denna anvisning begränsar sig uteslutande till att behandla filformat för ursprungligen digitala textdokument. Material i registerform, digitaliserat material och AV-material behandlas i en separat anvisning.
2. Allmänna krav för format
• Filer får INTE krypteras. Kryptering förhindrar långtidsbevarande och senare använd- ning av material.
• Filer FÅR INTE komprimeras.
• Filen FÅR INTE sakna delar som anknyter till dess presentation och nyttjande, såsom exempelvis typsnitt
Dokumentets filnamn ska vara högst 255 tecken långt och filnamnen får inte innehålla tecken utanför teckenuppsättningen US-ASCII, såsom skandinaviska bokstäver. Under bevarandeåt- gärderna kan det ursprungliga filnamnet eventuellt ändras. Därför rekommenderar vi inte att man kodar metadata som anknyter till dokumentets innehåll i filnamnet, som till exempel ansokningar_1994-1996.pdf. Metadata relaterade till materialet ska alltid presenteras med hjälp av Sähke-metadata.
3. Hur format anges i Sähke-metadata
Med hjälp av metadata relaterade till filer anges filformatet samt filnamnen och placeringen i överföringspaketet. Dessutom anges en kontrollsumma för integritetskontroll som garanterar den tekniska integriteten.
• OID, filens unika identifierare (Document.NativeId) kan genereras genom att det efter OID-identifieraren bifogas ett löpnummer avgränsat med en punkt.
• Överföringspaketets filsökväg anges i relation till XML-överföringsfilens placering. Överföringsfilen finns på överföringspaketets rotnivå, varvid sökvägarna refererar till filer på ett djupare plan i filstrukturen. Obs! En absolut sökväg (såsom c:\materials\transfer\materials\123\abc) får inte användas.
• Filformatet och formatets version meddelas under Xxxxxxxx.Xxxxxx.Xxxx och
Document.Format.Version.
• Filhashen och algoritmen som används för den anges under Document.HashAlgorithm
och Document.HashValue. Tillåtna hash-algoritmer är:
Xxxxxxxxxxx | Xxxxxxxxxx 00 | XX 000, 00000 Xxxxxxxx | Puh. Tfn | 029 533 7000 | |
Riksarkivet | Xxxxxxxxxx 00 | XX 000, 00000 Xxxxxxxxxxx | Fax | (09) 176 302 |
Algoritm | Uttryckssätt i fil |
MD5 | md5 |
SHA-1 | sha1 |
SHA-256 | sha256 |
• Kryptering av filer rekommenderas inte och ska avtalas separat. Om avtalet tillåter överföring av krypterade filer anges den använda krypteringsmetoden i noden Document.Encryption. I övriga fall får noden värdet "Okrypterad".
<s2:Document>
<s2:NativeId>urn:oid:1.2.246.10.210.1.11.2009.89.1</s2:NativeId>
<s2:UseType>Arkiv</s2:UseType>
<s2:File>
<s2:Name>R0900089.pdf</s2:Name>
<s2:Path>2008245/pdf/R0900089.pdf</s2:Path>
</s2:File>
<s2:Format>
<s2:Name>application/pdf </s2:Name>
<s2:Version>A-2b</s2:Version>
</s2:Format>
<s2:HashAlgorithm>sha1</s2:HashAlgorithm>
<s2:HashValue>pC4LUmP5L6DRL4gUYTx2y82JnG</s2:HashValue>
<s2:Encryption>Okrypterad</s2:Encryption>
</s2:Document
SÄHKE2 tillåter överföring av upp till tre olika filformat från samma dokument, som anges med hjälp av Sähke-elementet UseType. Utöver de format som godkänts för långtidsbevarande är det också möjligt att överföra dokumenten i sin ursprungliga form (DOC, DOCX, ODF osv.).
Detta förutsätter att även bevarandeformatet för långtidsbevarande överförs.
• obligatoriskt arkivformat för långtidsbevarande, usetype=Arkiv
• nativformat som filen skapats i, usetype=Nativ
• visningsformat som tar hänsyn till distribution via nätet, usetype="Publikation"
4. Skapande av godkända format för långtidsbevarande
Aktören som överför materialet ska producera ett godkänt överföringsformat eller bevarande- format senast vid tidpunkten för genereringen av överföringspaketet. Vi rekommenderar att man så tidigt som möjligt skapar ett format som är arkivdugligt, såsom till exempel när ett do- kument markeras som färdigt och låses från ändringar.
Xxxxxxxxxxx | Xxxxxxxxxx 00 | XX 000, 00000 Xxxxxxxx | Puh. Tfn | 029 533 7000 | |
Riksarkivet | Xxxxxxxxxx 00 | XX 000, 00000 Xxxxxxxxxxx | Fax | (09) 176 302 |
5. Typer av dokumentmaterial och godkända filformat
5.1. Oformaterad text
Textfilen innehåller ren text utan formatering eller andra layoutspecifikationer. Valet av tecken i en textfil definieras av en teckenuppsättning, som det finns flera av till exempel för landspeci- fika behov. I Finland har man i allmänhet använt ISO 8859-15 och unicode UTF-8-kodad text.
Godkända versioner:
• Textfil med teckenuppsättning ISO 8859-15; PRONOM: x-fmt/111
• Textfil med teckenuppsättning UNICODE (UTF-8, UTF-16 eller UTF-32); PRONOM: x- fmt/111
Ordlista PREMIS formatName i semantisk strukturenhet:
• text/plain
Tillåtna teckenuppsättningar: ISO-8859-15, UTF-8, UTF-16 och UTF-32.
5.2. Elektroniska publikationer (EPUB)
EPUB är ett hårdvaru- och programvaruoberoende lagringsformat för elektroniska publikation- er som har standardiserats av International Digital Publishing Forum (IDPF). I standarden för- packas strukturen av publikationens innehåll i en behållare och layouten bildas i läsaren. Fil- formatet är ett så kallat strukturerat paketformat.
Godkända versioner:
• EPUB versio 2.0.1: PRONOM: fmt/483
• EPUB versio 3.0.0: PRONOM: fmt/483
• EPUB versio 3.0.1: PRONOM: fmt/483
Ordlista PREMIS formatName i semantisk strukturenhet:
• application/epub+zip
5.3. Handlingar
5.3.1. Open Document Format (ODF)
ODF är ett öppet filformat utvecklat av XXXXX för att presentera material som producerats med kontorsprogramvara, såsom kalkylblad, diagram, presentations- och ordbehandlingsdokument. ODF 1.0-filformatet är standardiserat enligt ISO-standard ISO/IEC 26300:2006 och version 1.2 enligt ISO-standard ISO/IEC 26300:2015. Tekniskt sett är Open-dokument ett ZIP-komprimerat arkiv, dvs. ett enkelt paketformat som innehåller flera filer och kataloger. Dokumentets inne- håll, presentationsstil, metadata och inställningar är uppdelade i egna XML-filer.
De vanligaste filtyperna som följer ODF-standarden är bland annat:
• .odt, ordbehandling
• .ods, kalkylblad
• .odp, presentationer
• .odg, grafik
• .odf, formler
Godkända versioner:
• .odt version 1.0; PRONOM: fmt/136
Riksarkivet | Xxxxxxxxxx 00 | XX 000, 00000 Xxxxxxxx | Puh. Tfn | 029 533 7000 | |
Riksarkivet | Xxxxxxxxxx 00 | XX 000, 00000 Xxxxxxxxxxx | Fax | (09) 176 302 |
• .odt version 1.1; PRONOM: fmt/290
• .odt version 1.2; PRONOM: fmt/291
• .ods version 1.0; PRONOM: fmt/137
• .ods version 1.1; PRONOM: fmt/294
• .ods version 1.2; PRONOM: fmt/295
• .odp version 1.0; PRONOM: fmt/138
• .odp version 1.1; PRONOM: fmt/292
• .odp version 1.2; PRONOM: fmt/293
• .odg version 1.0; PRONOM: fmt/139
• .odg version 1.1; PRONOM: fmt/296
• .odg version 1.2; PRONOM: fmt/297
• .odf version 1.0; .odf version 1.2;
Ordlista PREMIS formatName i semantisk strukturenhet:
• application/vnd.oasis.opendocument.text
• application/vnd.oasis.opendocument.spreadsheet
• application/vnd.oasis.opendocument.presentation
• application/xxx.xxxxx.xxxxxxxxxxxx.xxxxxxxx
• application/vnd.oasis.opendocument.formula
5.4. PDF for long-term preservation: PDF-Archive (PDF/A)
PDF/A är en version av PDF-filformatet som lämpar sig för långtidsbevarande. PDF/A-filen in- nehåller all information för att bevara layouten. Från PDF/A-filen har man skalat bort funktion- er som inte kan lagras på ett tillförlitligt sätt, såsom skript, ljud, livebild, kryptering och hyper- länkar utanför dokumentet. Rekommenderade versioner är PDF/A-1a och PDF/A-1b som följer standarden ISO 19005:2005 och versionerna PDF/A-2a, PDF/A-2b och PDF/A-2u som följer standarden ISO 19005-2:2011 samt versionerna PDF/A-3a, PDF/A-3b och PDF/A-3u som följer standarden ISO 19005-3:2012. När det gäller PDF/A-3-standarder bör man notera att standar- den tillåter inkapsling av datamängder i PDF-skalet vars migrering inte direkt stöds för PDF. Därför ska det säkerställas att PDF-filerna inte innehåller någon körbar programkod eller mot- svarande.
Godkända versioner:
• PDF/A-1a; PRONOM: fmt/95
• PDF/A-1b; PRONOM: fmt/354
• PDF/A-2a; PRONOM: fmt/476
• PDF/A-2b; PRONOM: fmt/477
• PDF/A-2u; PRONOM: fmt/478
• PDF/A-3a; PRONOM: fmt/479
• PDF/A-3b; PRONOM: fmt/480
• PDF/A-3u; PRONOM: fmt/481
Ordlista PREMIS formatName i semantisk strukturenhet:
• application/pdf
Riksarkivet | Xxxxxxxxxx 00 | XX 000, 00000 Xxxxxxxx | Puh. Tfn | 029 533 7000 | |
Riksarkivet | Xxxxxxxxxx 00 | XX 000, 00000 Xxxxxxxxxxx | Fax | (09) 176 302 |
6. Överförbara filformat
6.1. Microsoft Office Suite
Microsoft Office Suite är en allmänt använd kommersiell programvara som kan användas för att presentera material producerat med kontorsprogram, till exempel kalkylblad, diagram, pre- sentation och ordbehandlingsdokument. Nyare versioner av Microsoft Office Suite stöder Of- fice Open XML-format (Transitional and Strict) som är ISO-standardiserade (ISO 29500-1:2012). Filformat som kan överföras från Microsoft Office Suite (version 97 upp) inkluderar:
• Word-dokument, textbehandling
• Excel-kalkylblad, kalkylblad
• Powerpoint-presentation
Godkända versioner:
• Microsoft Word 97 (8.0); PRONOM: fmt/40
• Microsoft Word 98 (8.5); PRONOM: fmt/40
• Microsoft Word 2000 (9.0); PRONOM: fmt/40
• Microsoft Word 2002 (10.0); PRONOM: fmt/40
• Microsoft Word 2003 (11.0); PRONOM: fmt/40
• Microsoft Word 2007 (12.0); PRONOM: fmt/412
• Microsoft Word 2010 (14.0); PRONOM: fmt/412
• Microsoft Word 2013 (15.0); PRONOM: fmt/412
• Microsoft Excel 97 (8.0); PRONOM: fmt/61
• Microsoft Excel 99 (9.0); PRONOM: fmt/62
• Microsoft Excel 2001 (10.0); PRONOM: fmt/62
• Microsoft Excel 2003 (11.0); PRONOM: fmt/62
• Microsoft Excel 2007 (12.0); PRONOM: fmt/214
• Microsoft Excel 2010 (14.0); PRONOM: fmt/214
• Microsoft Excel 2013 (15.0); PRONOM: fmt/214
• Microsoft Powerpoint 1997 (8.0); PRONOM: fmt/126
• Microsoft Powerpoint 1999 (9.0); PRONOM: fmt/126
• Microsoft Powerpoint 2001 (10.0); PRONOM: fmt/126
• Microsoft Powerpoint 2003 (11.0); PRONOM: fmt/126
• Microsoft Powerpoint 2007 (12.0); PRONOM: fmt/215
• Microsoft Powerpoint 2010 (14.0); PRONOM: fmt/215
• Microsoft Powerpoint 2013 (15.0); PRONOM: fmt/215 Ordlista PREMIS formatName i semantisk strukturenhet:
• application/msword
• application/vnd.ms-excel
• application/vnd.ms-powerpoint
• application/vnd.openxmlformats-officedocument.wordprocessingml.document
• application/vnd.openxmlformats-officedocument.spreadsheetml.sheet
• application/vnd.openxmlformats-officedocument.presentationml.presentation
Riksarkivet | Xxxxxxxxxx 00 | XX 000, 00000 Xxxxxxxx | Puh. Tfn | 029 533 7000 | |
Riksarkivet | Xxxxxxxxxx 00 | XX 000, 00000 Xxxxxxxxxxx | Fax | (09) 176 302 |
6.2. Portable Document Format (PDF)
PDF är ett plattformsoberoende, öppet filformat utvecklat av Adobe för att presentera ett textdokument. Layout, typsnitt, grafik och färger i originaldokumentet överförs oförändrade med PDF-filen. PDF 1.7 följer standarden ISO 32000-1:2008.
Godkända versioner:
• PDF 1.2; PRONOM: fmt/16
• PDF 1.3; PRONOM: fmt/17
• PDF 1.4; PRONOM: fmt/18
• PDF 1.5; PRONOM: fmt/19
• PDF 1.6; PRONOM: fmt/20
• PDF 1.7; PRONOM: fmt/276
Ordlista PREMIS formatName i semantisk strukturenhet:
• application/pdf
Riksarkivet | Xxxxxxxxxx 00 | XX 000, 00000 Xxxxxxxx | Puh. Tfn | 029 533 7000 | |
Riksarkivet | Xxxxxxxxxx 00 | XX 000, 00000 Xxxxxxxxxxx | Fax | (09) 176 302 |