Contenitori e pacchetti di file multimediali
La registrazione e riproduzione di immagini e suoni contemporaneamente necessita innanzi tutto del sincronismo tra gli elementi costituenti un flusso multimediale. Per questo motivo tali flussi o file (a seconda del livello di astrazione adattato) sono disposti in una “linea temporale virtuale” (timeline, in inglese) che adotta un riferimento temporale autonomo chiamato TimeCode.
Un esempio di sintassi per un TimeCode sincronizzato con un flusso video digitale (la cui unità indivisibile è il fotogramma) è, ad esempio, “04:23:56:07”. Un esempio di sintassi per un TimeCode sincronizzato con un flusso audio digitale (la cui unità indivisibile è il campione sonoro) è, ad esempio, “00:06:32.01436”. Più in generale i TimeCode sono normati da standard di riferimento, quali la raccomandazione BT.1366 della ITU, la famiglia di standard ST12 della SMPTE, la EBU Tech 3097.
Nel caso multimediale un flusso o file contiene spesso evidenze informatiche diverse per audio, video, e altri tipi di metadati (quali ad esempio sottotitoli, informazioni per i non udenti, uno o più TimeCode di riferimento, ecc.), che sono complessivamente chiamate essenze. Esse –ciascuna potenzialmente codificata con parametri e algoritmi diversi– sono racchiuse in un unico file contenitore, il quale ne facilita il sincronismo (eventualmente grazie alla presenza di una o più essenze TimeCode) e le descrive allo scopo di migliorarne la riproduzione o l’utilizzo.
Le essenze possono a loro volta contenere più canali. Nel caso dell’audio essi sono associati ad un particolare dispositivo di riproduzione ovvero alla direzione spaziale della sorgente sonora, p.es. canale dei totali sinistra (Lt), canale centrale (C), canale degli effetti a bassa frequenza (LFE), canale per il surround di destra (Rs). Nel caso di immagini statiche o video, i canali possono codificare un singolo canale cromatico dello spazio-colore riprodotto (cfr. §2.6), ad es. rosso (R), verde (G), blu (B) ovvero uno di due stereogrammi (occhio destro e occhio sinistro):
Così come una partitura musicale descrive per prima cosa tutti gli strumenti coinvolti e contiene le informazioni –sia comuni che specifiche per ogni parte– affinché un’orchestra possa rieseguire il brano, allo stesso modo un contenitore multimediale può contenere uno o più dei seguenti fattori (la cui presenza possibile e/o obbligatoria dipende dallo specifico formato della busta, cfr. §1.1.1):
- informazioni globali circa il documento multimediale (e.g. titolo del film/brano, nome dell’autore/regista, anno di produzione, durata nominale, livello di censura, data/ora di masterizzazione del file, ecc.);
- numero e tipologia delle essenze presenti e loro suddivisione in “tracce” per la riproduzione; per ciascuna essenza possono essere presenti altri metadati come, ad esempio:
- nome o altro tipo di descrizione dell’essenza;
- codec dell’essenza (ad esempio tramite codice FourCC);
- velocità dell’essenza video (fotogrammi/secondo) o audio (campioni/secondo);
- nome e numero di canali dell’essenza video (e.g. RGB, RGBα, CMYK, …; occhio destro/sinistro) o audio (e.g. monoaurale, stereo, quadrifonico, ‘5.1’, ‘7.1’, Dolby-E®, ‘22.1’, Dolby® Atmos™, …);
- in caso di essenza multi-canale, eventuale nome dei singoli canali;
- profondità digitale dell’essenza immagine/video (bit/pixel) o audio (bit/campione);
- data-rate minimo, medio e/o massimo di ciascun essenza.
- lingua utilizzata per il parlato nell’audio (se presente) ovvero nei sottotitoli;
- essenza video (nel caso di video stereoscopico potrebbe essere presente un’unica essenza con due canali, ovvero due essenze video distinte — una per ciascuno stereogramma, associati rispettivamente all’occhio destro e sinistro;
- essenze audio (e.g. ‘suoni ed effetti’, ‘colonna sonora italiana’, ‘colonna sonora inglese’);
- essenze sottotitoli (e.g. ‘sottotitoli in italiano’, ‘sottotitoli in italiano per non-udenti’, ‘didascalie in inglese, ‘sottotitoli in francese’, ‘didascalie in tedesco per non-udenti’).
- essenza TimeCode.
Come primo vantaggio, l’utilizzo di un formato contenitore consente ad applicazioni di conservazione e archiviazione di estrapolare molte informazioni da un file complesso e di grandi dimensioni (quale spesso è il file multimediale) senza dover implementare tutti i possibili codec necessari per decodificarne le essenze audio\video (cosa necessaria, invece, per poter riprodurre il file). Inoltre, il formato contenitore separa molto nettamente, al suo interno, le evidenze informatiche delle singole essenze, permettendone un’estrapolazione segmentata, molto più efficace e spesso anche con economia di spazio di archiviazione e tempi di elaborazione.
In alcuni casi di pertinenza multimediale, ad esempio, una o più essenze vengono ricodificate allo scopo di alternarne il data-rate o semplicemente per cambiare il codec utilizzato: si parla in tal caso, di transcoding delle essenze. Quando si cambia una o più essenze per un file multimediale (ad esempio per togliere una colonna sonora non più necessaria, aggiungere una traccia sottotitoli, ovvero sostituire una traccia video monoscopica con una stereoscopica) si parla di re-wrapping. Quando infine si cambia il formato di busta contenente l’intero file multimediale, ma mantenendo invariate le essenze, si parla di trans-wrapping — che è tipicamente un’operazione molto meno computazionalmente onerosa.
Un’alternativa all’impiego di buste multimediali (cfr. §1.1.1) come sopra descritta è costituita dall’organizzazione delle singole essenze in file separati, poi riorganizzati in un pacchetto di file, ove le essenze siano logicamente associate fra loro in vari modi, come definito nel §1.1.2. Esempi di pacchetti multimediali sono ad esempio il pacchetto di master interoperabile (IMP), il pacchetto per il cinema digitale (DCP) e il pacchetto XDCAM, cfr. §2.12.
Per quanto riguarda le essenze video –nel caso di semilavorati o master di elevata qualità– è spesso preferito l’impiego della sola naming convention, ove ogni fotogramma del video è contenuto in un file separato, mentre i file sono numerati in sequenza cronologica (rispetto alla loro timeline relativa), costituendo dunque un pacchetto chiamato “sequenza di fotogrammi” (frame sequence, ovvero frame-per-file in inglese). Formati di immagini raster spesso adottati per tali sequenze di fotogrammi sono l’OpenEXR, il DPX (§2.6), così come il TIFF (soprattutto nei pacchetti DCDM), e il CinemaDNG (§2.12).