Il suono nel PC - Parte quarta

Di seguito si elencano alcuni formati audio di maggior utilizzo e riconosciuti dalla maggior parte dei programmi di elaborazione del suono.

Si è già detto che uno dei formati più diffusi per i file audio è il formato WAV.

Esso è stato sviluppato da IBM e MicroSoft e può contenere campioni ottenuti con qualsiasi frequenza, risoluzione e numero di canali e può includere uno dei tanti stili di compressione. Quando si esegue il salvataggio in formato WAV è possibile impostare gli attributi del file consistenti nella frequenza di campionamento, numero di bit, mono o stereo, legge µ e legge A, MPEG layer-3, Creative ADPCM, ecc.
Nel dubbio conviene non modificare l'impostazione automatica.

Il formato AU è molto diffuso ed utilizzabile su varie piattaforme operative.
Fu sviluppato dall'industria telefonica degli Stati Uniti col nome µ-law, campiona un canale mono a 8 bit a 8KHz e consente una gamma dinamica più ampia rispetto ad altri suoni codificati a 8 bit e a 8 KHz.
Presenta un fruscio di sottofondo piuttosto fastidioso.

Il formato RealAudio RA, ascoltabile facendo uso direttamente del software riproduttore di tale formato, è molto utilizzato in Internet perché consente l'ascolto in streaming, cioè durante la ricezione dei dati e non dopo che il file sia stato scaricato completamente. Esso viene fornito in varie versioni a seconda della velocità del proprio modem. Presenta un algoritmo molto complesso di tipo lossy (a perdita di informazioni), è molto più compatto del file WAV ma la qualità audio non è altrettanto buona.

È il formato audio più conveniente. Esso, infatti, consente di ridurre a 5Mbyte un file audio di 50Mbyte (corrispondente ad un brano di circa 5 minuti) con trascurabile decadimento delle prestazioni (si tratta di un formato lossy).

Il modello teorico è stato messo a punto da un italiano, l’ing. Leonardo Chiariglione della Telecom di Torino e successivamente le prime applicazioni pratiche sono state sperimentate in Germania presso il Fraunhofer Institut.

Il principio di funzionamento dell’algoritmo di compressione consiste nell'eliminare le informazioni ritenute non importanti ai fini della qualità del suono.

Per stabilire quali siano le informazioni da sacrificare si ricorre allo studio delle capacità percettive dell'orecchio umano. La banda passante dell’orecchio umano percepisce suoni con frequenza compresa tra 20Hz e 20KHz ma con sensibilità che dipende dalla frequenza e quindi non uniforme. L’orecchio è più sensibile alle frequenze comprese tra 700Hz e 6000Hz nelle quali si concentra la maggior parte delle informazioni. La sensibilità, inoltre, varia anche al variare dell’intensità del segnale. Più è bassa l’intensità sonora e più si accentua la differenza di sensibilità dell’orecchio alle diverse frequenze.

L’orecchio, inoltre, è sensibile anche all’effetto di mascheramento che consiste nel seguente fenomeno: se abbiano due suoni puri con frequenza poco diversa tra loro ma ampiezza differente, quello con intensità minore non viene percepito essendo mascherato dall’altro. Questo effetto viene sfruttato per ridurre tantissimo le dimensioni del file MP3 rispetto a quello originale. Anche l’effetto di mascheramento, come la sensibilità, dipende dalla frequenza.

La codifica MP3 funziona nel seguente modo. In primo luogo viene eseguita la FFT ( Fast Fourier Transform) sul segnale digitale originale in modo da poterlo trattare nel dominio della frequenza piuttosto che in quello del tempo.

Il segnale così prodotto viene elaborato da un algoritmo che tiene conto del comportamento dell’orecchio umano in funzione della frequenza e viene suddiviso in 32 sottogamme di ugual ampiezza. In ciascuna sottogamma il segnale viene codificato con un numero diverso di bit a seconda dell’importanza della sottogamma. Tutti i dati codificati e le informazioni relative al canale di provenienza vengono uniti e formano un unico flusso costante di dati. Nei punti ove il livello sonoro è elevato la banda audio viene riprodotta quasi per intero con l’esclusione delle frequenze più basse e più alte. Ove, invece, il livello sonoro è ridotto la banda viene ristretta attraverso un maggior taglio di frequenze basse ed alte. Le frequenze eliminate non sarebbero state percepite o lo sarebbero state con difficoltà. L’algoritmo ha causato, pertanto, perdita di informazione, riducendo in tal caso, l’entità del file codificato senza apprezzabile perdite della resa acustica.

La decodifica, al fine della riproduzione sonora, consiste nel separare le informazioni musicali da quelle di servizio e nella ricostruzione del segnale originale. Per far ciò occorre un opportuno software decodificatore e riproduttore di suoni. Uno dei più famosi a livello mondiale è WinAmp.

Occorre fare, a questo punto, una precisazione. Se il file MP3 viene ascoltato attraverso le casse acustiche del PC o attraverso un impianto di amplificazione di qualità non elevata, la differenza tra il file originale e quello MP3 non è percepibile. Se, invece, si utilizza un impianto HI-FI di buona qualità e ci si mette nelle condizioni di ricreare effetti realistici, si riscontra facilmente la differenza tra il suono originale e quello compresso. Per ovviare, almeno in parte, a questo inconveniente si possono utilizzare gli equalizzatori grafici (software o hardware) per adattare il suono al gusto dell’ascoltatore.

Campionando il segnale a frequenza più elevata, ad esempio a 44.100Hz, il fattore di compressione da 10:1 può passare a circa 4:1. Il file prodotto sarà, pertanto, meno compresso ma avrà una qualità prossima a quella del file originale.

Si elencano infine, a solo titolo d'esempio, le estensioni di alcuni altri formati audio: VOC, IFF, RAW, MAT, VOX, SMP, SDS, ecc.

I circuiti di trattamento dell'audio digitale sono diversi da quelli necessari per l'elaborazione dei dati. Se il lettore di CD-ROM non presenta queste due funzioni, non è possibile estrarre le tracce audio dal CD-ROM.
I moderni lettori di CD-ROM, ovviamente, presentano queste due funzioni.

I CD-audio non usano la stessa formattazione dei CD-dati ma seguono lo standard CD-DA. Per leggere le tracce audio è necessario che il firmware del lettore sappia trattare il formato CD-DA.

L'audio digitale estratto viene memorizzato su hard-disk sotto forma di file WAV a 44.1KHz, 16 bit stereo. L'operazione di estrazione, a secondo del lettore e del software utilizzato può avvenire a velocità 1x o superiore. Se ad esempio un brano di 4 minuti viene estratto alla velocità 12x, l'operazione di estrazione si conclude dopo un tempo pari a 4x60/12=20 secondi.

Si riporta, di seguito, parte di un brano musicale, ridotto a pochi secondi, estratto in forma digitale da un CD audio in formato WAV e lo stesso brano compresso in formato MP3 al fine di valutare le eventuali differenze.
Il file WAV occupa 5.5Mbyte mentre il file MP3 occupa solo 0.5Mbyte.

Estrazione della traccia audio in formato digitale, ad esempio col programma Easy CD Creator (programma per la gestione del masterizzatore).

Il brano ha una durata di 3 minuti e 38 secondi, ed è stato estratto dal lettore di CD-ROM Pioneer SCSI 12x in poco meno di 20 secondi e salvato su hard-disk col nome 8.WAV di 35 Mbyte circa.

Col programma Goldwave di elaborazione audio è stato salvato su hard-disk il primo secondo di brano col nome 8.WAV con gli attributi di file: 16-bit, stereo, signed. Il file occupa 173 Kbyte.

Successivamente lo stesso file è stato salvato col nome 8MP3.WAV ma con gli attributi: MPEG Layer-3 128Kbit/s, 44100Hz, Stereo.

Il salvataggio è avvenuto dopo una fase di codifica nel formato MP3 che è durata alcuni secondi.
Il file occupa 16 Kbyte.

Si è riprodotto il brano in formato MP3 col programma WINAMP, ottimo riproduttore dei file in formato MP3, e l'ascolto è stato perfetto.

8.WAV	8.MP3
173 Kbyte	16 Kbyte

La sigla MIDI (Musical Instrument Digital Interface) è riferita ad un protocollo di comunicazione studiato per consentire a due o più strumenti musicali di dialogare tra loro. Il protocollo MIDI non trasmette suoni ma istruzioni sotto forma di note: ad esempio la nota "Do" diesis per un secondo, attende due secondi e poi lo ripete più forte o più piano, ecc.

Su tutte le schede audio, la porta Joystick è anche l'interfaccia MIDI che consente di collegare al PC strumenti musicali.

In assenza di strumenti musicali si può utilizzare il sintetizzatore FM della propria scheda audio che consente di simulare un numero abbastanza elevato di tali strumenti. Affinché il file MIDI possa essere riprodotto correttamente su qualsiasi PC multimediale è necessario che vi sia una precisa corrispondenza tra numerazione e strumenti musicali.

Lo standard General MIDI, o GM, definisce 128 strumenti secondo un ordine prestabilito. I file prodotti hanno il suffisso MID, sono costituiti da suoni perfetti con riproduzione simultanea di uno o più di essi. Poiché, come si è detto, il file è costituito da istruzioni piuttosto che da campioni di suoni, la sua dimensione è estremamente contenuta: 40-50Kbyte per brani della durata di diversi minuti primi.

Lo svantaggio principale consiste nel fatto che non è possibile inserire la voce.

Per meglio comprendere la differenza tra file WAV e file MID è sufficiente fare riferimento al confronto, a proposito delle immagini, al formato bitmap BMP rispetto al formato vettoriale.

Utilizzando programmi di elaborazione del suono è possibile registrare un file MID, magari miscelato con l'audio che proviene da un microfono o da un CD-ROM, in un file in formato WAV o MP3, più compresso.

Si riportano nella tabella 4 i link di un file MIDI e del file WAVE ottenuto dal precedente attivando, nella registrazione, solamente il canale MIDI.

JINGBEL.MID	JINGBEL.WAV
6 Kbyte	2585 Kbyte