L'acquisizione e l'elaborazione delle immagini

Le unità di input che consentono l'acquisizione di immagini sono lo scanner, la macchina fotografica digitale e la videocamera (o, comunque, una sorgente di immagini video televisive come il videoregistratore).

Nei primi due casi si ottiene una "fotocopia" elettronica dell'immagine ripresa con lo scanner o con la macchina fotografica digitale. Nel terzo caso si memorizza un fotogramma del filmato visualizzato sul monitor.
Tra l'unità di input di acquisizione di immagine e il personal computer è presente un opportuno circuito di interfaccia solitamente costituito da una scheda elettronica da inserire in una slot del PC.
La gestione del funzionamento dell'acquisizione è affidata ad un software specifico.

Lo scanner è un dispositivo di input in grado di acquisire immagini. Ha l'aspetto di una piccola fotocopiatrice. Si dispone il foglio o la fotografia da riprendere sulla superficie di vetro trasparente di formato A4 (vi sono anche scanner di formato A3) con la superficie attiva rivolta verso il vetro. Durante la fase di acquisizione si tiene chiuso lo sportello dello scanner perché la sorgente di immagine viene illuminata fortemente da una lampada mentre un carrello si muove a velocità costante lungo il foglio percorrendolo in una ventina di secondi, tipicamente. Sul carrello mobile sono situati i sensori in grado di trasformare l'immagine su carta in immagine elettronica. In figura 7 si mostra il look dello scanner HP 3300.

Un tempo esistevano scanner monocromatici, ora sono tutti a colori. Un parametro importante è la risoluzione ottica o reale espressa in dpi che significa dot per inch cioè punti per pollice. Un pollice corrisponde a 2.54cm. Un tipico valore di risoluzione reale è: 600x1200dpi.
Più grande è tale valore maggiore sarà il livello di dettaglio dell'immagine. Questo, però, comporta la generazione di file più voluminosi.
Oltre alla risoluzione reale si definisce un altro parametro che è la risoluzione interpolata che rappresenta il numero di punti per pollici che il software genera interpolando opportunamente i punti realmente acquisiti.
E' ovvio che la risoluzione interpolata aumenta la definizione dell'immagine ma non i pixel ottenuti che non sono reali ma presunti !!

Un massimo valore tipico della risoluzione interpolata è di 9600dpi per risoluzione reale di 600dpi.
Come circuito di interfaccia si utilizza la porta seriale USB (Universal Serial Bus).

Si vuole riprendere con uno scanner, con risoluzione impostata a 300dpi, una fotografia di dimensioni 10 x 7 cm. corrispondente a 4 x 3 pollici. Quanto è il volume dell'immagine acquisita in bitmap sapendo che la ripresa è a 16 milioni di colori ?

L'immagine sarà costituita da 1200 x 900 pixel (4 x 300 = 1200, 3 x 300 = 900). Ogni pixel è descritto da 3 byte (24 bit, 16 milioni di colori).
Il volume dell'immagine bitmap è: 1200 x 900 x 3 = 3.240.000 byte, cioè poco più di 3 Mbyte !!

Il software di acquisizione di immagine consente di effettuare una veloce scansione di anteprima per individuare l'intero foglio. Spesso interessa acquisire solo una parte del foglio per cui, ottenuta sul monitor l'immagine di anteprima, di qualità scadente, si può selezionare col mouse l'area del foglio che intendiamo acquisire.

Il menù consente la scelta della risoluzione spaziale di scansione: da 72 a 4800 dpi ed oltre, la risoluzione cromatica: a colori, in b/n con livelli di grigio, in b/n a due livelli, la scelta del livello di luminosità, contrasto, correzione gamma e filtraggi vari.
Alle volte la scelta della risoluzione spaziale è legata al dispositivo di output che vogliamo utilizzare.
Un monitor di media qualità presenta una risoluzione spaziale di 72dpi, una stampante a colori 300dpi. Conviene comunque fare un po’ di conti per valutare il volume del file, la resa sul monitor anche in termini di grandezza dell'immagine, e la resa su stampante.

Si vuole dare un'ultima citazione al sensore di acquisizione. Esso è costituito da un array di dispositivi CCD (Charge Coupled Device), in pratica dei fotosensori in grado di trasformare l'energia luminosa in segnale elettrico proporzionale alla luminosità incidente. Ogni fotosensore, in realtà, è costituito da una terna di fotosensori: uno per rilevare la componente rossa della luce incidente, un secondo per rilevare la componente verde ed un terzo per la componente blu. Se la scala della luminosità di ciascun sensore di colore è suddivisa in 256 gradini allora potremo assegnare 8 bit (un byte) ad ogni sensore. Un pixel acquisito, quindi, è rappresentato da 3 byte, 24 bit, 16 milioni di colori. Se, invece, la scala di luminosità di ciascun sensore è suddivisa in 1024 gradini, quindi meglio definita, allora potremo assegnare 10 bit. Un pixel a colori sarà rappresentato da 30 bit cioè un colore scelto tra un miliardo disponibili.
Nella tabella 5 si riportano i link ad una immagine (PC degli anni 80 HP 85B con monitor e stampante incorporati) ripresa con lo scanner a 300dpi a colori e a livelli di grigio e a 72dpi a colori e salvata in formato JPG e BMP.

300DPI.JPG (318 Kbyte)	72dpi.jpg (25Kbyte)	300DPI_GRIGIO.JPG (350Kbyte)
300DPI.BMP (3151 Kbyte)	72dpi.bmp (172Kbyte)	300DPI_GRIGIO.JPG (1052 Kbyte)

I documenti di testo acquisiti con lo scanner diventano delle immagini a tutti gli effetti. Se si effettuasse l'acquisizione a colori dell'intera pagina con risoluzione a 300dpi si otterrebbe una immagine di dimensioni gigantesche: decine di Mbyte.

Spesso, però, non è necessario riprendere a colori una pagina di testo che normalmente è monocromatica: si può utilizzare la scala di grigi (riduciamo a 1/3 la dimensione dell'immagine) e possiamo portare a 150dpi la risoluzione spaziale (riduciamo di 1/4 la dimensione dell'immagine).

Non è, però, possibile eseguire delle modifiche sul testo in quanto il documento ottenuto è un'immagine. Esistono dei programmi in grado di riconoscere i caratteri presenti in un'immagine e quindi consentono la conversione dal formato grafico al formato testo. Questi applicativi sono noti come programmi OCR (Object Caracter Recognition) ormai in dotazione con lo scanner.

La conversione non sempre avviene correttamente su tutti i caratteri a causa della possibile confusione da parte dell'OCR sui caratteri similari come la lettera O e 0 (o maiuscola e zero), la i, la l e 1, ecc. Molto dipende anche dalla stato, dalle dimensioni, dal tipo di font utilizzato e dalla risoluzione di scansione scelto.

Se non ci sono particolari problemi si ottiene il documento di testo richiesto dopo qualche piccolo ritocco.
I vantaggio che si ottengono dall'uso dell'OCR sono:

Si riportano in tabella 6, infine, le caratteristiche principali di alcuni scanner piani a colori.

	Modello	Risoluzione reale (dpi)	Bit / pixel	Interfaccia
1	ACER S2W	600x1200	48	USB
2	CANON 646U	600x1200	42	USB
3	EPSON Perfection 640U	600x2400	32	USB
4	HP ScanJet 4300C	600x1200	36	USB/Parallela
5	Mustek Scan Express 1200UB	600x1200	36	USB
6	TRUST Connect 19200	600x1200	36	USB
7	CANON FB1200S	1200x1200	32	SCSI
8	Mustek ScanExpress SP	600x1200	36	SCSI

Vi sono, infine, alcuni scanner, dal costo più elevato, in grado di acquisire direttamente dai negativi delle pellicole fotografiche, cosa non realizzabile con un normale scanner.

Una macchina fotografica digitale può essere paragonata ad un incrocio tra lo scanner e una macchina fotografica a pellicola tradizionale.

La parte frontale utilizza una lente, un diaframma ed un otturatore per mettere a fuoco l'immagine non su una pellicola fotografica ma su una matrice rettangolare di fotosensori CCD, non più grande di un francobollo, del tipo descritto nel paragrafo sugli scanner. I segnali elettrici generati, legati alla luce incidente sul CCD, vengono trasformati dalla forma analogica in digitale e trasferiti su una memoria RAM interna capace di contenere decine di immagini.

Le macchine fotografiche digitali amatoriali sono completamente automatiche: è sufficiente accendere l'apparecchio, centrare il soggetto nel mirino e premere il pulsante di scatto. Non è necessario mettere a fuoco o impostare il tempo di esposizione e l'apertura del diagramma.

Le immagini scattate possono essere immediatamente riversate nel personal computer tramite la porta seriale o parallela.

L'immagine viene ripresa dopo circa 1.5sec. dal momento dello scatto per permettere alla macchina di predisporre la messa a fuoco, l'apertura del diaframma da 4 a 11 e la velocità dell'otturatore che va da 1/30 di secondo a 1/4000 di secondo.

Dopo l'acquisizione occorre attendere qualche secondo durante i quali avviene la conversione analogico-digitale, la compressione dei dati e la memorizzazione degli stessi.

La memoria RAM è di alcuni megabyte per cui, in funzione della risoluzione e della qualità richiesta, è possibile memorizzare da 8 a 96 immagini. La cancellazione della RAM può avvenire solo dopo il trasferimento delle immagini nel PC. Alcuni modelli salvano le immagini su un floppy da 1.4 Mbyte per cui, esaurito un dischetto, se ne utilizza subito un altro.

La risoluzione non è particolarmente elevata: 300 linee per pollice, abbastanza bassa se confrontata con quella delle pellicole fotografiche: 2500 linee per pollice.

La maggior parte delle macchine digitali sono capaci di produrre immagini di 640 x 480 pixel a 24 bit che occupano solo 25Kbyte grazie al formato JPEG con rapporto di compressione 36.

I problemi della fotografia digitale consistono nella sensibilità all'infrarosso, nella difficoltà di effettuare correzioni dei colori in alcune condizioni di luce, nella bassa risoluzione di ripresa e nella bassa capacità di memorizzazione che costringe all'uso di elevati tassi compressione con riduzione della qualità dell'immagine.

Un sensore modifica la sensibilità del CCD da 800ASA a 1600ASA nel caso si effettua la ripresa con poca luce.
La tecnologia è abbastanza nuova e, nonostante i problemi elencati, vi sono ampi margini di miglioramento qualitativo e di costi.
Recentemente si sono rese disponibili commercialmente macchine fotografiche digitali dalle prestazioni più elevate rispetto a quelle elencate.

Il prezzo si aggira su circa €1.500. Vi sono, tuttavia, macchine più economiche con prezzi che partono da €150. Una macchina fotografica digitale di media qualità costa intorno a €400.

Il personal computer può acquisire non solo immagini statiche ma anche filmati. Per far ciò dobbiamo munirci di una sorgente di immagini TV come, ad esempio, una videocamera o l'uscita di un videoregistratore da collegare al PC tramite una scheda di interfaccia.

Tale scheda, nota come scheda di acquisizione video, consente di convertire il formato televisivo standard in formato VGA in modo da poter visualizzare il filmato sul monitor del computer.
La scheda presenta anche un'uscita video TV in modo da inviare su monitor televisivo o su videoregistratore l'uscita VGA normalmente destinato al monitor del PC.
La scheda di acquisizione video presenta, a bordo, un convertitore analogico digitale in modo da convertire il segnale video, tipicamente analogico, nel formato digitale.
Pacchetti software di elaborazione video consentono numerose funzionalità come l'acquisizione del filmato in varie risoluzioni spaziali, cromatiche e temporali. La risoluzione temporale è legata al numero di immagini al secondo acquisite. Le altre due risoluzioni sono le stesse discusse a proposito delle proprietà delle immagini.
E' possibile il freeze di una immagine, cioè la conversione di un scena del filmato in un formato pittorico. Dopo l'acquisizione del filmato il software di elaborazione consente il montaggio video consistente nel copia taglia incolla di vari pezzi di filmato con effetti speciali di transizione tra uno spezzone e l'altro e il montaggio audio.
E' possibile realizzare l'elaborazione di filmati video pur non possedendo una scheda di acquisizione; è sufficiente disporre del filmato, generalmente costituito da numerosi Mbyte o decine di Mbyte, prelevato dai numerosi CD in commercio, ed un software di elaborazione video. Il programma accessorio di Windows 95/98/ME/XP Windows Media Player consente solo la riproduzione dei filmati nei formati AVI. Altri programmi, come Quick Time, leggono il formato MOV, MPG e QT, Real Player legge il formato proprietario RA, ecc.

Il sistema videocamera-scheda video è molto utilizzato per realizzare videoconferenze in Internet o mediante rete telefonica ISDN. Data la bassa banda passante offerta da Internet per gli utenti dotati di modem, i filmati vengono trasferiti con una risoluzione di immagine relativamente bassa, una bassa frequenza di refresh, con un numero limitato di colori e con algoritmi di compressione video molto efficaci come è, appunto, l'MPG. Per questi motivi sono disponibili in commercio piccole videocamere dalle qualità limitate ma a basso costo (anche sotto i 50€) da disporre sul monitor comprensive di interfaccia e software di gestione che consente la videoconferenza con una qualità dipendente dalla velocità della rete Internet e non dalla videocamera.

Se si pensa di realizzare la videoconferenza in rete ISDN utilizzando una o tre linee ISDN allora la qualità video migliora sensibilmente ed è quindi necessario dotarsi di una videocamera "non-giocattolo" ma non necessariamente professionale.

Per poter usufruire correttamente di queste potenzialità è importante avere una scheda grafica in grado di trasferire velocemente i fotogrammi sul monitor. Da qualche anno le schede grafiche hanno assunto il nome di acceleratori grafici basati su un microprocessore dedicato alla grafica 2D e 3D estremamente sofisticato e in grado di pilotare una quantità enorme di RAM video, da 8 Mbyte a 128 Mbyte, a bordo della stessa scheda come si è già detto nel paragrafo 5.

Le schede di acquisizione video, come ad esempio la vecchia Matrox Rainbow Runner della serie G, si innestano nel connettore PCI e consentono avanzate funzioni di acquisizione, elaborazione, gestione e montaggio video con compressione MJPEG (Motion JPEG) a piena risoluzione PAL.

La qualità del video su Internet è, per ora, scadente rispetto a quelle delle trasmissioni televisive. II problema, naturalmente, è rappresentato dalle dimensioni gigantesche dei file necessari per memorizzare filmati ad alta qualità come dati digitali. Un filmato di 30 secondi a colori (24 bit) a 15 frame al secondo e visualizzato su un quarto dello schermo (160x120 pixel) occupa circa 25MB di spazio su disco. Con un modem a 28,8 Kbps, che scarica solitamente a una velocità di circa 2 Kbps, lo scaricamento di tale filmato da 30 secondi impiegherebbe più di tre ore; lo stesso filmato a schermo pieno impiegherebbe più di 12 ore.

La compressione può ridurre il problema. I codec (sistemi di compressione/decompressione) sono strumenti software o hardware basati su una formula matematica che riduce la quantità di dati all'interno di un file video, spesso riducendo al minimo il materiale ridondante all'interno e tra le inquadrature. Molte grosse porzioni di informazioni in un file video vengono ripetute varie volte: è sufficiente eliminare la ripetizione per ridurre drasticamente la quantità di dati necessari. Un cielo di colore blu intenso occupa la metà superiore di ogni scena? I codec possono praticamente dimezzare la dimensione del file non trasmettendo I'intero cielo per ogni inquadratura. Piuttosto che ripetere tutti quei pixel blu, il file compresso conterrà una formula che dice al riproduttore dove visualizzare i pixel blu. Le istruzioni possono essere inviate in pochi byte al posto di milioni. Inoltre, poiché i colori di un filmato si modificano gradualmente tra le varie inquadrature, tranne che nei cambiamenti di scena, i codec video possono comprimere i file trovando le ridondanze in sequenza. Raramente i casi reali di compressione sono così semplici: anche un'unica inquadratura di un cielo blu include sottili variazioni di colore e i colori cambieranno da inquadratura a inquadratura. Mentre alcune immagini si prestano a essere notevolmente ridotte dalla compressione, per altre è vero il contrario. Per esempio, un viso su uno sfondo di colore intenso sarà probabilmente super-comprimibile, forse arrivando addirittura a una compressione del 90 per cento (da 57K a 5K in una delle nostre prove). Ma lo stesso viso fotografato in una scena ripresa in una strada affollata può essere comprimibile solo del 10 per cento (da 57K a 51K). Anche se si è in grado di comprimere filmati del 90 per cento, non si otterrà ancora un file sufficientemente piccolo per un trasferimento rapido in tempo reale su Internet. Lo scaricamento del nostro video da 30 secondi impiegherebbe ancora 18 minuti con un modem da 28,8 Kbps e 2,5 minuti su un collegamento ISDN.

I codec video regolano e ottimizzano le due variabili: la velocità di codifica e quella di riproduzione. La velocità di riproduzione, misurata in inquadrature al secondo, controlla I'uniformità del movimento. Maggiore è la quantità di inquadrature, più uniforme risulterà il movimento. La velocità di codifica determina il grado di compressione utilizzato per creare video da riprodurre a certe ampiezze di banda. Per esempio, video codificati per una velocità di 21 Kbps vengono riprodotti in modo uniforme quando vengono scaricati su un modem da 28,8 Kbps, ma questo grado di compressione spesso produce immagini sgranate o sfuocate e colori imprecisi. La sfida per i content provider di prodotti video è utilizzare la massima compressione compatibile con una qualità di visualizzazione accettabile. Su una intranet è naturalmente possibile ottenere un'alta qualità video in finestre che occupano un quarto dello schermo. Ma i siti Web che supportano utenti collegati su linea telefonica devono fornire immagini codificate per velocità di bit notevolmente inferiori, che producono filmati di qualità assai minore. Una soluzione, attualmente sviluppata dall'ITU (International Telecommunication Union), è lo standard H.263 per codifiche a bassissimo flusso di bit. La codifica H.263 consente la compressione dei video indipendentemente dalla velocità di trasferimento dei dati. Con questo schema i collegamenti telefonici godono di una riproduzione più uniforme, simile alla velocità originale delle inquadrature, ma a spese della definizione dell'immagine. Gli utenti con collegamenti più rapidi possono riprodurre gli stessi file con una qualità superiore dell'immagine. Finché H.263 non sarà stato completamente definito e rilasciato, i Webmaster che desiderano offrire filmati possono scegliere tra una gamma di soluzioni diverse: quella più semplice e utilizzare file AVI, MOV o MPEG che possono essere richiesti tramite semplici collegamenti, lasciando ai visitatori il problema di procurarsi il riproduttore. Fornendo collegamenti a siti dai quali gli utenti possono scaricare i riproduttori di streaming analizzati in questo numero (CineWeb, ClearFusion o InterVU MPEG Player, per esempio), i Webmaster possono aiutare il proprio pubblico ad apprezzare le offerte di video senza problemi. VivoActive fornisce una soluzione ad alte prestazioni che non richiede ad un content provider di aggiungere un altro server. Per offrire visualizzazione istantanea con software in grado di regolare I'ampiezza di banda per supportare ogni utente al livello ottimale, gli amministratori possono utilizzare i sistemi VDOnet, Vosaic o Xing. Nel corso delle nostre prove abbiamo scoperto che I'installazione di un server video con questi prodotti non è affatto difficile per gli amministratori che hanno un controllo completo dei propri sistemi. I server possono coesistere con server HTTP come Microsoft Internet Information Server e O'Reilly's WebSite. I Webmaster che si affidano ad un servizio di hosting, d'altra parte, dovranno convincere il service provider ad aggiungere questo nuovo software o installare un sistema dedicato con un proprio indirizzo Internet. Per gli utenti si tratta semplicemente di ottenere copie di tutti i riproduttori esistenti sul mercato: a parte i due riproduttori AVI, CineWeb e ClearFusion, tutti gli altri possono coesistere sullo stesso sistema. Inoltre tutti i riproduttori possono essere scaricati gratuitamente. Solo pochi richiedono la registrazione dopo un periodo di valutazione, ma alcuni offrono una licenza gratuita. Nessuno dei riproduttori può accelerare il processo di scaricamento dei file, ma consentono all'utente di vedere I'anteprima del video man mano che è scaricato.

La videocamera digitale, dopo la cattura del filmato, può inviare quest'ultimo al computer attraverso una particolare interfaccia nota come firewire che rispetta lo standard internazionale IEEE 1394. Il trasferimento dei dati avviene su linea seriale funzionante fino a 400 Mbps. La scheda di interfaccia firewire si inserisce in uno slot PCI del computer e rende disponibile, sul retro del PC, ben 3 connettori firewire che possono collegare altri dispositivi firewire come hard-disk esterni, scanner, ecc.
Il software di acquisizione del video permette di acquisire e salvare singoli fotogrammi sotto forma di immagini in formato BMP o in formato compresso JPG. E' appena il caso di sottolineare che il tempo di acquisizione di un fotogramma è del tutto trascurabile essendo inferiore ad alcuni decimi di secondi. Si mostra in fig.9 una tipica videocamera digitale.

Un altro metodo per l'acquisizione delle immagini consiste nel catturare le schermate e nel ritagliare la porzione di immagine che ci interessa. Molti programmi di fotoritocco prevedono questa funzione. In mancanza si può procedere premendo sulla tastiera il tasto Print Screen.
In modalità DOS la pressione di questo tasto manda su stampante la schermata di testo visibile sul monitor; in ambiente Windows 95 il contenuto dello schermo, in modalità grafica, viene copiata negli appunti. Per elaborare l'immagine memorizzata negli appunti è sufficiente aprire un programma di fotoritocco ed attivare, dal menù modifica, la voce incolla come nuova immagine.
Le dimensioni, in pixel, dell'immagine catturata dallo schermo coincidono esattamente alla modalità schermo settata in Windows. Se si visualizza alla risoluzione 800 x 600 x 24 bit, l'immagine catturata avrà esattamente le stesse dimensioni.

Si mostra, in fig.10, una parte della schermata catturata, ridotta a 256 colori e salvata in formato GIF, quello più conveniente, poiché l'immagine contiene, sostanzialmente, sfondo ed icone.