Richard Teschke ci parla del Siku quanshu - Un salto
in tipografia - Il set CJK unificato in Unicode
In una delle sezioni di discussione del recente convegno
torinese dell’European Association of Chinese Studies (30.8-1.9.2000) sono
stati presentate alcune soluzioni tecnologicamente avanzate per la gestione di
dati librari. Come capita spesso quando i contenuti di un panel si fanno
decisamente tecnici, nonostante tutti gli studiosi possano essere interessati,
più o meno direttamente, alla gestione dei volumi nelle biblioteche sinologiche
d’Europa, quella di cui sto parlando è risultata essere la sezione meno
frequentata (ho rilevato una punta massima di 16 persone!). Vero è anche che l’aver
affidato la gestione del panel all’European Association of Chinese
Librarians, un’organizzazione che pur essendo una diretta emanazione dell’EACS,
gode di un’ampia autonomia che si concretizza in un calendario di incontri tra
i membri più intenso di quello dell’associazione madre, può essere stato la
principale causa di questo mancato successo. Se da un lato, infatti, i
non-bibliotecari preferivano forse assistere ai lavori di altre sezioni più
vicine ai loro diretti interessi scientifici, dall’altro i bibliotecari
presenti al convegno erano davvero pochi, visto che la maggior parte dei
rappresentanti delle biblioteche sinologiche europee si sarebbero poi ritrovati
nel convegno annuale della loro associazione, a Leida, nello stesso mese di
settembre.
Tra i pochi interventi presentati nella sezione, che si
configuravano per lo più come dimostrazioni tecniche di vari software,
il più coinvolgente è risultato essere il contributo portato da Richard
Teschke, dell’Università di Monaco, sull’edizione elettronica del Siku
quanshu, della quale, come si ricorderà, avevo fatto cenno nel primo di
questi miei pezzi per Mondo cinese1. Ho chiesto all’amico Teschke di
approfittare della nostra rubrica per presentare ad un pubblico più vasto le
sue considerazioni, frutto di un esame dettagliato del prodotto, ed egli mi ha
cortesemente inviato una nota approfondita, lasciandomi libero di intervenire
per renderla più adatta al tono generale di questa rubrica.
Richard Teschke ci parla del Siku quanshu
Ogni precedente tentativo di rendere disponibili versioni
elettroniche di testi cinesi è stati superato dall’uscita della versione
elettronica del Siku quanshu (SKQS)2 nella primavera del 2000. Il SKQS,
ovvero “Raccolta completa dei testi dei quattro depositi”, è di gran lunga
la maggior collezione cinese di testi e comprende opere di pressoché tutte le
discipline e tutti i periodi. Venne completata per ordine dell’imperatore
Qianlong negli anni dal 1772 al 1781 e raccoglie 3471 titoli di 2911 autori
diversi. Nel secolo scorso questa copia3 è stata pubblicata parecchie volte, l’ultima
delle quali risulta essere l’Edizione elettronica del Siku quanshu, in
due differenti versioni, pubblicata dalla Digital Heritage e dalla Chinese
University Press. La versione “standard” contiene quello che viene chiamato
“testo per immagini”, ovvero immagini a mappa di punti ottenute per
scansione di ognuna delle 4 milioni e 700 mila pagine del SKQS, con implementate
funzioni di ricerca per il catalogo4. L’edizione “professionale” contiene
sia il testo per immagini sia il testo completo digitalizzato della collezione
che, insieme con le funzioni di ricerca e altre utility costituisce, con
i suoi 800 milioni di caratteri, la più grande base di dati della tradizione
letteraria cinese, basata su testo digitalizzato, attualmente esistente. Al
confronto, il database delle 25 storie dinastiche, Ershiwu shi dell’Academia
Sinica di Taibei contiene circa 400 mila caratteri5.
Quanto segue illustrerà i requisiti per il funzionamento e
le funzioni dell’edizione professionale.
Contrariamente a quanto si afferma nell’opuscolo
distribuito dall’editore, non gira in “ogni ambiente compatibile con Windows
95”. Su parecchie versioni provate, solo per l’edizione cinese in caratteri
non semplificati (fantizi ban) di Windows 98 non è necessario alcun
programma per la gestione del cinese. In considerazione delle sue dimensioni e
delle esigenze di calcolo che comporta, non è raccomandabile installare il
database in una macchina con un processsore inferiore ad un Pentium III e che
disponga di meno di 64 MB di RAM.
I CD in cui è suddivisa l’opera sono 167 per il testo in
immagini, 10 per la versione in testo digitalizzato, comprendenti il Cd con i
file di programma e 8 per gli indici. L’installazione completa richiede 110
gigabyte di spazio su disco, ma in alternativa l’installazione parziale del
solo testo digitalizzato, degli indici e dei file di programma richiede soltanto
uno spazio maggiormente gestibile di 8 GB.
L’installazione dei dati sui CD è facile grazie all’apposito
programma di installazione. Le funzionalità complete dell’applicativo sono
gestite tramite l’interfaccia grafica. L’utente può navigare in tutto il
database con il mouse in modo assai simile a chi frequenta il Web e tutto è
agevolato da icone autodescrittive e collegamenti ipertestuali. Il termine da
ricercare può essere immesso sia attraverso il sistema di immissione dei
caratteri cinesi di Windows (o comunque dell’applicativo di gestione del
cinese) oppure con il sistema messo a disposizione dal programma di gestione del
database, che implementa modalità di input basate sul numero totale dei tratti
e sui radicali. Quest’ultimo rappresenta il solo modo per immettere caratteri
contenuti nel set proprietario del programma che non viene messo a disposizione
di Windows. I moduli disponibili per effettuare le ricerche sono di due tipi:
“standard”, per ricercare singoli caratteri e stringhe continue di testo, e
“avanzato” per condurre ricerche combinate avvalendosi degli operatori
booleani. In entrambi i casi il campo di ricerca può essere limitato per
titolo, autore o sulla base al sistema di classificazione specifico del SKQS.
Una ricerca illimitata per il carattere fa (“legge”, “regola”) ha
portato al risultato di 613.391 occorrenze presenti in 66.275 capitoli e ha
richiesto 23 secondi. Il carattere fa (“capelli”) è risultato
ricorrente 14.518 volte in 33.185 capitoli, dato che, per essere appurato, ha
richiesto 5 secondi ad un pc munito di un processore Pentium III a 550 Mhz e 128
MB di RAM. Queste prestazioni, viste le dimensioni del database, sono del tutto
notevoli. Il modo per ottenerle sta nel compiere una ricerca non sul testo
digitalizzato completo, ma bensì in un indice a questo già disponibile
precompilato. I risultati delle ricerche sono ordinati sulla base della
classificazione interna del SKQS e l’ordine non può essere cambiato.
L’utente naviga nella pagine che risultano dalla ricerca
nel modo consueto, ovvero avanti, indietro, all’inizio e alla fine. I
risultati possono essere stampati pagina per pagina. Diversamente da altre basi
di dati o concordanze a stampa, non è possibile visualizzare molteplici
occorrenze di un termine che si sia ricercato in un’unica pagina nel suo
contesto testuale originale. Invece, per ogni occorrenza, l’utente può
cliccare con il mouse su un collegamento ipertestuale per andare direttamente o
alla pagina dove appare il termine ricercato, o alla prima pagina di quel
capitolo oppure ancora alla prima pagina dell’opera relativa presente come
testo completo digitalizzato. Il testo viene presentato come in un libro cinese
tradizionale e a schermo appaiono le pagine a due a due, con l’occorrenza
evidenziata. Si può ottenere un ingrandimento a pieno schermo delle due pagine,
oppure ridurle fino a visualizzarne otto nella stessa schermata. Il cursore del
mouse può essere trasformato in una lente d’ingrandimento per visualizzare un
carattere in dimensioni di cinque volte superiori. Sempre grazie al cursore del
mouse è possibile mettere in funzione il dizionario online: cliccando
sopra un carattere nel testo digitalizzato compare una finestra che riporta una
voce di dizionario6 per il carattere e permette anche di udirne la pronuncia.
Infine il cursore del mouse può essere usato per evidenziare i caratteri nel
modo consueto di Windows. I caratteri evidenziati possono costituire un nuovo
elemento da ricercare oppure essere ricopiati negli appunti e trasferiti in un
altro applicativo. Sfortunatamente, questa funzione di copia era disabilitata
nella versione del programma presa in esame7.
La pagina di testo digitalizzato può venire stampata, ma
sembra che nella routine di stampa sia presente un baco, dato che su
tutte le pagine prodotte con diverse stampanti della Hewlett-Packard risultava
un segno a coda di pesce fuori posto che, invece di apparire nella colonna di
separazione, veniva stampato sopra il testo, rendendo così illeggibili alcuni
caratteri8.
L’utente può navigare attraverso tutto il testo
digitalizzato cliccando sui pulsanti per saltare alla pagina precedente o alla
successiva, e così per i capitoli, le opere e le occorrenze, oppure per
visualizzare la stessa pagina nel formato testo per immagini. Nello scorrere le
pagine, occorre abituarsi al modo cinese di farlo, dato che il pulsante di
sinistra significa “avanti” e non “indietro”. Il testo per immagini,
come quello digitalizzato, mostra la figura ottenuta per scansione di due pagine
affiancate a stampa in una risoluzione soddisfacente. Il numero di pagina, per
ragioni sconosciute, compare solo nella versione bitmap mentre il
dizionario online non è invece disponibile in tale versione. Nelle
schermate del testo per immagini, le funzionalità sono limitate alla
possibilità di allargare le pagine a pieno schermo, alla navigazione avanti e
indietro per pagina, capitolo o opera, alla stampa e al posizionarsi sui
risultati di una ricerca o sulla pagina in modalità testo digitalizzato.
Last but not least, in qualsiasi momento è disponibile
una certa quantità di funzioni di servizio. L’aiuto in linea presenta un
chiaro e conciso manuale in cinese per l’uso del database. Si possono
stabilire, cambiando la configurazione, lo schema di colori e l’eventuale
inclusione di varianti grafiche per i caratteri che si vogliono ricercare. Tra
le altre funzioni aggiunte, è possibile convertire le date dal sistema cinese
basato sui periodi di regno a ciclo sessantennale al calendario occidentale.
Nella confezione era compreso anche un “CD omaggio” contenente l’interfaccia
per una versione elettronica del Dizionario del Siku quanshu9, che però
non è risultato possibile installare.
Installazione e gestione dell’applicativo sono abbastanza
facili, ma la stabilità di sistema non è soddisfacente, poiché in media si
verifica un crash di sistema ad intervalli di una o due ore. Questi
blocchi possono naturalmente essere dovuti al sistema operativo, ed è
verosimile che la stabilità aumenti con il passaggio a Windows 2000. Secondo
quanto riportato nella documentazione allegata, per assicurare l’accuratezza
testuale del database in testo digitalizzato è stato utilizzato un elaborato
sistema di procedimenti multipli per il riconoscimento dei caratteri e la
correzione delle bozze. L’applicazione si serve di un set di codifica
proprietario, basato su Unicode, che comprende 29.172 caratteri, il che limita a
soli 24 il numero dei caratteri non inclusi nella versione in testo
digitalizzato.
Nel complesso, questo database è notevole per le sue
dimensioni, l’accuratezza testuale, la facilità d’uso e le prestazioni, ma
tuttavia alcuni utenti sentiranno la mancanza di alcune funzionalità, quali l’elaborazione
di un bilancio sistematico dei risultati d’una ricerca, la possibilità di
ricercare termini sulla base di parametri più complessi di quelli disponibili
oppure anche di visualizzare nella stessa pagina di più contesti.
* * *
Fin qui, dunque, il contributo di Richard Teschke, al quale
vorrei aggiungere alcune informazioni ulteriori e un piccolo commento.
L’edizione elettronica del Siku quanshu fornisce un
valido esempio dei risultati che si possono ottenere sfruttando al meglio le
nuove tecnologie: il fatto che questo si sia poi ottenuto nel campo specifico
degli studi classici cinesi che, notoriamente, non è certo un terreno
particolarmente frequentato da hacker e appassionati d’informatica, ci
rende ancora più consapevoli delle dimensioni delle trasformazioni in atto.
Come si evince dall’intervento di Richard, si tratta sostanzialmente di due
versioni parallele dell’opera, tra le quali emerge nettamente la superiorità
dell’edizione in testo digitalizzato, sia sotto il profilo della gestibilità
pratica, dato il numero ridotto di cd in cui è contenuta, sia sotto quello dell’operatività.
Purtroppo, il costo sembra essere inversamente proporzionale alla mole delle due
versioni: la standard è disponibile per 3.900 dollari USA, mentre la
professionale (che, lo ricordiamo, comprende tuttavia anche i 167 cd dell’edizione
in bitmap) ne costa ben 11.050. Al sito ufficiale del Siku quanshu in
edizione elettronica, all’indirizzo Web http://www.sikuquanshu.com, si
possono ottenere in grande quantità informazioni dettagliate sul database. Le
pagine sono ben organizzate e chiare, e sono disponibili in cinese (sia in
caratteri tradizionali che semplificati) e in inglese.
Alcuni amici mi hanno anche fatto sapere della disponibilità
di quella che sembra sere un’ulteriore edizione del grande repertorio, in
questo caso solo in versione bitmap, che sarebbe contenuta in 153 cd. Per
saperne di più (tra l’altro, il costo è decisamente più contenuto rispetto
alla versione standard della Chinese University Press), si visitino le pagine
relative all’indirizzo http://www.hwsk.com. Allo stesso sito vengono
annunciate altre edizioni di testi elettronici, sulla carta estremamente
interessanti, che speriamo di poter esaminare nei prossimi numeri di questa
rubrica. Sembra infine certa, inoltre, la disponibilità di edizioni pirata dell’opera
- solo per la versione bitmap - che potrebbero interessare chi fosse proprio
disposto a tutto pur di soddisfare la propria sete di sapere. Scherzi a parte,
anche in questo caso, i costi certo elevati del lavoro di preparazione dell’edizione,
soprattutto di quella in testo digitalizzato, e la natura estremamente
specialistica del repertorio hanno fatto evidentemente propendere per un tipo di
commercializzazione del database che non favorisce certo i singoli utenti e che,
inoltre, sembra esere destinata ad istituzioni che abbiano a disposizione budget
elevati. Per colmo d’ironia, nella pagina in inglese con i prezzi del prodotto
la descrizione comprende la dicitura “single user”.
Da un punto di vista tecnico, il contributo di Teschke lascia
ancora aperti alcuni interrogativi: per esempio, il numero di caratteri
disponibili nel sistema di gestione del database è più ampio del set CJK
unificato di Unicode (29.172 caratteri contro 27.786 della versione 3.0 del
codice10, che comprende circa 6.000 caratteri di più della versione 2.0, l’unica
tuttora implementata in Windows), e il database riulta perfettamente funzionante
solo in una versione di Windows basata su caratteri non semplificati. Questo
può forse spiegare alcuni problemi di compatibilità (specialmente con gli
Appunti di Windows 98, che presentano qualche difficoltà nella gestione di
testo Unicode) e gli occasionali crash di sistema. Un fenomeno simile si
verifica anche con l’Hanyu da cidian, che risulta disponibile
addirittura in due versioni, una per il mercato occidentale, basata su un set
ridotto di caratteri e una per quello interno. Non mi sento di lanciare nessuna
ipotesi a spiegazione di questo e di altri fatti, in attesa che Richard - o chi
per lui - sperimenti un’installazione del database in una versione occidentale
o multilingue di Windows 2000 e ci faccia sapere qualcosa.
Un salto in tipografia
La gestione di documenti per la stampa, come sappiamo, rimane
una delle implementazioni più diffuse delle nuove tecnologie nell’ambito
degli studi cinesi: grazie al computer, il problema di offrire ai nostri lettori
testi impaginati a dovere comprensivi di caratteri cinesi, trascrizioni
in pinyin complete di toni e altro ancora, senza scialaquare interi
patrimoni in tipografia, è stato risolto in maniera definitiva. Tuttavia,
sussiste tuttora la possibilità, per utenti che non sempre si trovano a loro
agio quando il discorso si fa più tecnico, che operazioni che fino ad un
momento prima sembravano facilissime si complichino improvvisamente e che l’interfaccia
dell’ambiente che usiamo per il nostro lavoro quotidiano, da amichevole si
trasformi in inesorabilmente ostile. Nel settore specifico della preparazione di
documenti per la stampa, nel caso in cui i testi che vogliamo produrre
contengano sia parti in italiano, sia in cinese, tutte formattate, questa
possibilità si traduce spesso in una sostanziale difficoltà nel gestire i tipi
di carattere per le diverse lingue, in problemi di congruenza nella
formattazione e nell’impossibilità di rendere perfettamente “portabili” i
nostri documenti. Con una piccola digressione lievemenmte tecnicistica, vorrei
in questo numero cominciare ad affrontare alcuni di questi problemi e presentare
alcuni pratici strumenti ideati per la loro soluzione.
Lo sviluppo della diffusione dell’informatica, sia in
termini di hardware che di software, ha comportato un generale
abbattimento dei costi che non ha avuto notevoli e per lo più positivi
riscontri anche sotto l’aspetto di una maggiore disponibilità di risorse.
Questo fenomeno si traduce sia nella possibilità di avere determinati strumenti
e di accedere a determinati servizi a costi decisamente più convenienti
rispetto a qualche anno fa, sia in un incremento nella tipologia di detti
strumenti e detti servizi. È ben noto che un terreno in cui più si avverte il
salto di qualità (prestazioni) e di quantità (spazio) è quello delle memorie
di massa. Come sempre, è nel confronto tra la situazione attuale e quella di un
dato periodo precedente che ci si può rendere conto delle proporzioni di tale
salto: ai prezzi attuali di mercato, il costo odierno di un disco rigido è 1000
volte inferiore a quello di dieci anni fa, a paragone di una velocità anche 20
volte superiore.
Di conseguenza, ognuno di noi si ritrova il calcolatore pieno
zeppo di applicativi, immagini, documenti di testo, residui di installazione di
programmi obsoleti e quant’altro ancora senza che si faccia nulla per
impedirlo, visto che, appunto, i megabyte di spazio non costano poi così tanto.
Inoltre, chi si occupa di studi cinesi ha magari avuto la
possibilità di testare diversi programmi per la gestione del cinese,
provenienti da produttori diversi e in più release. Se anche ci si è
poi accontentati di utilizzarne solo alcuni, cosa che si rende necessaria anche
per non rischiare di rovinare file preziosissimi modificandoli con
applicativi diversi e forse incompatibili, ci si ritrova spesso con alcuni
indesiderati ricordi di vecchie installazioni: tra questi i tipi di carattere
(cui per comodità farò riferimento con il termine inglese di font), sia
perché basati su codifiche diverse, sia perché non sempre tra loro
distinguibili, sono spesso difficili da eliminare senza farsi tanti problemi.
È anche utile ricordare che, per quanta RAM si abbia a
disposizione, un numero eccessivo di font rallenta inesorabilmente il
sistema: Windows 98, ad esempio, ha difficoltà a gestire più di 200 font
che siano tutti residenti in memoria. Se il nostro pc dispone solo di 64 MB di
RAM, è meglio limitarsi a questo numero. Si tenga poi presente che i font
per il cinese occupano una quantità di memoria maggiore rispetto a quelli per
gli alfabeti occidentali e che quelli compatibili Unicode lo sono ancora di più11.
Ma com’è possibile, volendo mettere ordine nei tipi di
carattere, molti dei quali sono utili per le nostre attività e alcuni
addirittura irrinunciabili, conoscere le caratteristiche dei singoli font,
in modo tale da non confondere un carattere preziossimo per il cinese con un
altro installatoci con altri cento da un applicativo per la grafica? Un’utility
gratuita, messa a disposizione dalla Micrososft, costituisce un aiuto prezioso,
anche se non del tutto risolutivo. Per ottenere Windows Font Viewer, che
funziona perfettamente in tutte le ultime versioni di Windows, dalla 95 in poi,
è sufficiente scaricare il file Ttfext.exe dalla Rete
(http://www.microsoft.com/typography/property/property.htm)
in una
cartella qualsiasi del nostro disco rigido ed eseguirlo. Una volta installato il
piccolo applicativo, sarà sufficiente fare clic con il pulsante destro del
mouse sull’icona corrispondente al nome di un font nella specifica
cartella per visualizzare il menu di utilità. Da questo, si acceda alla voce
“Proprietà” e si aprirà una finestra d’informazione, con le voci
raggruppate con il consueto sistema a linguette.
Cliccando su queste si possono ottenere diversi tipi di
informazioni sui font, dei quali segnalerò solo i più importanti: “General”
- caratteristiche di formato del file, attributi, ecc.; “CharSet/Unicode” -
i set Unicode e/o le pagine di codice supportati dal carattere; “Description”
- dati sulla storia e sullo stile del font, con eventuali informazioni
sul designer che l’ha ideato; “Embedding” - descrizione accurata
delle caratteristiche di esportabilità del carattere; “Names” - indicazioni
sulla denominazione ufficiale, sulla “fonderia” di provenienza e sui
detentori dei diritti; “Features” - standard (numero di singoli
caratteri, presenza o meno del segno dell’euro ecc.) e OpenType, quest’ultima
voce in riferimento ad un importante accordo tra software-house per la
portabilità dei sistemi tipografici digitali. I font che si vogliono
esaminare possono anche non essere TrueType, ma in questo caso verranno
visualizzate solo le informazioni più generali.
Certo non tutte le singole voci sono d’immediata
comprensione, né tantomeno di utilità generale, ma un esempio pratico potrà
forse far capire l’importanza di uno strumento umile ma prezioso. MS Mincho e
Simsun sono font installabili con le estensioni multilinguistiche di
Office 2000 ed Internet Explorer 5, nonché con il pacchetto denominato Proofing
Tools. Entrambi possono essere utilizzati con caratteri giapponesi, cinesi e
coreani in applicazioni compatibili Unicode, ma, se utilizzati in ambienti software
che usano i codici precedenti (ad esempio JIS per il giapponese e GuoBiao per il
cinese), non godono più di una validità così universale. Tutto questo io l’ho
sperimentato direttamente nel corso del mio lavoro, con perdita di tempo e di
dati. Ora, invece, grazie a Windows Font Viewer le informazioni più utili sui
due font sono disponibili senza rischi: dalle informazioni riportate alla
voce “CharSet/Unicode”, infatti, risulta che, mentre entrambi supportano i
set Unicode CJK Unified Ideographs, Hiragana e Katakana, per pagine di codice
gestibili differiscono notevolmente. In particolare, Simsun è utilizzabile solo
per il cinese in codifica GB (“936: Chinese:Simplified chars--PRC and
Singapore”), MS Mincho riporta invece la pagina per le codifiche per il
giapponese JIS (“932: JIS/Japan”).
All’atto pratico informazioni come questa sono estremamente
importanti quando, ad esempio, si edita lo stesso documento in ambienti diversi:
quindi, mentre Simsun assicura una certa gestibilità dei documenti anche in
sistemi non Unicode se si utilizza il codice GuoBiao, MS Mincho può farlo solo
per il giapponese. Più in generale possiamo dunque capire come, prima di
pensare di sostituire un font con un altro (operazione frequente in sede
di ottimizzazione dei documenti a fini di stampa), sia opportuno controllare che
set e/o pagine di codici concordino.
Windows Font Viewer presenta alcune limitazioni: non è
possibile visualizzare le informazioni per caratteri che, in Gestione delle
risorse, vengono elencati per famiglie e non singolarmente; le informazioni
devono essere inserite in sede di costruzione del font; non dispone di un
help in linea, cosa che sarebbe utilissimo anche per sfruttare a sfondo
questo piccola ma indispensabile utility.
Il set CJK unificato in Unicode
La scoperta di Windows Font Viewer, avvenuta del tutto
casualmente passando di link in link nelle pagine web del
consorzio Unicode (http://www.unicode.org), mi spinge a parlare di altre
perle preziose disponibili gratuitamente per chiunque voglia capire di più
degli strumenti informatici che usa ogni giorno. Poiché il contenuto
squisitamente tecnico di molte di queste “perle” esula forse dai propositi
di questa rubrica, mi limiterò a presentare solo Unihan.txt. Questo file
di testo, del quale mi sono servito per desumere una serie di dati forniti in
precedenza, è una risorsa tecnica preziosa, appunto, per chiunque sia
interessato ad approfondire gli aspetti tecnici della gestione del cinese, del
giapponese e del coreano con Unicode, e fa parte di quegli aiuti e quelle
informazioni che il consorzio rende disponibili a programmatori e semplici
appassionati per favorire la diffusione del codice e la sua implementazione nei
vari sistemi.
Sostanzialmente, Unihan.txt non è che una tabella in testo
delimitato preceduta da una descrizione accurata dei contenuti. La tabella,
divisa in tre campi, comprende ben 638.583 record. Ogni carattere del set
unificato è infatti riportato in più righe, con il numero di codice Unicode
nel primo campo; per ogni riga vengono poi riportati i dati per l’identificazione
univoca del carattere secondo i vari sistemi, dalla collocazione nel Kangxi
zidian a quella nello Hanyu da zidian, dalla codifica GB a quella
Big5, dalla pronuncia in mandarino a quella in cantonese e così via; nel
secondo campo è indicato il tipo di codifica o la proprietà cui ci si
riferisce nel dato contenuto nel terzo, che può contenere così il numero di
codice, la pronuncia effettiva (per il mandarino in pinyin con
indicazione numerica del tono, e indicazione di tutte le varianti) o quant’altro
ancora.
Come si può notare, la tabella non prevede la
visualizzazione del glifo del carattere, essendo in formato testo, e risulta di
scomoda consultazione, ma con un piccolo esercizio si possono ottenere risultati
interessanti per renderla chiara e funzionale come un vero e proprio dizionario on
line. Ho importato i dati contenuti nel file in Access 200012, ricavando una
tabella la cui unica differenza rispetto a quella originale sta nell’attribuire
nomi specifici ai tre campi. Per visualizzare i caratteri ho ideato una maschera
che, oltre ai tre campi della tabella, presenta anche una casella di testo non
associata ad alcun campo, con il formato carattere settato su Arial Unicode. Un’espressione
semplicissima, richiamata nella proprietà “Dati/Origine controllo” della
casella di testo, consente di richiamare a schermo il carattere citato in ogni
record13. Fatto questo è possibile organizzare il database sulla base delle
nostre esigenze utilizzando l’interfaccia efficiente e facile di Access.
--------------
Alcuni amici mi hanno fatto notare che, in questa rubrica,
viene fatto molto spesso riferimento diretto a determinate ditte di software e
non ad altre. In particolare, non solo gli ambienti che sono teatro delle
sperimentazioni e delle implementazioni di cui parliamo risultano essere quelli
proposti e commercializzati dalla Microsoft, ma addirittura anche alcune delle
singole soluzioni di cui s’è detto fanno capo al colosso americano.
In effetti, pur se chi scrive è decisamente dell’opinione
che, almeno sulle piattaforme Windows più recenti, sia difficile trovare
soluzioni complete per la gestione del cinese migliori (e non solo in termini di
prezzo/prestazioni) di quelle proposte dalla ditta di Gates, restiamo comunque
sempre in attesa dei contributi di lettori che ci vogliano parlare di soluzioni
alternative, sia nei medesimi ambienti che in altri (Macintosh e Linux,
soprattutto). Lo spirito di questa rubrica è di aiutare lo specialista e il
semplice appassionato di studi cinesi ad avvalersi al meglio delle nuove
tecnologie e quindi avvertiamo la necessità di presentare soluzioni per tutti
gli ambienti e non solo per quelli più diffusi.
Gli amici e lettori che vogliano collaborare con questa
rubrica o più semplicemente contattare il curatore possono farlo scrivendo all’indirizzo
e-mail laofei@unive.it
MONDO CINESE N. 105, SETTEMBRE 2000