Nuovi strumenti per conoscere la Cina

		Web	https://www.tuttocina.it

INDICE>MONDO CINESE>INVESTIRE IN CINA>NUOVI STRUMENTI PER CONOSCERE LA CINA

NUOVI STRUMENTI PER CONOSCERE LA CINA

Rubrica a cura di Federico Greselin

Richard Teschke ci parla del Siku quanshu - Un salto in tipografia - Il set CJK unificato in Unicode

In una delle sezioni di discussione del recente convegno torinese dell’European Association of Chinese Studies (30.8-1.9.2000) sono stati presentate alcune soluzioni tecnologicamente avanzate per la gestione di dati librari. Come capita spesso quando i contenuti di un panel si fanno decisamente tecnici, nonostante tutti gli studiosi possano essere interessati, più o meno direttamente, alla gestione dei volumi nelle biblioteche sinologiche d’Europa, quella di cui sto parlando è risultata essere la sezione meno frequentata (ho rilevato una punta massima di 16 persone!). Vero è anche che l’aver affidato la gestione del panel all’European Association of Chinese Librarians, un’organizzazione che pur essendo una diretta emanazione dell’EACS, gode di un’ampia autonomia che si concretizza in un calendario di incontri tra i membri più intenso di quello dell’associazione madre, può essere stato la principale causa di questo mancato successo. Se da un lato, infatti, i non-bibliotecari preferivano forse assistere ai lavori di altre sezioni più vicine ai loro diretti interessi scientifici, dall’altro i bibliotecari presenti al convegno erano davvero pochi, visto che la maggior parte dei rappresentanti delle biblioteche sinologiche europee si sarebbero poi ritrovati nel convegno annuale della loro associazione, a Leida, nello stesso mese di settembre.

Tra i pochi interventi presentati nella sezione, che si configuravano per lo più come dimostrazioni tecniche di vari software, il più coinvolgente è risultato essere il contributo portato da Richard Teschke, dell’Università di Monaco, sull’edizione elettronica del Siku quanshu, della quale, come si ricorderà, avevo fatto cenno nel primo di questi miei pezzi per Mondo cinese¹. Ho chiesto all’amico Teschke di approfittare della nostra rubrica per presentare ad un pubblico più vasto le sue considerazioni, frutto di un esame dettagliato del prodotto, ed egli mi ha cortesemente inviato una nota approfondita, lasciandomi libero di intervenire per renderla più adatta al tono generale di questa rubrica.

Richard Teschke ci parla del Siku quanshu

Ogni precedente tentativo di rendere disponibili versioni elettroniche di testi cinesi è stati superato dall’uscita della versione elettronica del Siku quanshu (SKQS)² nella primavera del 2000. Il SKQS, ovvero “Raccolta completa dei testi dei quattro depositi”, è di gran lunga la maggior collezione cinese di testi e comprende opere di pressoché tutte le discipline e tutti i periodi. Venne completata per ordine dell’imperatore Qianlong negli anni dal 1772 al 1781 e raccoglie 3471 titoli di 2911 autori diversi. Nel secolo scorso questa copia³ è stata pubblicata parecchie volte, l’ultima delle quali risulta essere l’Edizione elettronica del Siku quanshu, in due differenti versioni, pubblicata dalla Digital Heritage e dalla Chinese University Press. La versione “standard” contiene quello che viene chiamato “testo per immagini”, ovvero immagini a mappa di punti ottenute per scansione di ognuna delle 4 milioni e 700 mila pagine del SKQS, con implementate funzioni di ricerca per il catalogo⁴. L’edizione “professionale” contiene sia il testo per immagini sia il testo completo digitalizzato della collezione che, insieme con le funzioni di ricerca e altre utility costituisce, con i suoi 800 milioni di caratteri, la più grande base di dati della tradizione letteraria cinese, basata su testo digitalizzato, attualmente esistente. Al confronto, il database delle 25 storie dinastiche, Ershiwu shi dell’Academia Sinica di Taibei contiene circa 400 mila caratteri⁵.

Quanto segue illustrerà i requisiti per il funzionamento e le funzioni dell’edizione professionale.

Contrariamente a quanto si afferma nell’opuscolo distribuito dall’editore, non gira in “ogni ambiente compatibile con Windows 95”. Su parecchie versioni provate, solo per l’edizione cinese in caratteri non semplificati (fantizi ban) di Windows 98 non è necessario alcun programma per la gestione del cinese. In considerazione delle sue dimensioni e delle esigenze di calcolo che comporta, non è raccomandabile installare il database in una macchina con un processsore inferiore ad un Pentium III e che disponga di meno di 64 MB di RAM.

I CD in cui è suddivisa l’opera sono 167 per il testo in immagini, 10 per la versione in testo digitalizzato, comprendenti il Cd con i file di programma e 8 per gli indici. L’installazione completa richiede 110 gigabyte di spazio su disco, ma in alternativa l’installazione parziale del solo testo digitalizzato, degli indici e dei file di programma richiede soltanto uno spazio maggiormente gestibile di 8 GB.

L’installazione dei dati sui CD è facile grazie all’apposito programma di installazione. Le funzionalità complete dell’applicativo sono gestite tramite l’interfaccia grafica. L’utente può navigare in tutto il database con il mouse in modo assai simile a chi frequenta il Web e tutto è agevolato da icone autodescrittive e collegamenti ipertestuali. Il termine da ricercare può essere immesso sia attraverso il sistema di immissione dei caratteri cinesi di Windows (o comunque dell’applicativo di gestione del cinese) oppure con il sistema messo a disposizione dal programma di gestione del database, che implementa modalità di input basate sul numero totale dei tratti e sui radicali. Quest’ultimo rappresenta il solo modo per immettere caratteri contenuti nel set proprietario del programma che non viene messo a disposizione di Windows. I moduli disponibili per effettuare le ricerche sono di due tipi: “standard”, per ricercare singoli caratteri e stringhe continue di testo, e “avanzato” per condurre ricerche combinate avvalendosi degli operatori booleani. In entrambi i casi il campo di ricerca può essere limitato per titolo, autore o sulla base al sistema di classificazione specifico del SKQS. Una ricerca illimitata per il carattere fa (“legge”, “regola”) ha portato al risultato di 613.391 occorrenze presenti in 66.275 capitoli e ha richiesto 23 secondi. Il carattere fa (“capelli”) è risultato ricorrente 14.518 volte in 33.185 capitoli, dato che, per essere appurato, ha richiesto 5 secondi ad un pc munito di un processore Pentium III a 550 Mhz e 128 MB di RAM. Queste prestazioni, viste le dimensioni del database, sono del tutto notevoli. Il modo per ottenerle sta nel compiere una ricerca non sul testo digitalizzato completo, ma bensì in un indice a questo già disponibile precompilato. I risultati delle ricerche sono ordinati sulla base della classificazione interna del SKQS e l’ordine non può essere cambiato.

L’utente naviga nella pagine che risultano dalla ricerca nel modo consueto, ovvero avanti, indietro, all’inizio e alla fine. I risultati possono essere stampati pagina per pagina. Diversamente da altre basi di dati o concordanze a stampa, non è possibile visualizzare molteplici occorrenze di un termine che si sia ricercato in un’unica pagina nel suo contesto testuale originale. Invece, per ogni occorrenza, l’utente può cliccare con il mouse su un collegamento ipertestuale per andare direttamente o alla pagina dove appare il termine ricercato, o alla prima pagina di quel capitolo oppure ancora alla prima pagina dell’opera relativa presente come testo completo digitalizzato. Il testo viene presentato come in un libro cinese tradizionale e a schermo appaiono le pagine a due a due, con l’occorrenza evidenziata. Si può ottenere un ingrandimento a pieno schermo delle due pagine, oppure ridurle fino a visualizzarne otto nella stessa schermata. Il cursore del mouse può essere trasformato in una lente d’ingrandimento per visualizzare un carattere in dimensioni di cinque volte superiori. Sempre grazie al cursore del mouse è possibile mettere in funzione il dizionario online: cliccando sopra un carattere nel testo digitalizzato compare una finestra che riporta una voce di dizionario⁶ per il carattere e permette anche di udirne la pronuncia. Infine il cursore del mouse può essere usato per evidenziare i caratteri nel modo consueto di Windows. I caratteri evidenziati possono costituire un nuovo elemento da ricercare oppure essere ricopiati negli appunti e trasferiti in un altro applicativo. Sfortunatamente, questa funzione di copia era disabilitata nella versione del programma presa in esame⁷.

La pagina di testo digitalizzato può venire stampata, ma sembra che nella routine di stampa sia presente un baco, dato che su tutte le pagine prodotte con diverse stampanti della Hewlett-Packard risultava un segno a coda di pesce fuori posto che, invece di apparire nella colonna di separazione, veniva stampato sopra il testo, rendendo così illeggibili alcuni caratteri⁸.

L’utente può navigare attraverso tutto il testo digitalizzato cliccando sui pulsanti per saltare alla pagina precedente o alla successiva, e così per i capitoli, le opere e le occorrenze, oppure per visualizzare la stessa pagina nel formato testo per immagini. Nello scorrere le pagine, occorre abituarsi al modo cinese di farlo, dato che il pulsante di sinistra significa “avanti” e non “indietro”. Il testo per immagini, come quello digitalizzato, mostra la figura ottenuta per scansione di due pagine affiancate a stampa in una risoluzione soddisfacente. Il numero di pagina, per ragioni sconosciute, compare solo nella versione bitmap mentre il dizionario online non è invece disponibile in tale versione. Nelle schermate del testo per immagini, le funzionalità sono limitate alla possibilità di allargare le pagine a pieno schermo, alla navigazione avanti e indietro per pagina, capitolo o opera, alla stampa e al posizionarsi sui risultati di una ricerca o sulla pagina in modalità testo digitalizzato.

Last but not least, in qualsiasi momento è disponibile una certa quantità di funzioni di servizio. L’aiuto in linea presenta un chiaro e conciso manuale in cinese per l’uso del database. Si possono stabilire, cambiando la configurazione, lo schema di colori e l’eventuale inclusione di varianti grafiche per i caratteri che si vogliono ricercare. Tra le altre funzioni aggiunte, è possibile convertire le date dal sistema cinese basato sui periodi di regno a ciclo sessantennale al calendario occidentale. Nella confezione era compreso anche un “CD omaggio” contenente l’interfaccia per una versione elettronica del Dizionario del Siku quanshu⁹, che però non è risultato possibile installare.

Installazione e gestione dell’applicativo sono abbastanza facili, ma la stabilità di sistema non è soddisfacente, poiché in media si verifica un crash di sistema ad intervalli di una o due ore. Questi blocchi possono naturalmente essere dovuti al sistema operativo, ed è verosimile che la stabilità aumenti con il passaggio a Windows 2000. Secondo quanto riportato nella documentazione allegata, per assicurare l’accuratezza testuale del database in testo digitalizzato è stato utilizzato un elaborato sistema di procedimenti multipli per il riconoscimento dei caratteri e la correzione delle bozze. L’applicazione si serve di un set di codifica proprietario, basato su Unicode, che comprende 29.172 caratteri, il che limita a soli 24 il numero dei caratteri non inclusi nella versione in testo digitalizzato.

Nel complesso, questo database è notevole per le sue dimensioni, l’accuratezza testuale, la facilità d’uso e le prestazioni, ma tuttavia alcuni utenti sentiranno la mancanza di alcune funzionalità, quali l’elaborazione di un bilancio sistematico dei risultati d’una ricerca, la possibilità di ricercare termini sulla base di parametri più complessi di quelli disponibili oppure anche di visualizzare nella stessa pagina di più contesti.

* * *

Fin qui, dunque, il contributo di Richard Teschke, al quale vorrei aggiungere alcune informazioni ulteriori e un piccolo commento.

L’edizione elettronica del Siku quanshu fornisce un valido esempio dei risultati che si possono ottenere sfruttando al meglio le nuove tecnologie: il fatto che questo si sia poi ottenuto nel campo specifico degli studi classici cinesi che, notoriamente, non è certo un terreno particolarmente frequentato da hacker e appassionati d’informatica, ci rende ancora più consapevoli delle dimensioni delle trasformazioni in atto. Come si evince dall’intervento di Richard, si tratta sostanzialmente di due versioni parallele dell’opera, tra le quali emerge nettamente la superiorità dell’edizione in testo digitalizzato, sia sotto il profilo della gestibilità pratica, dato il numero ridotto di cd in cui è contenuta, sia sotto quello dell’operatività. Purtroppo, il costo sembra essere inversamente proporzionale alla mole delle due versioni: la standard è disponibile per 3.900 dollari USA, mentre la professionale (che, lo ricordiamo, comprende tuttavia anche i 167 cd dell’edizione in bitmap) ne costa ben 11.050. Al sito ufficiale del Siku quanshu in edizione elettronica, all’indirizzo Web http://www.sikuquanshu.com, si possono ottenere in grande quantità informazioni dettagliate sul database. Le pagine sono ben organizzate e chiare, e sono disponibili in cinese (sia in caratteri tradizionali che semplificati) e in inglese.

Alcuni amici mi hanno anche fatto sapere della disponibilità di quella che sembra sere un’ulteriore edizione del grande repertorio, in questo caso solo in versione bitmap, che sarebbe contenuta in 153 cd. Per saperne di più (tra l’altro, il costo è decisamente più contenuto rispetto alla versione standard della Chinese University Press), si visitino le pagine relative all’indirizzo http://www.hwsk.com. Allo stesso sito vengono annunciate altre edizioni di testi elettronici, sulla carta estremamente interessanti, che speriamo di poter esaminare nei prossimi numeri di questa rubrica. Sembra infine certa, inoltre, la disponibilità di edizioni pirata dell’opera - solo per la versione bitmap - che potrebbero interessare chi fosse proprio disposto a tutto pur di soddisfare la propria sete di sapere. Scherzi a parte, anche in questo caso, i costi certo elevati del lavoro di preparazione dell’edizione, soprattutto di quella in testo digitalizzato, e la natura estremamente specialistica del repertorio hanno fatto evidentemente propendere per un tipo di commercializzazione del database che non favorisce certo i singoli utenti e che, inoltre, sembra esere destinata ad istituzioni che abbiano a disposizione budget elevati. Per colmo d’ironia, nella pagina in inglese con i prezzi del prodotto la descrizione comprende la dicitura “single user”.

Da un punto di vista tecnico, il contributo di Teschke lascia ancora aperti alcuni interrogativi: per esempio, il numero di caratteri disponibili nel sistema di gestione del database è più ampio del set CJK unificato di Unicode (29.172 caratteri contro 27.786 della versione 3.0 del codice¹⁰, che comprende circa 6.000 caratteri di più della versione 2.0, l’unica tuttora implementata in Windows), e il database riulta perfettamente funzionante solo in una versione di Windows basata su caratteri non semplificati. Questo può forse spiegare alcuni problemi di compatibilità (specialmente con gli Appunti di Windows 98, che presentano qualche difficoltà nella gestione di testo Unicode) e gli occasionali crash di sistema. Un fenomeno simile si verifica anche con l’Hanyu da cidian, che risulta disponibile addirittura in due versioni, una per il mercato occidentale, basata su un set ridotto di caratteri e una per quello interno. Non mi sento di lanciare nessuna ipotesi a spiegazione di questo e di altri fatti, in attesa che Richard - o chi per lui - sperimenti un’installazione del database in una versione occidentale o multilingue di Windows 2000 e ci faccia sapere qualcosa.

Un salto in tipografia

La gestione di documenti per la stampa, come sappiamo, rimane una delle implementazioni più diffuse delle nuove tecnologie nell’ambito degli studi cinesi: grazie al computer, il problema di offrire ai nostri lettori testi impaginati a dovere comprensivi di caratteri cinesi, trascrizioni in pinyin complete di toni e altro ancora, senza scialaquare interi patrimoni in tipografia, è stato risolto in maniera definitiva. Tuttavia, sussiste tuttora la possibilità, per utenti che non sempre si trovano a loro agio quando il discorso si fa più tecnico, che operazioni che fino ad un momento prima sembravano facilissime si complichino improvvisamente e che l’interfaccia dell’ambiente che usiamo per il nostro lavoro quotidiano, da amichevole si trasformi in inesorabilmente ostile. Nel settore specifico della preparazione di documenti per la stampa, nel caso in cui i testi che vogliamo produrre contengano sia parti in italiano, sia in cinese, tutte formattate, questa possibilità si traduce spesso in una sostanziale difficoltà nel gestire i tipi di carattere per le diverse lingue, in problemi di congruenza nella formattazione e nell’impossibilità di rendere perfettamente “portabili” i nostri documenti. Con una piccola digressione lievemenmte tecnicistica, vorrei in questo numero cominciare ad affrontare alcuni di questi problemi e presentare alcuni pratici strumenti ideati per la loro soluzione.

Lo sviluppo della diffusione dell’informatica, sia in termini di hardware che di software, ha comportato un generale abbattimento dei costi che non ha avuto notevoli e per lo più positivi riscontri anche sotto l’aspetto di una maggiore disponibilità di risorse. Questo fenomeno si traduce sia nella possibilità di avere determinati strumenti e di accedere a determinati servizi a costi decisamente più convenienti rispetto a qualche anno fa, sia in un incremento nella tipologia di detti strumenti e detti servizi. È ben noto che un terreno in cui più si avverte il salto di qualità (prestazioni) e di quantità (spazio) è quello delle memorie di massa. Come sempre, è nel confronto tra la situazione attuale e quella di un dato periodo precedente che ci si può rendere conto delle proporzioni di tale salto: ai prezzi attuali di mercato, il costo odierno di un disco rigido è 1000 volte inferiore a quello di dieci anni fa, a paragone di una velocità anche 20 volte superiore.

Di conseguenza, ognuno di noi si ritrova il calcolatore pieno zeppo di applicativi, immagini, documenti di testo, residui di installazione di programmi obsoleti e quant’altro ancora senza che si faccia nulla per impedirlo, visto che, appunto, i megabyte di spazio non costano poi così tanto.

Inoltre, chi si occupa di studi cinesi ha magari avuto la possibilità di testare diversi programmi per la gestione del cinese, provenienti da produttori diversi e in più release. Se anche ci si è poi accontentati di utilizzarne solo alcuni, cosa che si rende necessaria anche per non rischiare di rovinare file preziosissimi modificandoli con applicativi diversi e forse incompatibili, ci si ritrova spesso con alcuni indesiderati ricordi di vecchie installazioni: tra questi i tipi di carattere (cui per comodità farò riferimento con il termine inglese di font), sia perché basati su codifiche diverse, sia perché non sempre tra loro distinguibili, sono spesso difficili da eliminare senza farsi tanti problemi.

È anche utile ricordare che, per quanta RAM si abbia a disposizione, un numero eccessivo di font rallenta inesorabilmente il sistema: Windows 98, ad esempio, ha difficoltà a gestire più di 200 font che siano tutti residenti in memoria. Se il nostro pc dispone solo di 64 MB di RAM, è meglio limitarsi a questo numero. Si tenga poi presente che i font per il cinese occupano una quantità di memoria maggiore rispetto a quelli per gli alfabeti occidentali e che quelli compatibili Unicode lo sono ancora di più¹¹.

Ma com’è possibile, volendo mettere ordine nei tipi di carattere, molti dei quali sono utili per le nostre attività e alcuni addirittura irrinunciabili, conoscere le caratteristiche dei singoli font, in modo tale da non confondere un carattere preziossimo per il cinese con un altro installatoci con altri cento da un applicativo per la grafica? Un’utility gratuita, messa a disposizione dalla Micrososft, costituisce un aiuto prezioso, anche se non del tutto risolutivo. Per ottenere Windows Font Viewer, che funziona perfettamente in tutte le ultime versioni di Windows, dalla 95 in poi, è sufficiente scaricare il file Ttfext.exe dalla Rete (http://www.microsoft.com/typography/property/property.htm) in una cartella qualsiasi del nostro disco rigido ed eseguirlo. Una volta installato il piccolo applicativo, sarà sufficiente fare clic con il pulsante destro del mouse sull’icona corrispondente al nome di un font nella specifica cartella per visualizzare il menu di utilità. Da questo, si acceda alla voce “Proprietà” e si aprirà una finestra d’informazione, con le voci raggruppate con il consueto sistema a linguette.

Cliccando su queste si possono ottenere diversi tipi di informazioni sui font, dei quali segnalerò solo i più importanti: “General” - caratteristiche di formato del file, attributi, ecc.; “CharSet/Unicode” - i set Unicode e/o le pagine di codice supportati dal carattere; “Description” - dati sulla storia e sullo stile del font, con eventuali informazioni sul designer che l’ha ideato; “Embedding” - descrizione accurata delle caratteristiche di esportabilità del carattere; “Names” - indicazioni sulla denominazione ufficiale, sulla “fonderia” di provenienza e sui detentori dei diritti; “Features” - standard (numero di singoli caratteri, presenza o meno del segno dell’euro ecc.) e OpenType, quest’ultima voce in riferimento ad un importante accordo tra software-house per la portabilità dei sistemi tipografici digitali. I font che si vogliono esaminare possono anche non essere TrueType, ma in questo caso verranno visualizzate solo le informazioni più generali.

Certo non tutte le singole voci sono d’immediata comprensione, né tantomeno di utilità generale, ma un esempio pratico potrà forse far capire l’importanza di uno strumento umile ma prezioso. MS Mincho e Simsun sono font installabili con le estensioni multilinguistiche di Office 2000 ed Internet Explorer 5, nonché con il pacchetto denominato Proofing Tools. Entrambi possono essere utilizzati con caratteri giapponesi, cinesi e coreani in applicazioni compatibili Unicode, ma, se utilizzati in ambienti software che usano i codici precedenti (ad esempio JIS per il giapponese e GuoBiao per il cinese), non godono più di una validità così universale. Tutto questo io l’ho sperimentato direttamente nel corso del mio lavoro, con perdita di tempo e di dati. Ora, invece, grazie a Windows Font Viewer le informazioni più utili sui due font sono disponibili senza rischi: dalle informazioni riportate alla voce “CharSet/Unicode”, infatti, risulta che, mentre entrambi supportano i set Unicode CJK Unified Ideographs, Hiragana e Katakana, per pagine di codice gestibili differiscono notevolmente. In particolare, Simsun è utilizzabile solo per il cinese in codifica GB (“936: Chinese:Simplified chars--PRC and Singapore”), MS Mincho riporta invece la pagina per le codifiche per il giapponese JIS (“932: JIS/Japan”).

All’atto pratico informazioni come questa sono estremamente importanti quando, ad esempio, si edita lo stesso documento in ambienti diversi: quindi, mentre Simsun assicura una certa gestibilità dei documenti anche in sistemi non Unicode se si utilizza il codice GuoBiao, MS Mincho può farlo solo per il giapponese. Più in generale possiamo dunque capire come, prima di pensare di sostituire un font con un altro (operazione frequente in sede di ottimizzazione dei documenti a fini di stampa), sia opportuno controllare che set e/o pagine di codici concordino.

Windows Font Viewer presenta alcune limitazioni: non è possibile visualizzare le informazioni per caratteri che, in Gestione delle risorse, vengono elencati per famiglie e non singolarmente; le informazioni devono essere inserite in sede di costruzione del font; non dispone di un help in linea, cosa che sarebbe utilissimo anche per sfruttare a sfondo questo piccola ma indispensabile utility.

Il set CJK unificato in Unicode

La scoperta di Windows Font Viewer, avvenuta del tutto casualmente passando di link in link nelle pagine web del consorzio Unicode (http://www.unicode.org), mi spinge a parlare di altre perle preziose disponibili gratuitamente per chiunque voglia capire di più degli strumenti informatici che usa ogni giorno. Poiché il contenuto squisitamente tecnico di molte di queste “perle” esula forse dai propositi di questa rubrica, mi limiterò a presentare solo Unihan.txt. Questo file di testo, del quale mi sono servito per desumere una serie di dati forniti in precedenza, è una risorsa tecnica preziosa, appunto, per chiunque sia interessato ad approfondire gli aspetti tecnici della gestione del cinese, del giapponese e del coreano con Unicode, e fa parte di quegli aiuti e quelle informazioni che il consorzio rende disponibili a programmatori e semplici appassionati per favorire la diffusione del codice e la sua implementazione nei vari sistemi.

Sostanzialmente, Unihan.txt non è che una tabella in testo delimitato preceduta da una descrizione accurata dei contenuti. La tabella, divisa in tre campi, comprende ben 638.583 record. Ogni carattere del set unificato è infatti riportato in più righe, con il numero di codice Unicode nel primo campo; per ogni riga vengono poi riportati i dati per l’identificazione univoca del carattere secondo i vari sistemi, dalla collocazione nel Kangxi zidian a quella nello Hanyu da zidian, dalla codifica GB a quella Big5, dalla pronuncia in mandarino a quella in cantonese e così via; nel secondo campo è indicato il tipo di codifica o la proprietà cui ci si riferisce nel dato contenuto nel terzo, che può contenere così il numero di codice, la pronuncia effettiva (per il mandarino in pinyin con indicazione numerica del tono, e indicazione di tutte le varianti) o quant’altro ancora.

Come si può notare, la tabella non prevede la visualizzazione del glifo del carattere, essendo in formato testo, e risulta di scomoda consultazione, ma con un piccolo esercizio si possono ottenere risultati interessanti per renderla chiara e funzionale come un vero e proprio dizionario on line. Ho importato i dati contenuti nel file in Access 2000¹², ricavando una tabella la cui unica differenza rispetto a quella originale sta nell’attribuire nomi specifici ai tre campi. Per visualizzare i caratteri ho ideato una maschera che, oltre ai tre campi della tabella, presenta anche una casella di testo non associata ad alcun campo, con il formato carattere settato su Arial Unicode. Un’espressione semplicissima, richiamata nella proprietà “Dati/Origine controllo” della casella di testo, consente di richiamare a schermo il carattere citato in ogni record¹³. Fatto questo è possibile organizzare il database sulla base delle nostre esigenze utilizzando l’interfaccia efficiente e facile di Access.

--------------

Alcuni amici mi hanno fatto notare che, in questa rubrica, viene fatto molto spesso riferimento diretto a determinate ditte di software e non ad altre. In particolare, non solo gli ambienti che sono teatro delle sperimentazioni e delle implementazioni di cui parliamo risultano essere quelli proposti e commercializzati dalla Microsoft, ma addirittura anche alcune delle singole soluzioni di cui s’è detto fanno capo al colosso americano.

In effetti, pur se chi scrive è decisamente dell’opinione che, almeno sulle piattaforme Windows più recenti, sia difficile trovare soluzioni complete per la gestione del cinese migliori (e non solo in termini di prezzo/prestazioni) di quelle proposte dalla ditta di Gates, restiamo comunque sempre in attesa dei contributi di lettori che ci vogliano parlare di soluzioni alternative, sia nei medesimi ambienti che in altri (Macintosh e Linux, soprattutto). Lo spirito di questa rubrica è di aiutare lo specialista e il semplice appassionato di studi cinesi ad avvalersi al meglio delle nuove tecnologie e quindi avvertiamo la necessità di presentare soluzioni per tutti gli ambienti e non solo per quelli più diffusi.

Gli amici e lettori che vogliano collaborare con questa rubrica o più semplicemente contattare il curatore possono farlo scrivendo all’indirizzo e-mail laofei@unive.it

MONDO CINESE N. 105, SETTEMBRE 2000

Note

¹ Vedi Federico Greselin, “Dizionari digitali e software per la didattica del cinese”, in Mondo cinese, 103, gennaio/aprile 2000, pp. 43-60, nota 2 (p. 58). Per informazioni dettagliate sulla storia e le caratteristiche di questo immane progetto editorial, si veda la voce “Chi Yün” in Nienhauser, William H., Jr. (a cura di), The Indiana Companion to Traditional Chinese Literature. Second Revised Edition, Bloomington, Indiana University Press, 1986, pp. 247-249.
² Wenyuan ge Siku quanshu dianzi ban, Hong Kong, Chinese University Press - Digital Heritage, 1999. [Nota di R. Teschke]
³ Si riferisce alla copia cosiddetta “Wenyuan ge” della collezione, che è la prima delle otto eseguite nel progetto originale.
⁴ Il prof. Masini mi ha comunicato da tempo che la versione “standard” dell’opera è stata di recente acquistata anche dall’Università di Roma “La Sapienza”.
⁵ Vedi il sito Web http://www.sinica.edu.tw. [Nota di R. Teschke]
⁶ Il dizionario su cui è basato è il Zhonghua gu hanyu zidian, Shanghai, Shanghai Renmin chubanshe, 1997. [Nota di R. Teschke]
⁷ Un espediente per attivare la funzionalità di copia consiste nell’usare il pulsante destro del mouse per trasformare la stringa selezionata in termine da ricercare, selezionarli nuovamente nella finestra di ricerca e copiarli negli appunti con i tasti di scelta rapida Ctrl+C. [Nota di R. Teschke] Per altri applicativi che presentano lo stesso problema, ho notato che il difetto sta in una compatibilità dei tasti di scelta rapida: sembra infatti che le combinazioni più recenti (Ctrl+C per copiare e Ctrl+V per incollare) non siano implementate così diffusamente come quelle messe a disposizione nelle perime versioni di Windows (rispettivamente Ctrl+Ins e Shift+Ins). Non ho però ancora avuto la possibilità di verificare se questa soluzione vale anche per il Siku quanshu.
⁸ L’editore non ha finora rilasciato alcun commento su nessuno di questi due bachi. [Nota di R. Teschke] Ho riscontrato un simile errore di malposizionamento di segni d’interpunzione e di alcuni particolari caratteri cinesi con una stampante HP, ma solo in modalità Postscript, nella resa di alcune pagine con caratteri in formato Unicode.
⁹ Versione digitalizzata del Siku da cidian, Jilin, Jilin daxue chubanshe, 1996. [Nota di R. Teschke]
¹⁰ Questi sono i caratteri contenuti nella tabella che costituisce il file Unihan.txt, scaricabile dal sito del consorzio Unicode, di cui parlerò più avanti nel corso di questo stesso numero della rubrica. Il carattere Arial Unicode (vedi alla nota successiva) comprende solo 21.129 caratteri.
¹¹ Il font Arial Unicode (Arialuni.ttf), della Monotype, che, come già detto in precedenti numeri di Mondo cinese è un font Unicode completo (versione 2.0 dello standard) raggiunge la ragguardevole dimensione di 23566 KB, mentre un carattere “normale” occupa im media un centinaio di kilobyte di spazio su disco.
¹² La piccola operazione che descrivo in questa parte può beninteso essere eseguita con qualsiasi applicativo per la gestione di basi di dati che sia compatbile Unicode: sempre al sito del consorzio, è disponibile un elenco dettagliato dei sistemi dbms che presentano questa caratteristica.
¹³ Di seguito, tra virgolette, per gli appassionati, il listato dell’espressione: “=ChrW(CLng("&H" & Right([NoUNI];4)))”. In soldoni, l’istruzione non fa che dare l’ordine di visualizzare il carattere Unicode (funzione ChrW()) corrispondente al numero del set che è contenuto in formato esadecimale nei primi 4 caratteri da destra della voce riportata nel campo in cui compare la codifica Unicode (Right([NoUNI];4)).