Costituzione di un corpus giuridico parallelo italiano-arabo
p. 125-129
Résumés
Parallel corpora are an important resource for many applications of computational linguistics, such as machine translation, terminology extraction, semantic disambiguation, etc. In this paper we present our attempt to build an Italian-Arabic parallel corpus in the legal domain, aligned at the sentence level and tagged at the POS level.
I corpora paralleli rappresentano un'importanza assoluta per tante applicazioni della linguistica computazionale, come la traduzione automatica, l'estrazione delle terminologie, o la disambiguazione semantica, ecc. In questo lavoro presentiamo il nostro tentativo di creare un corpus giuridico parallelo italianoarabo allineato a livello di frase e annotato a livello morfosintattico.
Texte intégral
1. Introduzione
1Con il crescente sviluppo delle tecnologie informatiche che consentono di raccogliere, gestire ed esplorare enormi quantità di dati linguistici, l'interesse alla creazione di corpora linguistici è cresciuto recentemente in una maniera esponenziale. È indubbio che oggigiorno l'enorme disponibilità dei dati sul web ha agevolato significativamente la costituzione e la distribuzione dei corpora linguistici sia i corpora monolingui che quelli multilingui. In effetti, i corpora costituiscono una risorsa essenziale per il campo linguistico soprattutto per le analisi contrastive tra due o più lingue, per la didattica delle lingue straniere e per gli studi lessicografici e di traduzione. Nell'ambito della linguistica computazionale i corpora linguistici, e in particolare quelli paralleli, acquistano un'importanza assoluta, soprattutto per applicazioni come la traduzione automatica, l'estrazione di terminologie o la disambiguazione semantica.
2Tuttavia, non tutte le lingue prendono ugualmente parte a corpora paralleli bilingui o multilingui. In effetti, l'arabo è una lingua che presenta una limitata partecipazione a corpora paralleli, soprattutto a quelli specialistici. È un fenomeno che si può considerare come un possibile effetto della modesta disponibilità sul web di testi paralleli in lingua araba e in altre lingue, nonché della complessità del sistema morfologico arabo.
3In questo contributo cerchiamo di esporre la nostra esperienza con la creazione di un corpus giuridico parallelo italiano-arabo specializzato nel diritto internazionale. È un corpus allineato a livello di frase e annotato morfosintatticamente. Una versione del corpus bilingue allineato a livello di frase sarà disponibile gratuitamente per la comunità scientifica al sito del Laboratorio di Linguistica Computazionale dell'Università di Ca' Foscari, Venezia1.
2. Stato dell'arte
4A nostra conoscenza, fino al tempo di questo lavoro non esiste un corpus parallelo italianoarabo nel dominio giuridico. Nell'ambito del progetto L'arabo per la 488 (Picchi et al., 1999) è stato creato un corpus parallelo italiano-arabo di testi generici: si tratta di progetto finalizzato allo sviluppo di strumenti e risorse tanto per la lingua italiana quanto per la lingua araba, con particolare cura per l’aspetto contrastivo. Se invece guardiamo allo stato dell'arte delle nostre due lingue come partecipi insieme ad altre lingue di corpora paralleli, troviamo che l'italiano prende parte a risorse testuali multilingue in misura maggiore rispetto all'arabo. Dei corpora paralleli in italiano e altre lingue ricordiamo Bononia Legal Corpus (Rossini Favretti et al., 2007), che è un corpus ingleseitaliano di testi giuridici paralleli e comparabili, sviluppato presso l'università di Bologna. Il progetto è costituito in due fasi: nella prima fase si è costruito un corpus pilota, costituito da corpora paralleli in inglese e in italiano; mentre nella fase successiva vengono aggiunti corpora comparabili nelle due lingue riguardanti testi nell'ambito legislativo, giudiziario e amministrativo per analizzare le caratteristiche linguistiche dei due sistemi legali. Inoltre, nell'ambito del progetto CATEX (Computer Assisted Terminology Extraction) presso l’Accademia Europea di Bolzano è stato realizzato un corpus giuridico parallelo italianotedesco (Gamper, 1998). Questo corpus comprende una raccolta di leggi italiane con la relativa traduzione in tedesco con una dimensione di quasi 5 milioni di tokens, ed è allineato a livello di frase.
5Per quanto concerne, invece, i corpora paralleli in arabo e altre lingue si rammenta EAPCOUNT (Hammouda, 2010), che è un corpus parallelo inglese-arabo con 341 testi delle Nazioni Unite allineati a livello di paragrafo. Inoltre, si menziona il corpus creato presso il laboratorio di linguistica computazionale dell’università autonoma di Madrid (Samy et al., 2006). Si tratta di un corpus parallelo multilingue (inglese- spagnolo- arabo) che contiene una collezione dei documenti delle Nazioni Unite, allineati a livello di frase e annotati morfosintatticamente.
3. Progettazione del corpus
6Come dominio tematico del corpus abbiamo scelto il diritto internazionale e in particolare i diritti umani nel mondo. La scelta di questo genere testuale ha le seguenti motivazioni:
Il linguaggio giuridico è uno dei linguaggi settoriali che presentano molte peculiarità sui diversi livelli di analisi linguistica, il che rende indifferibilmente necessario fornire e sviluppare corpora di testi giuridici;
Per quanto riguarda la lingua araba, la maggior parte dei corpora giuridici disponibili sul web riguarda il codice di famiglia dei paesi arabi, che, ispirato ai principi della Shariah Islamica, contiene tante terminologie islamiche che non hanno corrispondenti in italiano. Per il problema dell'intraducibilità dei termini giuridici islamici tra l'arabo e l'italiano, abbiamo pensato quindi al diritto internazionale, dove risulta limitata l'influenza della dimensione religiosa dei termini;
L'accuratezza della traduzione dei testi paralleli è un fattore essenziale soprattutto trattandosi di terminologie giuridiche, e nei documenti dell'Organizzazione delle Nazioni Unite (ONU) abbiamo trovato un livello di traduzione tanto accurato, visto il carattere ufficiale dei documenti.
4. Descrizione del corpus
7I documenti del corpus sono dell'ONU. Si tratta di una grande raccolta di accordi, convenzioni, protocolli internazionali sempre nell'ambito del diritto internazionale in generale e dei diritti umani in particolare. La lingua originale dei documenti del corpus parallelo è l'inglese e sia i testi italiani che i testi arabi sono una traduzione dall'inglese. I testi del corpus si dividono in due categorie: la prima comprende un insieme di convenzioni e accordi internazionali nell'ambito dei diritti umani nel mondo, mentre la seconda contiene le convenzioni dell'Organizzazione Internazionale del Lavoro (ILO). In totale il corpus comprende all'incirca 1,1 milione di parole. Tabella 1 indica i dettagli del corpus.
Tabella 1. Dati statistici del corpus
language | n.parole | n.frasi | lunghezza media delle frasi | type/token ratio |
Italiano | 545682 | 18675 | 30 | 0.028 |
Arabo | 615947 | 18391 | 39 | 0.068 |
5. Costituzione e preparazione del corpus
8Per i testi del corpus il web rappresenta la fonte principale sia per i testi arabi che per quelli italiani. Il risultato di questa fase è un insieme di documenti in formato PDF in entrambe le lingue. Il formato PDF non consente, tuttavia, un trattamento automatico dei testi, quindi bisogna convertire i testi nel formato “Plain text format” che è adeguato a qualsiasi trattamento computazionale del corpus, e poi salvare i testi in UNICODE che è adeguato nel nostro caso dato che i sistemi di scrittura delle due lingue di interesse sono diversi.
9Il processo della conversione non è, tuttavia, banale come sembra, soprattutto per la lingua araba. Fra le notevoli osservazioni individuate durante la conversione dei testi arabi ricordiamo: la perdita di alcuni caratteri, lo scambio tra certi caratteri (soprattutto tra "ا" e "ل"), l'inversione della direzione di scrittura (soprattutto i numeri), la perdita del formato del testo originale, ecc. Tutto questo richiede un grande sforzo per rimuovere ogni forma di “rumore” e restituire la normalità dei testi. Nel caso dei testi italiani gli errori derivati dalla conversione riguardano maggiormente il cambiamento del formato del testo originale.
6. Trattamento del corpus
10Fino al passo precedente, lo stato del corpus è grezzo, cioè senza nessuna annotazione linguistica utile per esplorare ed interrogare il corpus in modo migliore. L'importanza dei corpora annotati consiste non solo nella possibilità di esplorare ed estrarre informazioni dal testo, ma anche nel fornire “training e valutazione di algoritmi specifici in sistemi automatici.” (Zotti, 2013).
11Il trattamento automatico del nostro corpus comprende le seguenti fasi:
6.1 Segmentazione
12La segmentazione dei testi è stata effettuata nelle due lingue a livello di frase. Per segmentare i testi abbiamo utilizzato un algoritmo nel pacchetto NLTK basato sulla punteggiatura (“.”, “?”, “!”). Tuttavia, non mancano gli errori anche in questa fase; soprattutto per la mancanza dell'uso delle lettere maiuscole in arabo.
13Vista la natura giuridica dei testi, si sono registrate alcune peculiarità riguardanti i confini di frase nei testi del corpus. In questo caso il segno della fine frase non è solo il punto finale come è il caso dei testi generali, ma i segni “:”, ”;” si possono considerare anche confine di frase, soprattutto quando iniziano una lista di clausole o commi. Il risultato di questa fase è un testo segmentato a livello di una sola frase per riga.
6.2 Tokenizzazione
14Tokenizzare un testo significa ridurlo nelle sue unità ortografiche minime, dette tokens, che sono unità di base per ogni successivo livello di trattamento automatico. La complessità di questo compito dipende maggiormente dal tipo di lingua umana in trattamento nonché dal suo sistema di scrittura.
15Nell'ambito del trattamento automatico della lingua araba riconoscere l'unità ortografica di base delle parole arabe appare un compito particolarmente complicato per effetto della complessità della morfologia araba, basata su un sistema flessionale e pronominale molto ricco (Habash, 2010). Ne consegue che per disambiguare al meglio le unità lessicali di un testo arabo ogni sistema di tokenizzazione necessita di un analizzatore morfologico. Per tokenizzare i testi arabi del corpus abbiamo utilizzato il sistema MADA+TOKAN2 (Habash et al., 2009) che nel nostro caso ha avuto un'accuratezza all'incirca 98%. Nel caso dei documenti italiani si è utilizzato il tokenizzatore disponibile al sito di ItaliaNLP Lab3.
6.3 Allineamento
16Per il processo di allineamento si intende rendere due testi, o due unità testuali (nel nostro caso due frasi) allineati l'uno di fronte all'altro. Questa fase si configura come un processo essenziale lavorando sui corpora paralleli. L'allineamento viene effettuato normalmente da appositi programmi che si servono di metodi statistici e linguistici per mettere in corrispondenza due unità di testo l'una è traduzione dell'altra. Nel caso dei metodi statistici si utilizzano i calcoli probabilistici della lunghezza delle unità (frasi, parole, caratteri) dei due testi paralleli per stabilire una adeguata equivalenza tra i due testi in esame. Inoltre, il metodo statistico si può arricchire di repertori lessicali derivati da dizionari o corrispondenze traduttive prestabilite. Non c'è dubbio che l'utilizzo del metodo ibrido appare più conveniente soprattutto quando si tratta di lingue che hanno sistemi di scrittura tanto diversi tra loro, come per es. le lingue del nostro corpus.
17Per allineare i nostri testi, abbiamo utilizzato LogiTerm che fa parte di Terminotix4.
18Questo programma segmenta e allinea automaticamente due testi creando il risultato in formati diversi (HTML, XML, TMX).
19L'accuratezza dell'allineamento nel nostro caso è all'incirca 95%, quindi non mancava un intervento manuale per correggere alcuni errori dovuti in generale alle caratteristiche linguistiche delle due lingue in questione. La maggior parte degli errori individuati durante l'allineamento riguarda la lunghezza della frase araba. Come si può osservare dal numero totale delle frasi nella Tabella 1, la lingua araba tende a congiungere le frasi, quindi non è raro di trovare un livello di allineamento 2 a 1. Dopo la verifica manuale dei risultati di questa fase, i testi allineati sono salvati in due formati XML e TMX.
6.4 Annotazione del corpus
20Per l'annotazione o l'etichettatura linguistica di un corpus si intende associare alle porzioni del testo informazioni linguistiche in forma di etichetta (tag o mark-up), sia per rendere esplicito il contenuto del testo sia per ottenerne una conoscenza approfondita. Il tipo di annotazione più conosciuto è quello morfosintattico o il cosiddetto POS (part-ofspeech tagging), che consiste nell'attribuire ad ogni parola nel testo la sua categoria grammaticale. Il POS tagging possiede un'importanza rilevante nel trattamento automatico del linguaggio, in quanto rappresenta il primo passo nell'annotazione automatica dei testi, quindi gli errori riscontrabili durante questa fase potrebbero incidere sulle successive analisi.
21Per taggare i testi arabi del nostro corpus, abbiamo utilizzato il pacchetto Amira 2.1 (Diab, 2009). Amira è un sistema di POS tagging basato sull'apprendimento supervisionato che utilizza le macchine a vettori di supporto (SVM). Questo sistema comprende tre moduli per il trattamento automatico della lingua araba: tokenizzazione, POS tagging, e base-phrase chunked. Nel nostro caso il sistema PoS Tagging di Amira raggiunge un'accuratezza all'incirca 94%.
22Per i testi italiani si è usato Felice-POS-Tagger (Dell’Orletta, 2009). Felice-POS-Tagger è una combinazione di sei tagger, con tre algoritmi diversi. Ognuno dei tre algoritmi viene utilizzato per costruire un left-to-right (LR) tagger e un right-to-left (RL) tagger. L'accuratezza del Felice-POS-Tagger nel taggare i testi del nostro corpus è all'incirca 97%.
7. Conclusione
23In questo lavoro abbiamo cercato di dare una descrizione del nostro progetto di creare un corpus parallelo italiano-arabo nel campo del diritto internazionale. La costruzione di tale corpus risponde allo scopo generale di fornire risorse linguistiche utili alle applicazioni della linguistica computazionale, soprattutto considerando la mancanza visibile dei corpora paralleli italiano-arabo di testi specialistici. Il trattamento computazionale del corpus è arrivato fino al PoS tagging, estendibile nel futuro ad altri livelli di annotazione e di arricchimento. Nel futuro intendiamo estendere questo corpus in due sensi: verticale e orizzontale. L'estensione orizzontale riguarda l'aggiunta di altri testi giuridici, mentre quella verticale ha a che fare con il trattamento automatico del corpus a livelli più avanzati.
Bibliographie
Dell’Orletta F. 2009. Ensemble system for Part-ofSpeech tagging. In Proceedings of EVALITA 2009 – Evaluation of NLP and Speech Tools for Italian. Reggio Emilia, Italy.
Delmonte R. 2007. VEST - Venice Symbolic Tagger. In Intelligenza Artificiale, Anno IV, N° 2, pp. 26-27.
Diab, M. 2009. Second generation AMIRA tools for Arabic processing: Fast and robust tokenization, POS tagging, and base phrase chunking. In 2nd International Conference on Arabic Language Resources and Tools, Cairo, Egypt
Gamper, J. 1998. CATEX– A Project Proposal. In Academia, 14, 10-12
Hammouda S. 2010. Small Parallel Corpora in an English-Arabic Translation Classroom: No Need to Reinvent the Wheel in the Era of Globalization. In Shiyab, S., Rose, M., House, J., Duval J.,(eds.), Globalization and Aspects of Translation, UK: Cambridge Scholars Publishing
Lenci A., Montemagni S., Pirrelli V. 2012. Testo e computer: elementi di linguistica computazionale, Carocci editore, Roma
Rossini Favretti R., Tamburini F., Martelli E. 2007. Words from Bononia Legal Corpus. In Text Corpora and Multilingual Lexicography (W.Teubert ed.), John Benjamins
Samy, D., Moreno-Sandoval, A., Guirao, J.M., Alfonseca, E. 2006. Building a Multilingual Parallel Corpus Arabic-Spanish-English. In Proceedings of International Conference on Language Resources and Evaluation LREC-06, Genoa, Italy
Zotti, P. 2013. Costruire un corpus parallelo Giapponese-Italiano. Metodologie di compilazione e applicazioni. In Casari, M., Scrolavezza, P. (eds), Giappone, storie plurali, I libri di Emil-Odoya Edizioni. Bologna
Habash, N., Rambow, O., Roth, R. 2009. MADA+TOKAN: A toolkit for Arabic tokenization, diacritization, morphological disambiguation, POS tagging, stemming and lemmatization. In Choukri, K., Maegaard, B., editors, Proceedings of the Second International Conference on Arabic Language Resources and Tools. The MEDAR Consortium, April.
Habash, N. 2010. Introduction to Arabic Natural Language Processing. Morgan & Claypool Publishers.
Picchi E. , Sassolini E. , Nahli O. , Cucurullo S. 1999. Risorse monolingui e multilingui. Corpus bilingue italiano-arabo. In Linguistica computazionale, XVIII/XIX, Pisa.
Notes de bas de page
2 We used version 3.2 of MADA+TOKAN
Auteur
Dipartimento di Studi linguistici e culturali comparati - Università Ca’ Foscari – Venezia - fathi_fawi@yahoo.
Le texte seul est utilisable sous licence Creative Commons - Attribution - Pas d'Utilisation Commerciale - Pas de Modification 4.0 International - CC BY-NC-ND 4.0. Les autres éléments (illustrations, fichiers annexes importés) sont « Tous droits réservés », sauf mention contraire.
Proceedings of the Second Italian Conference on Computational Linguistics CLiC-it 2015
3-4 December 2015, Trento
Cristina Bosco, Sara Tonelli et Fabio Massimo Zanzotto (dir.)
2015
Proceedings of the Third Italian Conference on Computational Linguistics CLiC-it 2016
5-6 December 2016, Napoli
Anna Corazza, Simonetta Montemagni et Giovanni Semeraro (dir.)
2016
EVALITA. Evaluation of NLP and Speech Tools for Italian
Proceedings of the Final Workshop 7 December 2016, Naples
Pierpaolo Basile, Franco Cutugno, Malvina Nissim et al. (dir.)
2016
Proceedings of the Fourth Italian Conference on Computational Linguistics CLiC-it 2017
11-12 December 2017, Rome
Roberto Basili, Malvina Nissim et Giorgio Satta (dir.)
2017
Proceedings of the Fifth Italian Conference on Computational Linguistics CLiC-it 2018
10-12 December 2018, Torino
Elena Cabrio, Alessandro Mazzei et Fabio Tamburini (dir.)
2018
EVALITA Evaluation of NLP and Speech Tools for Italian
Proceedings of the Final Workshop 12-13 December 2018, Naples
Tommaso Caselli, Nicole Novielli, Viviana Patti et al. (dir.)
2018
EVALITA Evaluation of NLP and Speech Tools for Italian - December 17th, 2020
Proceedings of the Seventh Evaluation Campaign of Natural Language Processing and Speech Tools for Italian Final Workshop
Valerio Basile, Danilo Croce, Maria Maro et al. (dir.)
2020
Proceedings of the Seventh Italian Conference on Computational Linguistics CLiC-it 2020
Bologna, Italy, March 1-3, 2021
Felice Dell'Orletta, Johanna Monti et Fabio Tamburini (dir.)
2020
Proceedings of the Eighth Italian Conference on Computational Linguistics CliC-it 2021
Milan, Italy, 26-28 January, 2022
Elisabetta Fersini, Marco Passarotti et Viviana Patti (dir.)
2022