Un po' alla Martin Luther King Jr., direi che anche io ho un sogno: corpora paralleli per lingue regionali, locali, minoritarie e, essenzialmente, a rischio.

Un corpora parallelo non è nient'altro che una lista di frasi, parole e espressioni in una lingua con la traduzione in un'altra. Ecco, per esempio, una parte del corpus parallelo italiano-lombardo che ho cominciato a compilare dagli articoli della Wikipedia lombarda:

El grupp l'è famos per i sò test surreaj, umoristich e a voeult demenziaj ma anca per el sò alt nivell musegal, senza cuntà la soa capacità de passà de on stil de musega a l'alter senza problema. Il gruppo è famoso per i suoi testi surreali, umoristici e a volte demenziali ma anche il suo alto livello musicale, senza contare la sua capacità di passare da uno stile musicale all'altro senza problemi.
El tour del 2008 l'è staa dedicaa a la promozion del album noeuv e l'ha vist la partecipazion come corista de la Paola Folli. Il tour del 2008 fu dedicato alla promozione del nuovo album e vide la partecipazione come corista di Paola Folli.
Ma a lor la ghe pias nò questa definizion. Ma a loro non piace questa definizione.
A la fin de la sò vida Lissander el g'ha avuu di gross dispiasè: Alla fine della sua vita Alessandro ebbe alcuni grandi dispiaceri:
Ma, cont on fenòmen tipich di città italiann del XIV secol, anca Milan l'è diventada pian pianin ona Signoria, Ma, come fu un fenomeno tipico delle città italiane del XIV secolo, anche Milano si trasformò gradualmente in una Signoria,

E a cosa serve un corpus parallelo? Un corpus parallelo è la base per la maggior parte delle attività di linguistica computazionale, come correttori ortografici (anche on-line), modelli statistici delle lingue (che per esempio aiuterebbero a sistemare le problematiche conversioni di programmi di OCR) e forse persino sistemi di traduzione automatica o assistita. Ecco alcune voci di un glossario generato automaticamente (il valore numerico indica la probabilità statistica di una corrispondenza, che ovviamente dovrebbe essere confermata manualmente da uno o più parlanti), dove si possono notare anche errori di battitura e divergenze ortografiche presenti nel corpus:


dominio domini 0.5000000
performances performances 1.0000000
vangeli vanger 1.0000000
scrive scriv 0.3333333
uguali istess 0.5000000
uguali iguaj 1.0000000
conoscere conoss 1.0000000
grazie grazie 0.8000000
senza senza 1.0000000
clima clima 1.0000000
considerato consideraa 1.0000000
classe class 1.0000000
principalmenti principalment 0.3333333
lingue lengov 1.0000000
peppino peppin 1.0000000
arriva riva 0.5000000
qualche certa 1.0000000
luogo sitt 1.0000000
ascoltato sentii 1.0000000
aveva aveva 0.8750000
ascoltare scoltà 1.0000000
lega lega 1.0000000
ortolano ortolan 1.0000000
libru libru 1.0000000
competizione competizion 1.0000000
inizi scominci 1.0000000
nuovo noeuv 0.6666667
cambio cambi 1.0000000
sacro sacro 1.0000000
carletto carlin 1.0000000
ereditato eredità 0.5000000
milano milan 0.9841270
milano milàn 0.8571429

Per tutti quelli che siano abituati ai più vecchi sistemi di traduzione automatica, come certi pacchetti software carissimi e siti, gratuiti e non, quali Babelfish e Google Translate, l'idea di motori di traduzione per lingue minori potrebbe sembrare un'impresa inutile o persino pura follia. Ma tra le nuove proposte di ingegneria di traduzione vi è esattamente la traduzione statistica, il cui più importante rappresentante è un software libero, ancora troppo accademico, chiamato Moses. L'idea della traduzione statistica, insopportabile ai più puristi, è che scrivere motori di traduzione tramite programmi di analisi grammaticale, dizionari curati a mano, sistemi di gestione delle eccezioni, ecc. non è pratico né efficiente, come lo ha dimostrato più di mezzo secolo di esperienze dai risultati molte volte deludenti. Un'alternativa sarebbe impiegare i computer esattamente per quello che possono fare meglio e con più facilità, ossia calcoli, e così questi nuovi motori di traduzione si propongono di analizzare traduzioni già fatte (esattamente quelle fornite nei corpora paralleli) e cercare di tradurre i testi con semplici basi statistiche. Se, per esempio, la maggior parte delle volte, tra tutte le frasi del corpus fornito, l'espressione lombarda "a manch che la parola la finissa" viene tradotta nell'italiana "a meno che la parola finisca", è probabile che la maggior parte delle altre volte la traduzione più adeguata (o, in termini più precisi, meno inadeguata) sia esattamente questa. Non c'è bisogno di dire che il funzionamento di questi sistemi è ben più complesso, e soprattutto che la traduzione statistica è lungi dall'essere la panacea per i problemi delle lingue a rischio.

Non avrebbe senso lavorare ad un sistema di traduzione completamente automatico queste lingue. Sono però convinto che lo sviluppo di corpora paralleli, con un'eventuale (anche se ancora molto lontana) "conseguenza" della traduzione assistita sarebbe utile: alcuni potrebbero trovare più facile correggere il lombardo di un testo tradotto da un articolo della Wikipedia italiana che scriverlo dallo zero. Oltre a questo, sviluppare un sistema di traduzione statistica tramite Wikipedia avrebbe un grandissimo vantaggio: siccome questi sistemi in genere sbagliano principalmente nel tradurre parole/frasi mai viste, se una traduzione sbagliata viene corretta il sistema è, almeno teoricamente, capace di imparare dai propri errori.

Insomma, non sogno con migliaia di nuovi articoli, ma un corpus parallelo, di qualità e libero. Ci proverò. :)

Esempi di traduzione (dall'italiano al lombardo

Modifega

Esempio 1: Michelangelo Buonarroti

Modifega

Michelangelo Buonarroti (Caprese Michelangelo, 6 marzo 1475 - Roma, 18 febbraio 1564) è stato uno scultore, pittore, architetto e poeta italiano, tra i protagonisti del Rinascimento e riconosciuto sin dai contemporanei come uno dei più grandi artisti di sempre.

Michelangelo Buonarroti (Caprese Michelangelo, 6 de marz del 1495 - Roma, 18 de fevree del 1564) l' è staa una scultore, pittore, architett e poeta italian, el protagonisti del rinascimento e riconosciuto sin da contemporanei come vun di püssee gross artista de semper.

Esempio 2: Lega Lombarda

Modifega

La Lega Lombarda fu un'alleanza formata il 7 aprile 1167 presso l'abbazia di Pontida, e formata da Milano, Lodi, Ferrara, Piacenza e Parma. Il 1º dicembre 1167 venne allargata tramite l'alleanza con la Lega Veronese ed altri Comuni, che portò nella Lega ben 26 (in seguito 30) città dell'Italia settentrionale, tra cui Crema, Cremona, Mantova, Piacenza, Bergamo, Brescia, Milano, Bologna, Padova, Modena, Reggio nell'Emilia, Treviso, Venezia, Vercelli, Vicenza, Verona, Lodi, e Parma e che venne detta Concordia. La Lega venne formata per contrastare Federico I di Hohenstaufen detto "Il Barbarossa", imperatore del Sacro Romano Impero, nel suo tentativo di estendere l'influenza imperiale soprattutto nella regione padana.

La Lega Lombarda l'è staa on'alleanza formata el 7 de avril del 1167 presso l'abbazzia de Pontida, e formata de Milan, Lodi, Ferrara, Piacenza e Parma. El 1o de december del 1167 a l'è vegnuda allargata tramite l'alleanza con la Lega Veronese e alter comun, che portaa in de la lega ben 26 (in seguito 30) città de l'Italia settentrionale, tra qual Crema, Cremona , Mantoa, Piacenza , Berghem, Bressa , Milan, Bologna, Padova, Modena , Reggio in dell'Emilia, Treviso, Venezia, Vercelli, Vicenza, Verona, Lodi, e Parma e che a l'è vegnuda dita Concordia. La lega a l'è vegnuda formata per contrastare Federigh I de Hohenstaufen ciamaa "'l Barbarossa" , l'imperador del Sacro Roman Imperi, in del sò tentativo de estendere l'influenza imperial soratutt in de la region padana.

Esempio 3: Cuore (romanzo)

Modifega

Cuore è un libro per ragazzi scritto nel 1886 da Edmondo de Amicis, pubblicato nel 1888. Fu un grande successo, tanto che de Amicis divenne lo scrittore più letto d'Italia.

Coeur l'è on liber per bagaj scritt in del 1886 de Admondo de Amicis, publicaa in del 1888. L'è staa on grand success, tant che de Amicis l'è diventaa ch'el scritor pussee letto d'Italia.

Esempio 4: Francia

Modifega

La Francia, ufficialmente Repubblica Francese, è uno Stato dell'Europa occidentale confinante con Belgio, Lussemburgo, Germania, Svizzera, Italia, Monaco, Andorra e Spagna.

La Francia, ufficialmente Repubblica Frances, l'è vun staa de l'Euròpa Ocidentale confinante con Belgio, Lussemburgo, Germania, Sguizzera , l'Italia, Monaco, Andorra e Spagna.

Esempio 5: Angelo Branduardi

Modifega

Angelo Branduardi (Cuggiono, 12 febbraio 1950) è un cantautore, violinista e chitarrista italiano. Nasce a Cuggiono, un piccolo paese alle porte di Milano, il 12 febbraio 1950. Assai giovane si è trasferito, al seguito della famiglia, a Genova dove ha conosciuto l'ambiente musicale della scuola genovese che ha rappresentato un importante stimolo per la sua attività artistica.

Angelo Branduardi (Cuggiono, 12 fevree 1950) l'è on cantautore, violinista e ghitarista talian. Nasce a Cuggiono, on piscinin paes aj port de Milan, el 12 fevree 1950. Assai giovane el s'è trasferito, al seguito de la famiglia, a Genova chì l'ha cognossuu l'ambiente musegal de la scoeula genovese che l'ha rappresentato on important stimolo per la soa attività artistega.

Esempio 6: Una frase per testare la sintassi (negazione post-posta)

Modifega

Carlo porta non credeva che la lingua lombarda fosse poco importante.

Carl porta el pensava minga che la lengova lombard se pòcch important.

Ortografia e variante

Modifega

Il primo grande problema è decide per una variante, e successivamente per un'ortografia, per il corpus iniziale. Se è vero che alcuni scripts, che potrebbe essere incorporati a bots, potrebbero convertire con relativa facilità da un'ortografia all'altra (specialmente dalle fonetiche ad altre) e che la traduzione statistica funzionerebbe molto bene da una variante all'altra (per esempio dal Milanese al Bergamasco), è anche vero che una prima decisione è necessaria e non facile. Per iniziare a organizzarmi, sto compilando la tabella di seguito comparando le grafie (forse potrò esportarla a una vera pagina di seguito); voglio solo organizzare, non difendo nessuna ortografia al momento (anche se a principio userei quella classica).

N.B.: questa tabella non solo è provvisoria, come non è ancora neanche finita. Oltre a ciò, non conosco il lombardo e le varie grafie così bene, ho deciso di compilarla esattamente per imparare.

SE QUALCUNO VOLESSE MODIFICARE QUESTA TABELLA, FACCIA PURE.

sun (IPA) cuntèst vecchia uü (cat.) graff m. class graff uü graff dücat esempi (vecchia uü)
[i] tücc i i i i liss
[e] tònica é é? é e? fén
atuna e e e e le
[ɛ] tònica è è? e e? nètt
[e] / [ɛ] tònica, a seguunt dəl dialètt ê (e) è? e e? rêsca, vêss
[e] / [a] atuna, a seguunt dël dialètt ə (ë) e e e për, vündës
[y] tücc ü u ü ü tücc
[ø] tücc ö oeu o œu ö ö röda
[a] tücc a a a a gat
tònica a à? a à
atuna a a a a
[u] tücc u u u u bun
[o] tònica ó ó o o? róss
atuna o o o o sostituii
[ɔ] tònica ò ò o o? vòtt
[o] / [ɔ] tònica, a seguunt dël dialètt ô (o) o? o o pôrta, grôss
[iː] tònica ii ii i (in mezzo a parola) o ii (alla fine) ï (?) riis, finii
[eː] tònica ée ée e (in mezzo a parola) o ee (alla fine) ë? dées, lée
[ɛː] tònica èe èe e (in mezzo a parola) o ee (alla fine) ë? pèert
[eː] / [ɛː] tònica, a seguunt dəl dialètt ee (êe) èe? e (in mezzo a parola) o ee (alla fine) ë? ?
[yː] tònica üü uu u (in mezzo a parola) o uu (alla fine) ü? müür
[øː] tònica öö oeu o œu ö ö vöör
[uː] tònica uu uu? u (in mezzo a parola) o uu (alla fine) ü? amuur
[oː] tònica óo ô o (in mezzo a parola) o oo (alla fine) ö? cóolt
[ɔː] tònica òo òo (?) o (in mezzo a parola) o oo (alla fine) ö? ròot
[oː] / [ɔː] tònica, a seguunt dəl dialètt oo (ôo) òo? o (in mezzo a parola) o oo (alla fine) ö? poort
[p] tücc p p p p pan
[b] tücc b b b b bun
[t] tücc t t t t tass
[d] tücc b d d d dées
[k] danaanz a i, e ch ch ch ch chi, che
in fin də paròla ch ch ch ch pacch
men che in fin də paròla e danaanz a i, e c c c c can, cruus
sa tröva dumá danaanz a u q q q q quaant, áqua
[g] danaanz a i, e gh gh gh gh ghigná, ghèll
in fin de paròla gh gh gh
men che danaanz a i, e g g g g gatt, grass
[ʧ] danaanz a i, e c c c c céent
[ʦ] in fin də paròla z raanz
tra vucaal zz mazza
in fin də paròla c c? cc? tücc
men che in fin də paròla e danaanz a i, e cj ci (?) cjaaf
[ʦ] / [ʧ] tücc, a seguunt dəl dialètt ç ençiclupedia
[ʦ] / [ʣ] da dré a cunsunanta sunòra z vanzá
in prinçipi də paròla z zòcur
[ʤ] / [ʒ] danaanz a i, e, a seguunt dəl dialètt g géel
[ʣ] tra vucaal z zá
men che in fin də paròla e danaanz a i, e gj gi gjaalt
[m] tücc, nasalizza la vocale che la precede se seguita da consonante m m mamm
[n] men che in fin də paròla cun sílaba tònica, nasalizza la vocale anteriore n n naas, asən, cana, can
non nasalizza la vocale anteriore nn
in fin də paròla cun sílaba tònica nn n (?) fann
[ɲ] tücc gn gn gnücch, scagn, bagná
[ŋ] danaanz a c(h), g(h), qu n n anca, inquadrá
in fin də paròla cun sílaba tònica n can, Milán
[r] e allofoni (come [ʀ]) tücc r r róss
[f] tücc f f famm
[v] tücc v v véert
[s] / [ʦ] danaanz a vucala dòpu də na cunsunanta, seg. dial. s pensá
[s] danaanz a vucala in prinçipi da paròla s s z sètt
in fin də paròla s s vündəs
tra vucaal e in fin də paròla ss ss ss bassa, bass
[z] tra vucaal s s s tusa
tücc (suono medio tra sorda e la sonora) z
[ʃ] danaanz a i, e sc sc scées
danaanz a cunsunanta surda s (?)
in fin də paròla sc sc casc
men che in fin də paròla e danaanz a i, e scj sc scjatt
[ʃ] / [s] danaanz a cunsunanta surda, a seguunt dəl dialètt s spüzz
[ʃk] / [sk] men che in fin də paròla e danaanz a i, e sc s'c s-c scarpa
sə dröva danaanz a i, e e in fin də paròla sch s'c schivi, bósch
[ʒ] / [z] danaanz a cunsunanta sunòra, a seguunt dël dialètt s sg sbatt
[h] dumá in prinçipi də paròla h [Livign] héi, hé
[ʋ] tra vucaal v v lavá
[j] in prinçipi də silaba j ? jéer, paja
in fin de silaba j (?) bagaj (mil.)
[j] tra cunsunanta e vucala i i fiuur
[w] dumá tra q, g e vucala u u quaant, guaant
[l] tücc l l larga, bèll
[ʎ] danaanz a i gl [Livígn] fradeglín (fradelitt)
in fin də paròla gl [Pus'cjaaf] ögl (öcc)
danaanz a vucala diferenta da i glj [Livígn] igljóra (alura)

Primo test vero (Lega Lombarda)

Modifega

La Lega Lombarda l'è staa on'alleanza formada el 7 de avril del 1167 a la abasia de Püntida, e formada da Milan, Lod, Ferrara, Piasensa e Parma. El 1º de december del 1167 a l'è stada alargada per mezz de la alleanza con la Lega Veronese e alter comun, che l'a portaa in de la lega ben 26 (in seguito 30) città de l'Italia setentrional, tra le qual Crema, Cremuna, Mantoa, Piasensa, Berghem, Bressa, Milan, Bologna, Padoa, Modena, Reggio in dell'Emilia, Trevis, Venesia, Vercej, Vicenza, Verona, Lod, e Parma e che a l'è vegnuda dita Concordia.

La Lega a l'è stada formada per contrastaa Federigh I de Hohenstaufen ciamaa "'l Barbarossa", l'imperador del Sacro Roman Imperi, in del sò tentatif de estendee l'influensa imperial soratutt in de la region padana. Federigh l'avia reclamaa el contròll dirett in su la Penisola a la Dieta de Roncaglia (1158), e la invase in del 1158 e in del 1166. La lega godeva del suport del Papa Lisander III, anca lu desideros de vedee declinaa el poter imperial in Italia. La città de Lissandria, fondaa in Piemont da la Lega Lombarda, prese el sò nòmm pròppi del pontefich e l'è nassuda come fortezza antimperial ai confin del Marchesato del Monferrato, alleato del Barbarossa .

In de la Battaglia de Legnan del 29 de mâgg del 1176, Federigh I a l'è battuu da le truppe comunali, guiaa, per i credenze popolar, dal condottier Alberto de Giussano (accreditaa come mero personaggio leggendario). Dòpo different alter sconfitte, l'imperador accettò ona tregua de ses ann dal 1177 al 1183, finna al Trattato de Costanza, in chì i città-staa padan accettarono de restare fedeli a l'Imperi in cambi de la piena giurisdizione locale aj lor territòri.

La Lega Lombarda a l'è vegnuda rinovada in del 1198 e in del 1208 duranta i guerr tra Ottone IV e Filipp de Svevia. In del 1126, la lega riottenne el sò antigh prestis contrastando i sfòrz de Federigh II de Hohenstaufen de aumentaa el sò potere in Italia. Questi sfòrz compresero de la conquista de Vicenza e la Battaglia de Cortenuova in su Oglio, che creò la reputazione de abile stratega del qual godeva l'imperador.

Egli in seguito sopravvalutò i sò forze, respingendo tücc i offerte de reappacifigazion di Milanes e insistendo in su la fada incondizionata. L'è staa on moment de grave importanza storica quell in qual la rabbia de Federigh ne offuscò el giudizio e bloccò qualsiasi possibilitaa de on accòrd pacifico. Milan e alter cinch città resistettero e in dell' ottobre del 1238 egli dovette togliere l'assedio a Bressa. Ancamò ona voeulta appoggiata del Papa, la Lega Lombarda riuscì a contrastare i tentativi de Federigh II , per poeu dissolversi in del 1250 a la mòrt de l' imperador.

Bibliografia