Descrizione

Il Perugia Corpus (PEC) è un corpus di riferimento dell'italiano contemporaneo, scritto e parlato. E' stato realizzato presso il Dipartimento di Scienze umane e sociali, Università per Stranieri di Perugia. Il corpus è costituito da 26 milioni di parole, distribuite in 10 differenti generi testuali.

Il PEC intende ovviare alla mancanza di un corpus di riferimento (scritto e parlato) dell'italiano, che ha finora ostacolato le analisi quantitative della variazione tra differenti generi e tipologie testuali. La filosofia che ha guidato la composizione del PEC è basata sulla riutilizzazione di corpora elettronici già esistenti, e, al tempo stesso, sulla raccolta di nuovi dati, col duplice scopo di:

  • riempire vuoti in cui non erano disponibili dati per l'italiano;
  • aggiornare risorse esistenti con dati più recenti.

Il PEC può dunque essere considerato un corpus "low cost", di dimensioni contenute, rappresentativo dell'italiano contemporaneo e dotato di una annotazione multilivello.

Disponibilità

Dal giugno 2015, il corpus (in versione beta) è interrogabile liberamente via CQPweb da questo indirizzo.

Finalità

Il corpus è stato costituito nell'ambito del progetto APRIL (Ambiente Personalizzato di Rete per l'Insegnamento Linguistico). La sua finalità immediata, legata a tale progetto, è quella di fornire i dati di riferimento per la costituzione di un database lessicale, da integrare in una piattaforma e-learning dedicata all'insegnamento della lingua italiana.

Accanto a questo, il PEC è attualmente utilizzato anche nell'ambito di altri progetti, finanziati dall'Università per Stranieri di Perugia:

  • un Dizionario delle collocazioni italiane (DICI), rivolto in particolare ad apprendenti dell'italiano come lingua non materna.
  • un'analisi fattoriale e multidimensionale delle varietà di italiano usate in differenti generi testuali (progetto Dimensioni di variazione linguistica a confronto nell'italiano).

Come citare il PEC

Spina S. Il Perugia Corpus: una risorsa di riferimento per l’italiano. Composizione, annotazione e valutazione. In: (a cura di): R. Basili, A. Lenci, B. Magnini, Proceedings of the First Italian Conference on Computational Linguistics CLiC-it 2014. vol. 1, p. 354-359. Pisa: Pisa University Press, 2014.