PHRAME - Misure di complessità fraseologica in italiano L2

Integrazione di eye tracking, corpora e metodologie computazionali per la creazione di risorse finalizzate all'apprendimento di una seconda lingua

SSD: 
L-LIN/01
Durata: 
da dicembre 2019 a dicembre 2022

PRIN: PROGETTI DI RICERCA DI RILEVANTE INTERESSE NAZIONALE – Bando 2017 Prot. 20178XXKFY

Importo complessivo del progetto: € 657.00
Entità del contributo complessivo assegnato al progetto: € 557.00
Entità del contributo assegnato all’unità capofila Unistrapg: € 250.40
Entità del contributo assegnato all’unità Uniroma1: € 171.60
Entità del contributo assegnato all’unità Unipg: € 135.000
 


Decenni di studi basati sull’analisi di corpora hanno permesso di rilevare la centralità della dimensione fraseologica nell’uso e nell’apprendimento della lingua. Quest’area rimane tuttavia ancora da esplorare nel dettaglio. La fraseologia è misurata ancora oggi con strumenti semplici, basati per lo più su due nozioni, che non rendono conto della sua complessità: la diversità, lo spettro delle unità fraseologiche usate in un testo; la sofisticatezza, la proprietà di usare unità fraseologiche poco comuni.

Il progetto si propone di portare un contributo innovativo attraverso due azioni:

  • definire una misura di complessità fraseologica combinando i risultati di un’analisi corpus-based e computazionale con quelli derivati da esperimenti tramite eye tracker;
  • integrare i risultati dell’analisi della complessità fraseologica nei campi della costruzione di sillabi e test per l’italiano L2

Al termine del progetto, sarà possibile caratterizzare diversi livelli di competenza in termini di complessità fraseologica, colmando così una lacuna nel campo della ricerca sull'apprendimento di una L2. Sarà infatti possibile definire una serie di linee guida per la valutazione e il testing della competenza fraseologica alla luce dei livelli QCER (Quadro comune europeo di riferimento per la conoscenza delle lingue).

Decades of corpus-based analyses of language production have revealed the centrality of the phraseological dimension in both native and non-native language usage. However, this dimension of linguistic complexity has not received the same attention as the lexical or syntactic ones.

Existing measures are still too simple to account for the complexity of the phraseological dimension of language and are basically constructed on the two notions of diversity, the range of phraseological units used in a text, and sophistication, the property of using uncommon phraseological units.

As a result, the aim of this project is twofold:

  • to define a measure of phraseological complexity through the combination of offline (corpora and Natural Language Processing techniques) and online (eye tracker) data and provide a computational validation of the measure
  • to integrate the results of the phraseological complexity analysis into the fields of Italian L2 syllabus and test desig

By the end of the project, we will be able to characterize different proficiency levels in terms of phraseological complexity, thus filling in a crucial gap in second language acquisition research and providing best practices for assessing and testing phraseological competence in light of the CEFR levels.

Gruppo di ricerca

Il gruppo di lavoro include esperti di tre Università: l'Università per Stranieri di Perugia (UnistraPG), specializzata in linguistica dei corpora e fraseologia, l’Università degli Studi di Perugia (UniPG), specializzata in trattamento automatico del linguaggio naturale, e l’Università Sapienza di Roma (UniRoma1), specializzata in glottodidattica e in indagini condotte con eye tracker.

L'integrazione di questi tre campi di competenza, e la cooperazione costante fra le tre Università, costituisce una solida base per lo sviluppo del progetto. Inoltre, la sinergia tra le unità di lavoro sarà rafforzata dalla collaborazione col CVCL, che fa parte di UnistraPG, e che rappresenta uno dei centri di maggior prestigio nel campo della valutazione e certificazione dell’Italiano come lingua non materna.

Università per Stranieri di Perugia (coordinamento nazionale)

Francesca Malagnini (coordinatore scientifico nazionale e responsabile locale unità operativa di ricerca di UNISTRAPG per il periodo 12/01/2021 - data attuale)
Valentino Santucci (membro di unità per il periodo 29/12/2019 - data attuale)
Luciana Forti (membro di unità per il periodo 06/03/2020 - data attuale)
Irene Fioravanti (membro di unità per il periodo 1/10/2020 - data attuale)
Fabio Zanda (membro di unità per i periodi 3/02/2020 - 2/10/2020 e 27/07/21 - data attuale)
Angela Scerra (membro di unità per il periodo 3/02/2020 - 2/10/2020)

Membri precedenti
Stefania Spina (Principal Investigator per il periodo 29/12/2019 - 04/12/2020)
Giuliana Grego Bolli (membro di unità per il periodo 29/12/2019 - 4/12/2020)

Sapienza Università di Roma

Maria Roccaforte (Associated Investigator per il periodo 29/12/2019 - data attuale)
Sabine Koesters Gensini (membro di unità per il periodo 29/12/2019 - data attuale)
Veronica D’alesio (membro di unità per il periodo 01/09/2021 - data attuale)
Francesca La Russa (membro di unità per il periodo 01/09/2022 - data attuale
Giovanni Luciani (membro di unità per il periodo 29/12/2019 - data attuale)
Giada Gaudio (membro di unità per il periodo 1/09/2020 - 28/02/2021)

Università degli Studi di Perugia

Alfredo Milani (Associated Investigator per il periodo 29/12/2019 - data attuale)
Valentina Franzoni (membro di unità per il periodo 1/04/2020 - data attuale)
Giulio Biondi (membro di unità per il periodo 15/09/2021 - data attuale)
Valentina Poggioni (membro di unità per il periodo 29/12/2019 - data attuale)
Marco Baioletti (membro di unità per il periodo 29/12/2020 - data attuale)
Simonetta Pallottelli (membro di unità per il periodo 29/12/2019 - 31/07/2020)

Stato dell’arte

La recente ricerca basata su corpora ha contribuito a superare la visione tradizionale secondo cui nella lingua l'unità di significato coincide con la parola.

Essere in grado di estrarre sequenze di parole da grandi raccolte di dati linguistici, prodotti in modo autentico, ha permesso ai ricercatori di osservare almeno due caratteristiche chiave della produzione linguistica: 1) la lingua è fondamentalmente formulaica, nel senso che le combinazioni di parole con almeno un certo grado di restrizione si presentano più frequentemente delle combinazioni libere; 2) il significato delle combinazioni di parole è determinato dal contesto in cui esse sono usate.

Di conseguenza, il principio di Firth secondo cui “you may know a word by the company it keeps” (Firth, 1957) è stato confermato da evidenze che derivano da studi su sequenze di parole come forme idiomatiche (o la va o la spacca), collocazioni ristrette (pesante sconfitta), espressioni fisse (non c'è di che), collocazioni (fare una passeggiata), tutte considerate come differenti tipi di unità fraseologiche.

La loro centralità nell'apprendimento, nell'elaborazione e nell'uso della lingua è stata inoltre evidenziata da studi psicolinguistici, che hanno mostrato come queste unità vengano generalmente elaborate più velocemente dal cervello rispetto alle sequenze inedite (Siyanova-Chanturia, 2015).

Nonostante la sua centralità, la fraseologia viene trattata in modo carente in sede di valutazione delle competenze degli apprendenti L2: ad oggi, infatti, non esistono strumenti per farlo in maniera adeguata. L'analisi delle unità fraseologiche nei learner corpora ha tuttavia rivelato che esse rappresentano una sfida per gli apprendenti, anche a livelli di competenza medio-alta e avanzata (Bestgen & Granger, 2014; Ellis, Simpson-Vlach, Römer, O'Donnell, & Wulff, 2015; Wang, 2016).

Obiettivi

Obiettivo 1: Definire una misura della complessità fraseologica
L’obiettivo generale di questo progetto è quello di definire la nozione di competenza fraseologica per la lingua italiana attraverso un’analisi della complessità fraseologica basata su dati psicolinguistici e dati estratti da corpora.
A partire dalla creazione di un nuovo corpus composto da testi scritti e parlati, prodotti da apprendenti con diversi livelli di competenza, miriamo a definire diversi livelli di complessità fraseologica, basandoci sia su analisi svolte sul corpus, sia su esperimenti condotti con l’eye tracker.

Obiettivo 2: Sviluppo di un sillabo fraseologico
La definizione di una misura della complessità fraseologica porterà alla creazione di un sillabo fraseologico per l’apprendimento dell’italiano.
Fino ad oggi, docenti e formatori linguistici si sono affidati esclusivamente a sillabi lessicali, basati su elenchi decontestualizzati di parole, e a sillabi grammaticali, basati su strutture e funzioni da apprendere in diverse fasi del processo di apprendimento (Falcinelli et al., in preparazione). Tuttavia, una separazione tra sintassi, lessico e funzioni comunicative è artificiosa, poiché non riflette il modo in cui il linguaggio funziona realmente nei suoi contesti autentici di produzione. Per questo proponiamo di creare un sillabo calibrato su ciascun livello di competenza, in cui le unità fraseologiche siano combinate con le funzioni comunicative.

Obiettivo 3: Sviluppo di un test per la valutazione della competenza fraseologica
Parallelamente alla creazione del sillabo fraseologico, svilupperemo un test per valutare la competenza fraseologica, sulla base di quanto affermato in Paquot (2018): “by paying attention to phraseology in their rating scale descriptors, language testers in higher education would create rubrics that recognize the “idiom principle” in language.”

Metodologia

Il progetto adotta un approccio misto, ed integra diversi tipi di metodi per elaborare e indagare diversi tipi di dati. In primo luogo, si basa su metodologie basate su corpora, le più adatte a fornire dati affidabili sull'uso autentico della lingua degli apprendenti in contesto.

I dati degli esami di certificazione, derivanti da anni di lavoro su test linguistici con studenti di italiano di tutto il mondo, saranno raccolti, trascritti, annotati e organizzati in un corpus di apprendenti. Nella sua versione finale, il corpus sarà composto da più di un milione di parole e comprenderà sia testi parlati che scritti, prodotti da studenti di italiano con L1 diverse e con livelli di competenza che vanno da B1 a C2. In secondo luogo, il progetto si basa su metodi computazionali, finalizzati all'estrazione delle unità fraseologiche utilizzate dagli studenti al loro diverso livello di competenza.

A tal fine, il corpus sarà sottoposto ad operazioni di pos-tagging e parsing sintattico, utilizzando tecniche di trattamento automatico del linguaggio naturale. Lo stato dell’arte degli strumenti di NLP sarà preventivamente analizzato allo scopo di selezionare gli strumenti più adatti per l’identificazione automatica delle unità fraseologiche. In terzo luogo, ai dati estratti attraverso il pos-tagging e il parsing sintattico saranno applicati metodi statistici.

Modelli di regressione multifattoriale saranno utilizzati allo scopo di predire una variabile dipendente (l'uso di un'unità fraseologica) sulla base di più variabili indipendenti (ad esempio, il livello di competenza, l'attività o il punteggio del test). Inoltre, verranno utilizzate altre tecniche statistiche inferenziali per calcolare le misure di associazione delle unità fraseologiche fornite dal corpus (MI, t-score, LG, DeltaP).

Infine, le possibili relazioni tra le misure fornite dai dati basati su corpora e i test psicolinguistici derivati dalle attività di eye tracker saranno indagate attraverso l'uso di misure di correlazione. I risultati saranno interpretati alla luce degli studi più recenti sull'integrazione di dati corpus-based e psicolinguistici (Gries, 2012) e contribuiranno alla definizione delle applicazioni finali del progetto: il sillabo fraseologico e il test di competenza fraseologica.

Pacchetti di lavoro (Work packages)

WP1: gestione del progetto (mesi 1-36) Responsabile dell'Unità: UnistraPG Unità coinvolte: tutte Obiettivi: gestione del progetto (mesi 1-36), lancio del progetto (mesi 1-3), report sullo stato dell'arte (mesi 1-5)

WP2: verso la costruzione del corpus (mesi 3-9) Unità responsabile: UnistraPG Unità coinvolte: UniPG e UnistraPG Obiettivi: selezione del framework del parsing sintattico (mesi 4-9), trascrizione dei testi (mesi 3- 8)

WP3: costruzione, trattamento computazionale e analisi del corpus (mesi 9-15) Unità responsabile: UniPG Unità coinvolte: tutte Obiettivi: costruzione del corpus, tagging e parsing (mesi 9-12), estrazione ed elaborazione dei dati (mesi 13-15)

WP4: elaborazione di misure di complessità fraseologica (mesi 16-26) Unità responsabile: UnistraPG Unità coinvolte: tutte Obiettivi: elaborazione di misure di complessità fraseologica (mesi 16-24), formulazione di misure combinate basate su dati derivati sia dal corpus che dell’eye tracker (mesi 22-26)

WP5: studio con eye tracker (mesi 6-24) Unità Responsabile: UniRoma1 Unità coinvolte: tutte Obiettivi: stato dell'arte su studi condotti su complessità testuale con eye tracker (mesi 6-9), costruzione di una prova sperimentale (mesi 10-15), studio esplorativo con eye tracker (mesi 10-15), verifica con eye tracker delle misure di complessità fraseologica individuate attraverso il corpus (mesi 16-24)

WP6: creazione sillabo e test (mesi 25-34) Unità responsabile: UniRoma1 Unità coinvolte: tutte Obiettivi: creazione sillabo fraseologico ancorato a livelli di competenza QCER (mesi 27-34), costruzione del test di competenza fraseologica (mesi 25-26), validazione computazionale delle misure di complessità fraseologica (25-26), somministrazione del test per la valutazione della competenza fraseologica (mesi 27-28)

WP7: valorizzazione e disseminazione dei risultati (mesi 13-36) Unità responsabile: UnistraPG Unità coinvolte: tutte Obiettivi: valorizzazione e disseminazione dei risultati (mesi 13-26), organizzazione di un convegno finale (mesi 18-36)

Impatto del progetto
  1. Lo sviluppo del progetto permetterà la creazione di un sillabo fraseologico che avrà un impatto significativo sulla progettazione di programmi didattici per l’italiano L2, che sono attualmente usati nelle università e nelle scuole di lingua. I docenti di lingua in tutti i campi disporranno di una risorsa che li aiuterà a ridefinire obiettivi didattici, attraverso l’integrazione di obiettivi di apprendimento legati alla dimensione fraseologica e i livelli del QCER, attualmente carente nella valutazione della competenza fraseologica.
     
  2. Il progetto avrà inoltre un impatto nel ridefinire metodi e strumenti relativi alla lessicografia e alla grammaticografia della L1 e della L2, con particolare riferimento al ruolo della fraseologia.
     
  3. Il progetto contribuirà anche alla ricerca relativa alla complessità e alla leggibilità dei testi: la valutazione automatica della leggibilità può fornire strumenti di semplificazione capaci di catturare automaticamente una grande varietà di proprietà linguistiche che influenzano la complessità del testo. Migliorare l’accesso alle informazioni in testi di tipo amministrativo e medico-sanitario, che sono principalmente codificate in lingua scritta, è sempre più una questione centrale nella nostra società. Questi testi dovrebbero essere accessibili a tutti, anche a persone che hanno potenzialmente difficoltà particolari nel comprenderli, come quelle di lingua materna diversa dall’Italiano.
     
  4. Il progetto avrà una notevole rilevanza nell’ambito degli studi condotti con eye tracker. In Italia, infatti, sono davvero poche le ricerche che mettono in relazione caratteristiche linguistiche di un testo e misure di eye tracking. La strumentazione eye tracking viene di solito usata per analizzare un input visivo o testuale in cui il testo non è stato sottoposto ad analisi preliminari. In questo caso, invece, l’input linguistico sarà il risultato dell’elaborazione di misure di complessità fraseologica, basati su un learner corpus di nuova creazione.

Bibliografia di riferimento

Bestgen, Y., & Granger, S. (2014). Quantifying the development of phraseological competence in L2 English writing: An automated approach. Journal of Second Language Writing, 26, 28–41.

Bybee, J. (2006). From usage to grammar: the mind’s response to repetition. Language 82(4): 711-733.

Callies, M. (2015). Learner corpus methodology. In S. Granger, G. Gilquin, F. Meunier (Eds.), The Cambridge Handbook of Learner Corpus Research, 35-56. Cambridge: CUP

Church, K. W. , Hanks, P., (1990). Word association norms, mutual information, and lexicography. Computational linguistics, 16(1), 22-29.

Clifton, C., Ferreira, F., Henderson, J. M., Inhoff, A. W., Liversedge, S. P., Reichle, E. D., & Schotter, E. R. (2016). Eye movements in reading and information processing: Keith Rayner’s 40year legacy. Journal of Memory and Language, 86, 1-19.

Dascalu, M., Dessus, P., Bianco, M., Trausan-Matu S., Nardy A. (2014) Mining Texts, Learner Productions and Strategies with ReaderBench. In Educational Data Mining. Studies in Comp. Intelligence, vol 524, p. 345-377. Springer.

Daudaravicius, V., Marcinkeviien, R. (2004). Gravity counts for the boundaries of collocations. International Journal of Corpus Linguistics 9(2), 321-348.

Dell’Orletta, F., Montemagni, S., Venturi, G. (2011), Read-it: Assessing readability of Italian texts with a view to text simplification, Proceedings of the second workshop on speech and language processing for assistive technologies, 73-83.

Durrant, P., Schmitt, N. (2009). To what extent do native and non-native writers make use of collocations? International Review of Applied Linguistics, 47(2), 157-177.

Ellis, N., Simpson-Vlach, R., Römer, U., O’Donnell, M., Wulff, S. (2015). Learner corpora and formulaic language in SLA. In S. Granger, G. Gilquin, F. Meunier (Eds.), Cambridge handbook of learner corpus research (357–378). Cambridge: CUP.

Evert, S., (2005). The Statistics of Word Cooccurrences: Word Pairs and Collocations. Dissertation, Institut für maschinelle Sprachverarbeitung, University of Stuttgart.

Falcinelli, M., Laterza, F., Marasco, M.V., (in preparation). Il sillabo dei corsi Marco Polo -Turandot dell’Università per Stranieri di Perugia (A1-B1): strumenti, attività e proposte.

Firth, J. R. (1957). Papers in linguistics 1934-1951. London: OUP.

Goldberg, A., (2006). Constructions at Work: the nature of generalization in Language. Oxford: OUP.

Graesser, C., McNamara, D.S., Louwerse, M.M. & Cai, Z., (2004). Coh-Metrix: Analysis of text on cohesion and language, Behavior Research Methods, Instruments, & Computers, 36(2), 193-202.

Granger, S., Meunier, F. (Eds.). (2008). Phraseology: an interdisciplinary perspective Amsterdam, Philadelphia: Benjamins.

Gries, S. Th., Mukherjee, J. (2010). Lexical gravity across varieties of English: an ICE-based study of n-grams in Asian Englishes. International Journal of Corpus Linguistics, 15(4) 520-548.

Gries, S. T. (2012). Corpus linguistics, theoretical linguistics, and cognitive/psycholinguistics: towards more and more fruitful exchanges. In J. Mukherjee, M. Huber (Eds.), Corpus linguistics and variation in English: Theory and description (41–63). Amsterdam: Rodopi.

Gries, S. Th. (2013). 50-something years of work on collocations: what is or should be next… International Journal of Corpus Linguistics 18(1) 137-165.

Lucisano P., Piemontese M.E., (1988), Gulpease: una formula per la predizione della difficoltà dei testi in lingua italiana, Scuola e città, 34, pp. 110-124.

Oakes, M., (1998). Statistics for Corpus Linguistics, Edinburgh, Edinburgh University Press.

Paquot, M. (2018). Phraseological Competence: A Missing Component in University Entrance Language Tests? Insights From a Study of EFL Learners’ Use of Statistical Collocations. Language Assessment Quarterly, 1–15.

Rayner, K. (1998). Eye movements in reading and information processing: 20 years of research. Psychological Bulletin, 124, 372–422.

Roberts, L., Siyanova-Chanturia, A. (2013), Using eye-tracking to investigate topics in L2 acquisition and L2 processing, Studies in Second Language Acquisition, 35, 213–235.

Schotter, E. R., Tran, R., Rayner, K. (2014). Don’t Believe What You Read (Only Once) Comprehension Is Supported by Regressions During Reading. Psychological science, 25(6), pp. 1218-1226.

Shermis, M.D.m Burstein J. (2013) Handbook of Automated Essay Evaluation: Current Applications and New Directions, London-New York, Routledge.

Siyanova-Chanturia, A. (2015). On the ‘holistic’ nature of formulaic language. Corpus Linguistics and Linguistic Theory, 11(2).

Wang, Y. (2016). The Idiom Principle and L1 Influence. A contrastive learner-corpus study of delexical verb+noun collocations. Amsterdam: Benjamins.

Witten I.H., Frank E., Hall M.A., Data Mining: Machine Learning Tools and Techniques, Morkan Kauffmann, 2016.

Zemblys R., Niehorster D.C., Komogortsev O., Holmqvist K. (2018). Using machine learning to detect events in eye-tracking data, Behavior Research Methods, 50(1), 160–181.

Disseminazione

Pubblicazioni

Pubblicazioni inerenti al progetto

La Russa, F., Roccaforte, M., & Spina, S. Una proposta di sillabo delle collocazioni italiane basato su corpora di apprendenti e di nativi, (under review).

La Russa F., D’Alesio, V., & Suadoni, A. Designing a corpus-based syllabus of Italian collocations: criteria, methods and procedure, (under review).

Fioravanti, I., Forti, L., D’Alesio, V., Roccaforte, M., Spina, S., & Koesters Gensini, S. (in press). Insights into phraseological processing through stimuli modification: an exploratory study on native speakers and learners of Italian, Languages

Spina, S. A different view of phraseological complexity, (under review).

Spina, S., Fioravanti, I., Forti, L., & Zanda F. (2023). The CELI corpus: Design and linguistic annotation of a new online learner corpus, Second Language Research (first published Oct 30, 2023).

Roccaforte, M., & Forti, L. (2023). Verso una valutazione della competenza fraseologica per l’Italiano L2. In F. Gallina & Y. Martari (Eds.), Didattica delle lingue e valutazione. Tra società, scuola e università, Pisa University Press, 95–104.

La Russa, F., Roccaforte, M., & D’Alesio, V. (2023). Verso lo sviluppo di un sillabo fraseologico per l’apprendimento dell’italiano L2: alcune premesse teorico-metodologiche. Italiano LinguaDue, 15(1), 359–372.

Forti, L. (2023). Misurare la complessità fraseologica in Italiano L2: premesse teorico-metodologiche verso l'integrazione di corpora e eye-tracking, in G. Henrot Sostero (Ed.), Alle radici della fraseologia europea, Peter Lang, 577–598.

Spina, S., Fioravanti, I., Forti, L., Santucci, V., Scerra, A., Zanda, F. (2022), Il corpus CELI: una nuova risorsa per studiare l’acquisizione dell’italiano L2, Italiano LinguaDue, 14(1), 116-138.

Malagnini, F. e Fioravanti, I. (2022). Buchi tra ordito e trama? Strategie di coerenza tra testo, frase e lessico, Italiano LinguaDue, 14(1), 517-541.

Malagnini, F. e Fioravanti, I. (2022). Connettivi e unità fraseologiche in italiano L2: un’indagine parallela, Forum Italicum, 56(1).138-194.

Milani, A., Franzoni, V., Biondi, B. (2021). Parsing Tools for Italian Phraseological Units, ICCSA (7), 427-435.

Forti, L. (2020a). L2 phraseology research at the interface between Learner Corpus Research and Psycholinguistics, RIPLA - Rivista di Psicolinguistica Applicata / Journal of Applied Psycholinguistics, 20(2), Pisa: Fabrizio Serra editore, 19-33.

Forti, L. (2020b). Phraseology in second and foreign language learning: towards an integrated view of research findings and related evidence, RIPLA - Rivista di Psicolinguistica Applicata / Journal of Applied Psycholinguistics, 20(1), Pisa: Fabrizio Serra editore, 27-43.

Spina, S. (2020) The role of Learner Corpus Research in the study of L2 phraseology: main contributions and future directions, RIPLA - Rivista di Psicolinguistica Applicata / Journal of Applied Psycholinguistics, 20(2), Pisa: Fabrizio Serra editore, 35-52.

Roccaforte, M. (Ed.) (2020). The phraseological dimension in L2 teaching and learning. Linguistic and psycholinguistic aspects. Special Issue Rivista di psicolinguistica applicata, Vol. 20 (2/2020).


Pubblicazioni affini

Koesters, S.E. et al. (2023). Dalle costruzioni a verbo supporto italiane alle lingue terze: un percorso di studio universitario, in G. Henrot Sostero (Ed.), Alle radici della fraseologia europea, Peter Lang, 507–554.

Biondi, G., Franzoni, V., Milani, M., & Santucci, V. (2023). Classification of Text Writing Proficiency of L2 Learners, in In B. and R. A. M. A. C. and G. C. and S. F. and K. Y. and T. C. M. Gervasi Osvaldo and Murgante (Ed.), Computational Science and Its Applications – ICCSA 2023 Workshops, Springer Nature Switzerland, 15–28.

Fioravanti, I. (2022). Tra le parole nella mente. Studi interdisciplinari sulle collocazioni lessicali, Franco Angeli.

Koesters S.E, Schettino V. (2022). Dalla traduttologia linguistica alla fraseologia contrastiva: un'analisi bidirezionale delle espressioni polirematiche in Italo Calvino Il visconte dimezzato (1952), in C. Di Giovanni, S.E. Koesters Gensini, & T.A Messina (Eds.), Phrasis Rivista di studi fraseologici e paremiologici, 353–372.

Fioravanti, I., Senaldi, M. S. G., Lenci, A., & Siyanova-Chanturia, A. (2021). Lexical fixedness and compositionality in L1 speakers’ and L2 learners’ intuitions about word combinations: Evidence from Italian, Second Language Research, 37(2), 291–322.

Koesters S., Schafroth E. (2021). Grußformeln im Italienischen und im Deutschen. Korpusbasierte Überlegungenam Rande von FRAME (FRAseologia Multilingue Elettronica), in C. Flinz, M. Brambilla, & R. Luppi (Eds.), Deutsch im Vergleich: Textsorten und Diskursarten, AION, XXX/ 2020, Themenheft, Sezione Germanica.

Koesters, S. E., Berardini, A. (2020). Si dice in molti modi: Fraseologia e traduzioni nel Visconte dimezzato di Italo Calvino, Roma: Sapienza editrice.

Forti, L., Grego-Bolli, G., Santarelli, F., Santucci, V., Spina, S., (2020), MALT-IT2: A New Resource to Measure Text Difficulty in light of CEFR levels for Italian L2 learning. In Calzolari, N. et al. (Eds.), Proceedings of the 12th Language Resources and Evaluation Conference, Paris: European Language Resources Association (ELRA), 7206-7213.

Koesters, S., & Bottoni, P. (2020). CREAMY (Italo Calvino Repository for Analysis of Multilingual Fraseologia), in I. Valenti (Ed.), Lessicalizzazioni complesse. Ricerche e teoresi. Atti del V congress internazionale di Phrasis, Catania 26-29/9/2018, Roma: Aracne, 363–382.

Santucci, V., Santarelli, F., Forti, L., Spina, S. (2020), Automatic Classification of Text Complexity, Applied Sciences. Computing and Artificial Intelligence, 10(20), 7285.

Santucci V., Forti L., Santarelli F., Spina S., Milani A. (2020) Learning to Classify Text Complexity for the Italian Language Using Support Vector Machines. In: Gervasi O. et al. (Eds.), Computational Science and Its Applications – ICCSA 2020 .Lecture Notes in Computer Science , vol 12250. Springer, Cham.

Forti, L., Milani, A., Piersanti, L., Santarelli, F., Santucci, S. and Spina, S. (2019), Measuring Text Complexity for Second Language Learning Purposes. In Yannakoudakis, H. et al. (Eds.), Proceedings of the Fourteenth Workshop on Innovative Use of NLP for Building Educational Applications, Florence: Association for Computational Linguistics, 360-368.


Pubblicazioni basate sul corpus CELI

Spina, S. Complexity and accuracy of verbal morphology in written L2 Italian: the role of proficiency and contingency, (under review).

Zanda, F, & Rini, D. (in print). Using a learner corpus to refresh rating scales of CELI exams. In ALTE, Conference Proceedings of the ALTE 8th International Conference: Language Assessment Fit for the Future. Cambridge, UK: ALTE.

Forti, L. (forthcoming). Learner corpora and the design of data-driven learning activities. In B. Bédi, Y. Choubsaz, K. Friðriksdóttir, A. Gimeno-Sanz, S. Björg Vilhjálmsdóttir & S. Zahova (Eds.), CALL for all Languages - EUROCALL 2023 Short Papers, University of Iceland, Reykjavik, August 15-18, Editorial Universitat Politècnica de València.

Malagnini, F., & Fioravanti, I. (2022). Tra testo, lessico e morfosintassi: analisi descrittiva di testi di italiano L2, Cuadernos de Filología Italiana, 29, 181–204.


Comunicazioni a convegno
Comunicazioni inerenti al progetto

Forti, L., Fioravanti, I., Roccaforte, M., D’Alesio, V., Santucci, V., & Malagnini, F. (2023). Exploring the psycholinguistic reality of corpus-based L2 phraseological complexity: an eye-tracking study across proficiency levels, EuroSLA - The 32nd Conference of the European Second Language Association, 30 August - 2 September 2023, Birmingham, UK.

La Russa, F., Roccaforte, M., & D’Alesio, V. (2023). A corpus-based syllabus of italian collocations, 11e Journée de Linguistique de corpus, 3-7 July 2023, Université de Grenoble, France.

La Russa, F., Roccaforte, M., & D’Alesio, V. (2023). Designing a phraseological syllabus to foster the learning of Italian collocations, EUROPHRAS 2023, 29 May - 01 June 2023, Università di Milano, Italy.

La Russa, F., Roccaforte, M., D’Alesio, V., & Suadoni, A. (2023). Le collocazioni come "isolotti di affidabilità" nella comunicazione in italiano L2: una proposta di sillabo, La comunicazione parlata 2023. I venti anni del GSCP, 8-10 June 2023, Università di Roma La Sapienza, Italy.

La Russa F., & Roccaforte, M. (2023). Using a learner corpus to design a phraseological syllabus of Italian collocations, Workshop on Profiling second language vocabulary and grammar - 2023, 20-21 April 2023, University of Gothenburg, Sweden.

Spina, S. (2023). L’acquisizione della fraseologia nelle lingue seconde: problemi, risultati e prospettive, IX Congresso Internazionale di Fraseologia e Paremiologia, 2-3 October 2023, University of Insubria, Italy, (invited presentation).

Suadoni, A., & Roccaforte, M. (2023). Costruzione di un sillabo per l’apprendimento delle collocazioni italiane verbo + nome: processo di filtraggio e selezione delle entrate, XIX Congreso internacional de la sociedad española de italianistas (sei) estudios italianos: interculturalidad, intertextualidad e interlingüística, 14-16 November 2023, Madrid, Spain.

Roccaforte, M., Fioravanti, I., Forti, L., D’Alesio, V., & Spina, S. (2023). Are phraseological units processed holistically? An eye-tracking study on L1 and L2 speakers of Italian, EuroSLA - The 32nd Conference of the European Second Language Association, 30 August - 2 September 2023, Birmingham, UK.

Forti, L., Fioravanti, I., & Zanda, F. (2022). Lexical complexity across proficiency levels in L2 Italian: some preliminary findings, Learner Corpus Research Conference, 22-24 September 2022, University of Padova, Italy (poster).

Forti, L. (2022). Complexity theory and phraseology research, invited seminar held at the Higher School of Economics, Moscow, Russia.

Spina, S., Fioravanti, I., Forti, L., & Zanda, F. (2022). The CELI corpus: a new resource to analyse Italian L2, Learner Corpus Research Conference, 22-24 September 2022, University of Padova, Italy (software demo).

Forti, L., Fioravanti, I., Zanda, F. (2022 ), Lexical complexity across proficiency levels in L2 Italian: some preliminary findings, Learner Corpus Research Conference, 22-24 settembre, Padova. (poster)

Spina, S., Fioravanti, I., Forti, L., Zanda, F. (2022), The CELI corpus: a new resource to analyse Italian L2, Learner Corpus Research Conference, 22-24 settembre, Padova. (software demo).

Roccaforte, M., Forti, L. (2022), Verso una valutazione della competenza fraseologica per l’Italiano L2, VII Congresso DILLE – “Didattica delle lingue e valutazione: società, scuola, università”, 12-13 maggio 2022, Università di Pisa.

Forti, L. (2022), Complexity theory and L2 phraseology research, seminario su invito svolto presso la Higher School of Economics (Mosca).

Forti, L., Roccaforte, M., Fioravanti, I. (2021), Mixing data in developing phraseological complexity measures for Italian L2: from integration to application (symposium n. 69 - "Investigating complexity in L2 phraseology: methods and applications"), AILA 2021 Congress, 15-20 agosto 2021, Groningen, Olanda.

Fioravanti, I., Roccaforte, M. (2021), Eye-tracking in the study of L2 phraseology: a state-of-the-art review of the method and findings (symposium n. 69 - "Investigating complexity in L2 phraseology: methods and applications"), AILA 2021 Congress, 15-20 agosto 2021, Groningen, Olanda.

Forti, L. (2021), Misurare la complessità fraseologica in Italiano L2: verso l’integrazione di corpora e eye-tracking, VII Convegno PHRASIS, 14-16 gennaio 2021, Università di Padova, Padova, Italia.

Roccaforte, M. (2021), Tracking phraseological complexity. Integrating eye tracking and learner corpus methods to develop second language pedagogical resources, XV International Symposium of Psycholinguistics,University of Nebrija.

Milani, A. (2021), Parsing Tools for Italian Phraseological Units, International Workshop on Collective and Evolutionary Systems, University of Cagliari.


Comunicazioni affini

Forti, L. (2021), L’indagine empirica sugli effetti pedagogici dei corpora in classe: metodi, stato dell’arte, e uno studio di caso, Workshop GISCEL "Apprendere e insegnare: il ruolo dei corpora", Corpora e studi linguistici. LIV Congresso internazionale della Società di Linguistica Italiana, 8-10 settembre 2021, Università degli Studi di Firenze, Firenze, Italia.

Fioravanti, I., Senaldi, G. (2021), Is “keep a promise” the same as “retain a promise”? The role of lexical fixedness in word combination processing (symposium n. 69 - "Investigating complexity in L2 phraseology: methods and applications"), AILA 2021 Congress, 15-20 agosto 2021, Groningen, Olanda.

Senaldi, G., Fioravanti, I. (2021), Lexical fixedness and compositionality in L1 and L2 speakers’ intuitions about Italian word combinations: A psycholinguistic and computational study (symposium n. 69 - "Investigating complexity in L2 phraseology: methods and applications"), AILA 2021 Congress, 15-20 agosto 2021, Groningen, Olanda.

Koesters, S. (2021), L’insegnamento universitario delle lingue straniere come lingue terze. Le costruzioni con il verbo supporto, VII Convegno PHRASIS, 14-16 gennaio 2021, Università di Padova, Padova, Italia.


Comunicazioni basate sul corpus CELI

Forti, L. (2023). The learner corpus advantage in Data-driven learning activity design (poster presentation), EuroCALL conference "CALL for all languages", 15-18 August 2023, University of Iceland.

Forti, L. (2023). Exploring the affordances of CEFR-based learner corpora in Data-driven learning (plenary presentation), Japan Association for English Corpus Studies (JAECS) Spring Forum 2023, JAECS SIG on DDL, online, 13 May 2023.

Zanda, F., & Rini, D. (2023). The CELI corpus: a new tool to analyse written L2 Italian and to inform language testing and assessment, ALTE 8th International Conference: Language Assessment Fit for the Future, 26-28 April 2023, Cervantes Institute, Madrid, Spain.

Zanda, F. (2023). Investigating the role of semantic transparency on a phraseological knowledge test for learners of Italian, BAAL Vocab SIG, 26-27 June 2023, Nottingham Trent University, Nottingham, UK.


Tesi di laurea

Fu, Zhixi. La morfologia dei verbi irregolari nelle produzioni scritte di apprendenti di italiano L2: un’analisi corpus-based sul CELI, Corso di Laurea in Digital Humanities per l’Italiano. (Relatrice: Luciana Forti). Tesi in corso di svolgimento.

Supanee, Cinsia. Le produzioni scritte di apprendenti di italiano L2/LS: un’analisi degli errori basata sul corpus CELI, Corso di Laurea Magistrale in Italiano per l’insegnamento a stranieri. (Relatrice: Luciana Forti). Tesi in corso di svolgimento.

Bellucci, Linda. La Linguistica dei Corpora applicata al Language Testing: nuove prospettive per il testing e la valutazione della competenza fraseologica in Italiano L2, Corso di Laurea Magistrale in Italiano per l’insegnamento a stranieri (Relatrice: Luciana Forti. Correlatore: Danilo Rini). Tesi discussa il 15 June 2023. Votazione: 110/110 con lode.


Eventi

Coordinatore: 
12/01/2021 – data attuale: prof. Francesca Malagnini, Università per Stranieri di Perugia 29/12/2019 - 04/12/2020: prof. Stefania Spina, Università per Stranieri di Perugia
Dipartimento: 
Dipartimento di Lingua, letteratura e arti italiane nel mondo (LILAIM)
Ente finanziatore: 
Finanziamenti nazionali
Denominazione ente: 
MUR – Ministero dell’Università e della Ricerca