STIH

Séminaires "Variation Linguistique et Linguistique Computationnelle" 2025-2026
Séminaires 2026-2027
Séminaires 2025-2026 (11/12)
Séminaires 2024-2025 (11)
Séminaires 2023-2024 (8)
Séminaires 2022-2023 (9)
Séminaires 2021-2022 (11)
Séminaires 2020-2021 (13)
Séminaires 2019-2020 (11)
Séminaires 2018-2019 (10)
Séminaires 2017-2018 (5)

Séminaires "Variation Linguistique et Linguistique Computationnelle" 2025-2026

Ce séminaire a vu le jour à l'initiative d'Alice Millour et Gaël Lejeune en 2018 (89 sessions organisées en 8 ans) sous le nom de “Séminaire de l'équipe de Linguistique Computationnelle”. Depuis janvier 2023 il est renommé “Variation Linguistique et Linguistique Computationnelle” afin d'accueillir les recherches de l'axe transversal du même nom nouvellement créé au sein du laboratoire STIH.

Séminaires 2026-2027

Les séminaires auront lieu à la maison de la recherche (28 rue Serpente).

Date	Salle	Titre	Intervenant	Mots-clés	Lien Diapos
10/09	S001	Rencontres Minute	Collectif	Séminaire de rentrée
15/10	D224
26/11	S001	TBA	Marine Delaborde
17/12	S001
21/01	S002	TBA	Elena M. Vercelli
25/02	S002
18/03	S002
22/04	S002
20/05	TBA
17/06	S002

Séminaires 2025-2026 (11/12)

Les séminaires ont lieu en salle 513 de la maison de la recherche (28 rue Serpente)

Date	Titre	Intervenant	Mots-clés	Lien Diapos
11/09	Rencontres Minute	Collectif	Séminaire de rentrée
09/10	ALMA: Automated Alignment of Ancient Texts using Linguistic and Semantic Analysis	Sophie Robert-Hayek	Alignement, Collation, Grec, Latin	Slides
23/10	Evaluating LLM performance in TRIZ-based system forecasting: a study using 9-windows	Mélusine Caillard	Détection de tendances, Innovation
13/11	Implémenter la linguistique cognitive en IA neurosymbolique : Une approche formelle pour la compréhension du langage et du raisonnement	François Olivier	Linguistique cognitive, IA Neurosymbolique, Représentation des connaissances	slides
11/12	Outils informatiques et analyse textuelle en nawatl avec des algorithmes d’Intelligence Artificielle	Juan-José GUZMAN (LIA, Avignon)
15/01	Du fac-similé à la donnée structurée : pipeline de traitement d’un dictionnaire ancien	Anaïs Chambat	métalexicographie, dictionnaires médicaux, XVIIIe siècle, OCR, TAL	Slides
12/02	Detecting reported speech as a token classification task: an application to Classical Latin?	Agustin Dei	Discours rapporté, Latin, POS tagging
19/03	Défi et enjeux de la fouille automatique de textes anciens	Caroline Koudoro-Parfait (von Humboldt Foundation, Trier University)		Slides
09/04	NLP for Literary Latin and Ancient Greek Text	Konstantin Schulz and Andrea Beyer (Humboldt University)		https://daidalos-projekt.de/
07/05	Panoptic: un outil open source de classification et d'annotation d'images	Félix Alié
11/06	Analyser les traces de la circulation des concepts dans des corpus patrimoniaux bruités : apports et limites des outils automatiques à partir du fonds Jean-Martin Charcot	Ljudmila Petkovic
02/07	Une étude de corpus sur la sélection des auxiliaires en français et en italien	Andrea Briglia (Sorbonne Nouvelle

Dates suivantes :

Séminaires 2024-2025 (11)

Date	Titre	Intervenant	Mots-clés	Lien Diapos
12/09	Rencontres Minute	Collectif	Séminaire de rentrée
17/10	Pour en finir avec les pré-traitements	Gaël Lejeune	Nettoyage de données, FIltrage, Données bruitées	Slides
21/11	Lost in Variation : fouille de motifs lexico-syntaxiques dans des textes en Moyen Arabe	Rimane Karam et Julien Bezançon	Arabic NLP, Figements, Style Formulaire
12/12	PI-yalli: un nouveau corpus de Nawatl mexicain	Juan Manuel Torres Moreno (Univ. Avignon)	…	…
16/01	Les adverbes comme marqueurs d'objectification de femmes dans l'audiodescription de cinéfilms anglais	Eva Lacroix	audio description, objectivation, adverbes, films, Anglais	SLides
20/02	Art, Littérature et Intelligence Artificielle - Sur le chemin de la dématérialisation	Corina Chutaux	Intelligence Artificielle, Modèles Génératifs, Arts visuels, Littérature
20/03	Exploration de la collection Française d'ELTeC avec l'outil de cartographie textuelle Epiméthée	Caroline Koudoro-Parfait	NER, Cartographie, OCR, Littérature	Slides
20/03	NLP approaches to analysing discourse on migrations	Senja Pollak(Jožef Stefan Institute)	NLP, minorities
24/04	Genres textuels et caractéristiques stylistiques pour la classification	Gaël Lejeune	NLP, Multilinguisme, Robustesse	Slides
22/05	Intelligence artificielle pour la démocratie	Laurène Cave	LLM, Débats en Ligne, Biais
19/06	Génération augmentée de récupération pour les journaux historiques	Carlos Gonzalez Gallardo (Université de Tours)

[]: # (Analyse multi-modale avec Clan, 2025-26, Irène-Marie Sultan) []

dates 2025-2026 (salle 513): - Jeudi 11/09; 09/10; 13/11; 11/12; 22/01/2026; 19/02/2026; 19/03/2026; 09/04/2026; 07/05/2026; 11/06/2026; 02/07/2026

Séminaires 2023-2024 (8)

Date	Intervenant	Titre	Mots-clés	Lien Diapos
07/09	Speed Dating	Collectif	Séminaire de rentrée
26/10	Gaël Lejeune	Rapprocher des éléments textuels similaires : apports à la gestion des sauts qualitatifs en général et à la variation morphologique en particulier	Similarité, Classification, OCR, Corpus Multilingues	Slides
23/11	Luis-Gil Moreno Jiménez	Utilisation de la rime et de l'analyse sémantique pour la génération de phrases	Analyse Sémantique, Créativité Computationnelle, Rimes	Slides
21/12	Iglika Nikolova-Stoupak	Abrégement des textes littéraires dans plusieurs langues : transformations grammaticales	Simplification, Abrègement, Accès aux données textuelles	Slides
18/01	(I) G. Dias et (II) F. Maurel (Greyc)	Détection de la Dépression dans des textes (I) & Rôle de la sémantique morpho-dispositionnelle pour la compréhension active et non visuelle des documents numériques (II)	Classification, Dépression, Structure de Documents, Oralisation	Slides G.Dias
15/02	Marceau Hernandez	MORDOR :Myriadisation et Orchestration de Ramifications Divergentes pour l' Optimisation de Ressources textuelles	Scraping, OCR, ASR, fusion	Slides
14/03	Luis Gil Moreno et G.Lejeune	Approche stochastique pour la génération automatique de titres descriptifs	Génération, Modèles de Langue
20/06	Caroline Parfait	Annoter un corpus bruité quelles difficultés et perspectives

Séminaires 2022-2023 (9)

Date	Titre	Intervenant	Mots-clés	Lien Diapos
15/06	Regrouper des Entités Nommées de Lieux issues d'océrisation : Epimethee de l'OCR à la carte (Mapping spatial named entities from noisy OCR output: Epimethee from OCR to map)	Caroline Koudoro-Parfait et Gaël Lejeune	variation, OCR, Reconnaissance d'entités nommées, cartographie	Slides
11/05	Reconnaissance de défigements dans des tweets en français par des mesures de similarité sur des alignements textuels	Julien Bezançon	variation, mesures similarité, corpus de tweets	Slides
13/04	Correction automatique des interférences OCR dans la reconnaissance d’entités nommées spatiales : réel gain ou perte de l’information ?	Caroline Parfait et Ljdumila Petkovic	NER, OCR, évaluation	Slides
30/03	Synthèse vocale pour la langue Arabe : voix naturelle et manque de ressources	Oumaima Zine	Traitement de la Parole
16/02	Sauts qualitatifs dans les corpus : conséquences épistémologiques et techniques	Gilles Couffignal et Gaël Lejeune	OCR, LInguistique de Corpus, Variation
15/12	Détection des comportements anormaux dans les réseaux sociaux	Nour El Houda Ben Chaabene	Détection d’anomalie, Analyse des réseaux sociaux, Données multimodales, Réseau multidimensionnel, Détection de communautés	Slides
17/11	La double nature de la dématerialisation	Corina Chutaux	Humanités Numériques	…
29/09	Retour sur le DEFT2022: Notation automatique de copies d'étudiant·e·s par combinaisons de méthodes de similarité	I. Ben Ltaifa, T.Boubehziz, A. Briglia, C. Chutaux, Y. Dupont, C. González-Gallardo, C. Koudoro-Parfait, G. Lejeune	…	…
08/09	Rencontres minutes Science (3mn pour vous présenter)	Collectif	TAL, Humanités Numériques	Slides

Séminaires 2021-2022 (11)

07/07	Art et littérature transhumanistes	Corina Chutaux	Humanités Numériques	…
16/06	A New Representation Approaches based on Deep Learning to Improve the Semantic Information Retrieval	Ibtihel Ben Ltaifa	Semantic Information Retrieval	Slides
19/05	Quasi real-time simulation of a capsule in flow using data-driven Reduced-Order Model	Toufik Boubehziz	Data Analysis	…
21/04	Problématiques d'élaboration d'un corpus de chansons situées temporellement	Gaël Lejeune	Constitution de Corpus, dédoublonnage, Web Scraping, API	Slides
31/03	Doxa et contre-doxa dans la construction du territoire discursif du Front National (2000-2017)	Camille Bouzereau ( Université Côte d'Azur)	Analyse du discours politique,humanités numériques, lexicométrie, linguistique, discours politique	Slides
10/03	Évaluation des résultats de NER sur des transcriptions OCR bruitées par élaboration de supports cartographiques	Caroline Parfait	Reconnaissance d'Entités Nommées, Cartographie, OCR	Slides
20/01	Antonomaz : Exploitation d'Imprimés du XVIIème siècle Numérisés	Karine Abiven	Humanités Numériques, OCR	Slides
16/12	Ce que l'annotation avec TreeTagger permet d'apprendre sur les adverbes et adverbiaux dans les scripts d'audiodescription	Eva Lacroix	Linguistique de Corpus, Analyse Syntaxique, Audiodescription	Slides
9/12 (report du 21/10)	Les biais dans les annotations manuelles	A. Baledent (Univ. Caen)	Annotation, Evaluation, Biais
18/11	L'enjeu de la représentation de grandes quantités de données langagières. Un cas d'étude sur des suivis longitudinaux	Andrea Briglia	Données longitudinales, Apprentissage de la Langue
09/09	Speed Dating (Vos travaux de recherche en 3mn)	Collectif	Humanités Numériques, TAL, TAP, Linguistique, Ethique, Corpus	Slides

Séminaires 2020-2021 (13)

17/06	Participation de STIH à Deft 2021 (indexation/similarité)	Dupont el al.	Fouille de Textes, Indexation, Classification, Régression
20/05	Clustering de textes pour l'extraction de néologismes : justification du coût de construction d'un petit corpus	Manuela Yapomo	Néologismes, Linguistique de Corpus
15/04	Investigating dominant word-order on universal dependencies with graph rewriting	HeeSoo Choi	Universaux de Greenberg, Ordre Syntaxique
01/04	Détection d'objets en temps réel	Fouad Aouinti	Détection d'Objets, Humanités Numériques
18/03	Reconnaissance d'entités nommées dans des textes de littérature française du 19ème : le poids du bruit ?	Caroline Parfait	Données Bruitées, Littérature, Entités Nommées	Slides
18/02	La théorie de l'information	Jean-Baptiste Tanguy	Théorie de l'Information, OCR
21/01	La reconnaissance automatique de la parole dans le contexte médical	Imed Laaridh	Débit de parole, parole pathologique	Slides
17/12	Articles “doudou”	Karën Fort et al.	Style et Science	Slides
03/12	Partitionnement des actualités avec MAJORCLUST et distances temporaires	Carlos González	Clustering, Multimedia	Slides
12/11	New Results in Multilingual Epidemic Surveillance	Gaël Lejeune	Classification, Extraction d'Information	Slides
15/10	“Construction de ressources langagières par myriadisation pour le traitement automatique des langues peu dotées” (Pré-soutenance de thèse)	A. Millour	…
08/10	Le CNU (27) et la qualification MCF	K. Fort	Qualification, CNU, Section 27, carrière	Slides
10/09	Speed Dating (Vos travaux de recherche en 3mn)	Collectif	du TAL au TAP en passant par les ontologies et les Humanités Numériques	Slides

Séminaires 2019-2020 (11)

02/07	Faire face à la variabilité en TAL: pistes épistémologiques et pratiques	Gaël Lejeune	Epistémologie, Paradigmes, Tokénisation, Analyse en Caractères	Slides
18/06	Exploiter des modèles de langue pour évaluer des sorties de logiciels d’OCR pour des documents français du XVIIe siècle	Jean-Baptiste Tanguy	OCR, modèle de langue, évaluation, document historique, français pré-classique.	Slides
28/05	Il a cru j'étais un second choix » : analyse syntaxique et sociolinguistique des constructions [CV. Ø CV.] en français parlé contemporain	Auphélie Ferreira (Lattice)	Langue parlée, Syntaxe	Slides
06/04	Sentiment Analysis for the Latinised Arabic (Arabizi)	Taha Tobaili (The Open University UK)	Sentiment Analysis, Tweets, Under Resourced Languages	Slides
26/03	Analyse et classifications des dialectes arabes en se basant sur des techniques de Deep Learning	Dhaou Ghoul	Classification, Dialectes, Langue Arabe	Slides
27/02	CamemBERT: Yet Another Cheese Strategy for Attaigning State-of-the-Art	Yoann Dupont	Modèles de Langue, Evaluation, BERT, Deep Learning
23/01	Etudes des Mèmes textuels : hypothèses de travail	Lichao Zhu	théorie des mèmes, myriadisation, apprentissage automatique, projet MEMES	Slides
19/12	Redescription en analyse de données : exemples variés	François Rioult (GREYC)	Fouille de Données, Descripteurs	Slides
14/11	Adaptation au domaine et combinaison de modèles pour l'annotation de textes multi-sources et multi-domaines	Tian Tian	POS tagging, Entités Nommées, Deep Learning, Mots non Standards	Slides
17/10	Ceci n'est pas un titre	Gaël Lejeune	Classification, Détection de Titres, Extraction de Table des Matières, Structure de Documents, FinTOC 2019	Slides
12/09	Rencontres Minute Science	Collectif (3mn chacun)	Dans l'ordre : G. Lejeune, A.Baledent, A.Boublenza, K.Fort, D.Ghoul, N.Hiebel, V.Lully, A.Millour, J.B.Tanguy, T.Tian, L.Vercruyssen, L.Zhu	Slides

Séminaires 2018-2019 (10)

20/06	Alice Millour	Unsupervised data augmentation for less-resourced languages with no standardized spelling	Less-resourced languages, Data Augmentation, Language Models	Slides
16/05	Anaëlle Baledent	Présentation du projet de sujet de thèse	Observables en linguistique et TAL, corpus bruités	Slides
18/04	Dhaou Ghoul	Classification et grammaires des invariants lexicaux arabes en prévision d'un traitement informatique de cette langue	Corpus, classification, désambiguïsation, langue arabe, invariants lexicaux, grammaire régulière, schémas de grammaires	Slides
21/03	Gaël Lejeune	Antonomaz: Analyse Automatique des Mazarinades, tirer parti d’un corpus incomplet, hétérogène et bruité	Corpus Integrity, Analyse au grain caractère, Classification, Datation, Corpus Anciens, Erreurs d'OCR	Slides
28/02	Hélène Gerardin	Constituer un corpus oral en langue peu dotée : de la linguistique de terrain au traitement automatisé.	Constitution de Corpus, Langues peu dotées
21/01	Caroline Langlet	Analyse de sentiments dans les conversations humain-agent. Vers un modèle des goûts de l'utilisateur	Analyse de Sentiments, Agents Conversationnels, Classification	Slides
17/12	Olga Seminck	Modèles cognitifs et computationnels de la résolution des pronoms	Anaphores, Coréférence, Entropie, Théorie de l'information, Modélisation cognitive, Pronoms	Slides
19/11	Karën Fort	Questions de catégorisation	Catégorisation, Annotation, Accords inter-annotateurs	Slides
22/10	Vincent Lully	Explorer la synergie entre le Web sémantique et la vision par ordinateur pour la personnalisation dans le e-tourisme	Web Sémantique, Systèmes de Recommandation, Vision par Ordinateur, Profils Utilisateurs	Slides
24/09	Gaël Lejeune	Simplexité et Complexité en TAL	Epistémologie, Classification, Multilinguisme	Slides

Séminaires 2017-2018 (5)

02/07	Eleni Kogkitsidou	Traduction Automatique de SMS	Normalisation de SMS, Traduction Automatique
05/06	Pauline Delhaye	Zoosemiotics of Emotions : a New Model and its Applications	Zoosémiotique
17/04	Alice Millour	Crowdsourcing POS tags for Kréyòl Gwadloupéyen	Création de Ressources, Myriadisation
05/04	Karën Fort	Représentation des Femmes dans la recherche en TAL	Ethique
08/03	Gaël Lejeune	Evaluation Intrinsèque et Extrinsèque de Web Scraping	Web Content Extraction, Collecte de Corpus, Evaluation