Créneaux premier semestre (salle D117) le jeudi à 9h : 12/09, 17/10, 14/11, 12/12 et 16/01
Ce séminaire a vu le jour à l'initiative d'Alice Millour et Gaël Lejeune en 2018 (67 séminaires organisés depuis lors) sous le nom de séminaire de l'équipe de Linguistique Computationnelle. Depuis janvier 2023, avec le concours de Gilles Couffignal il est renommé “Variation Linguistique et Linguistique Computationnelle” afin d'accueillir les recherches de l'axe transversal du même nom nouvellement créé au sein du laboratoire STIH.
Date | Titre | Intervenant | Mots-clés | Lien Diapos |
12/09 | Rencontres Minute | Collectif | Séminaire de rentrée | |
17/10 | Pour en finir avec les pré-traitements | Gaël Lejeune | Nettoyage de données, FIltrage, Données bruitées |
Date | Intervenant | Titre | Mots-clés | Lien Diapos |
07/09 | Speed Dating | Collectif | Séminaire de rentrée | |
26/10 | Gaël Lejeune | Rapprocher des éléments textuels similaires : apports à la gestion des sauts qualitatifs en général et à la variation morphologique en particulier | Similarité, Classification, OCR, Corpus Multilingues | Slides |
23/11 | Luis-Gil Moreno Jiménez | Utilisation de la rime et de l'analyse sémantique pour la génération de phrases | Analyse Sémantique, Créativité Computationnelle, Rimes | Slides |
21/12 | Iglika Nikolova-Stoupak | Abrégement des textes littéraires dans plusieurs langues : transformations grammaticales | Simplification, Abrègement, Accès aux données textuelles | Slides |
18/01 | (I) G. Dias et (II) F. Maurel (Greyc) | Détection de la Dépression dans des textes (I) & Rôle de la sémantique morpho-dispositionnelle pour la compréhension active et non visuelle des documents numériques (II) | Classification, Dépression, Structure de Documents, Oralisation | Slides G.Dias |
15/02 | Marceau Hernandez | MORDOR :Myriadisation et Orchestration de Ramifications Divergentes pour l' Optimisation de Ressources textuelles | Scraping, OCR, ASR, fusion | Slides |
14/03 | Luis Gil Moreno et G.Lejeune | Approche stochastique pour la génération automatique de titres descriptifs | Génération, Modèles de Langue | |
20/06 | Caroline Parfait | Annoter un corpus bruité quelles difficultés et perspectives |
Date | Titre | Intervenant | Mots-clés | Lien Diapos | |
15/06 | Regrouper des Entités Nommées de Lieux issues d'océrisation : Epimethee de l'OCR à la carte (Mapping spatial named entities from noisy OCR output: Epimethee from OCR to map) | Caroline Koudoro-Parfait et Gaël Lejeune | variation, OCR, Reconnaissance d'entités nommées, cartographie | Slides | |
11/05 | Reconnaissance de défigements dans des tweets en français par des mesures de similarité sur des alignements textuels | Julien Bezançon | variation, mesures similarité, corpus de tweets | Slides | |
13/04 | Correction automatique des interférences OCR dans la reconnaissance d’entités nommées spatiales : réel gain ou perte de l’information ? | Caroline Parfait et Ljdumila Petkovic | NER, OCR, évaluation | Slides | |
30/03 | Synthèse vocale pour la langue Arabe : voix naturelle et manque de ressources | Oumaima Zine | Traitement de la Parole | ||
16/02 | Sauts qualitatifs dans les corpus : conséquences épistémologiques et techniques | Gilles Couffignal et Gaël Lejeune | OCR, LInguistique de Corpus, Variation | ||
15/12 | Détection des comportements anormaux dans les réseaux sociaux | Nour El Houda Ben Chaabene | Détection d’anomalie, Analyse des réseaux sociaux, Données multimodales, Réseau multidimensionnel, Détection de communautés | Slides | |
17/11 | La double nature de la dématerialisation | Corina Chutaux | Humanités Numériques | … | |
29/09 | Retour sur le DEFT2022: Notation automatique de copies d'étudiant·e·s par combinaisons de méthodes de similarité | I. Ben Ltaifa, T.Boubehziz, A. Briglia, C. Chutaux, Y. Dupont, C. González-Gallardo, C. Koudoro-Parfait, G. Lejeune | … | … | |
08/09 | *Rencontres minutes Science* (3mn pour vous présenter) | Collectif | TAL, Humanités Numériques | Slides |
07/07 | Art et littérature transhumanistes | Corina Chutaux | Humanités Numériques | … |
16/06 | A New Representation Approaches based on Deep Learning to Improve the Semantic Information Retrieval | Ibtihel Ben Ltaifa | Semantic Information Retrieval | Slides |
19/05 | Quasi real-time simulation of a capsule in flow using data-driven Reduced-Order Model | Toufik Boubehziz | Data Analysis | … |
21/04 | Problématiques d'élaboration d'un corpus de chansons situées temporellement | Gaël Lejeune | Constitution de Corpus, dédoublonnage, Web Scraping, API | Slides |
31/03 | Doxa et contre-doxa dans la construction du territoire discursif du Front National (2000-2017) | Camille Bouzereau ( Université Côte d'Azur) | Analyse du discours politique,humanités numériques, lexicométrie, linguistique, discours politique | Slides |
10/03 | Évaluation des résultats de NER sur des transcriptions OCR bruitées par élaboration de supports cartographiques | Caroline Parfait | Reconnaissance d'Entités Nommées, Cartographie, OCR | Slides |
20/01 | Antonomaz : Exploitation d'Imprimés du XVIIème siècle Numérisés | Karine Abiven | Humanités Numériques, OCR | Slides |
16/12 | Ce que l'annotation avec TreeTagger permet d'apprendre sur les adverbes et adverbiaux dans les scripts d'audiodescription | Eva Lacroix | Linguistique de Corpus, Analyse Syntaxique, Audiodescription | Slides |
9/12 (report du 21/10) | Les biais dans les annotations manuelles | A. Baledent (Univ. Caen) | Annotation, Evaluation, Biais | |
18/11 | L'enjeu de la représentation de grandes quantités de données langagières. Un cas d'étude sur des suivis longitudinaux | Andrea Briglia | Données longitudinales, Apprentissage de la Langue | |
09/09 | Speed Dating (Vos travaux de recherche en 3mn) | Collectif | Humanités Numériques, TAL, TAP, Linguistique, Ethique, Corpus | Slides |
17/06 | Participation de STIH à Deft 2021 (indexation/similarité) | Dupont el al. | Fouille de Textes, Indexation, Classification, Régression | |
20/05 | Clustering de textes pour l'extraction de néologismes : justification du coût de construction d'un petit corpus | Manuela Yapomo | Néologismes, Linguistique de Corpus | |
15/04 | Investigating dominant word-order on universal dependencies with graph rewriting | HeeSoo Choi | Universaux de Greenberg, Ordre Syntaxique | |
01/04 | Détection d'objets en temps réel | Fouad Aouinti | Détection d'Objets, Humanités Numériques | |
18/03 | Reconnaissance d'entités nommées dans des textes de littérature française du 19ème : le poids du bruit ? | Caroline Parfait | Données Bruitées, Littérature, Entités Nommées | Slides |
18/02 | La théorie de l'information | Jean-Baptiste Tanguy | Théorie de l'Information, OCR | |
21/01 | La reconnaissance automatique de la parole dans le contexte médical | Imed Laaridh | Débit de parole, parole pathologique | Slides |
17/12 | Articles “doudou” | Karën Fort et al. | Style et Science | Slides |
03/12 | Partitionnement des actualités avec MAJORCLUST et distances temporaires | Carlos González | Clustering, Multimedia | Slides |
12/11 | New Results in Multilingual Epidemic Surveillance | Gaël Lejeune | Classification, Extraction d'Information | Slides |
15/10 | “Construction de ressources langagières par myriadisation pour le traitement automatique des langues peu dotées” (Pré-soutenance de thèse) | A. Millour | … | |
08/10 | Le CNU (27) et la qualification MCF | K. Fort | Qualification, CNU, Section 27, carrière | Slides |
10/09 | Speed Dating (Vos travaux de recherche en 3mn) | Collectif | du TAL au TAP en passant par les ontologies et les Humanités Numériques | Slides |
02/07 | Faire face à la variabilité en TAL: pistes épistémologiques et pratiques | Gaël Lejeune | Epistémologie, Paradigmes, Tokénisation, Analyse en Caractères | Slides |
18/06 | Exploiter des modèles de langue pour évaluer des sorties de logiciels d’OCR pour des documents français du XVIIe siècle | Jean-Baptiste Tanguy | OCR, modèle de langue, évaluation, document historique, français pré-classique. | Slides |
28/05 | Il a cru j'étais un second choix » : analyse syntaxique et sociolinguistique des constructions [CV. Ø CV.] en français parlé contemporain | Auphélie Ferreira (Lattice) | Langue parlée, Syntaxe | Slides |
06/04 | Sentiment Analysis for the Latinised Arabic (Arabizi) | Taha Tobaili (The Open University UK) | Sentiment Analysis, Tweets, Under Resourced Languages | Slides |
26/03 | Analyse et classifications des dialectes arabes en se basant sur des techniques de Deep Learning | Dhaou Ghoul | Classification, Dialectes, Langue Arabe | Slides |
27/02 | CamemBERT: Yet Another Cheese Strategy for Attaigning State-of-the-Art | Yoann Dupont | Modèles de Langue, Evaluation, BERT, Deep Learning | |
23/01 | Etudes des Mèmes textuels : hypothèses de travail | Lichao Zhu | théorie des mèmes, myriadisation, apprentissage automatique, projet MEMES | Slides |
19/12 | Redescription en analyse de données : exemples variés | François Rioult (GREYC) | Fouille de Données, Descripteurs | Slides |
14/11 | Adaptation au domaine et combinaison de modèles pour l'annotation de textes multi-sources et multi-domaines | Tian Tian | POS tagging, Entités Nommées, Deep Learning, Mots non Standards | Slides |
17/10 | Ceci n'est pas un titre | Gaël Lejeune | Classification, Détection de Titres, Extraction de Table des Matières, Structure de Documents, FinTOC 2019 | Slides |
12/09 | Rencontres Minute Science | Collectif (3mn chacun) | Dans l'ordre : G. Lejeune, A.Baledent, A.Boublenza, K.Fort, D.Ghoul, N.Hiebel, V.Lully, A.Millour, J.B.Tanguy, T.Tian, L.Vercruyssen, L.Zhu | Slides |
20/06 | Alice Millour | Unsupervised data augmentation for less-resourced languages with no standardized spelling | Less-resourced languages, Data Augmentation, Language Models | Slides |
16/05 | Anaëlle Baledent | Présentation du projet de sujet de thèse | Observables en linguistique et TAL, corpus bruités | Slides |
18/04 | Dhaou Ghoul | Classification et grammaires des invariants lexicaux arabes en prévision d'un traitement informatique de cette langue | Corpus, classification, désambiguïsation, langue arabe, invariants lexicaux, grammaire régulière, schémas de grammaires | Slides |
21/03 | Gaël Lejeune | Antonomaz: Analyse Automatique des Mazarinades, tirer parti d’un corpus incomplet, hétérogène et bruité | Corpus Integrity, Analyse au grain caractère, Classification, Datation, Corpus Anciens, Erreurs d'OCR | Slides |
28/02 | Hélène Gerardin | Constituer un corpus oral en langue peu dotée : de la linguistique de terrain au traitement automatisé. | Constitution de Corpus, Langues peu dotées | |
21/01 | Caroline Langlet | Analyse de sentiments dans les conversations humain-agent. Vers un modèle des goûts de l'utilisateur | Analyse de Sentiments, Agents Conversationnels, Classification | Slides |
17/12 | Olga Seminck | Modèles cognitifs et computationnels de la résolution des pronoms | Anaphores, Coréférence, Entropie, Théorie de l'information, Modélisation cognitive, Pronoms | Slides |
19/11 | Karën Fort | Questions de catégorisation | Catégorisation, Annotation, Accords inter-annotateurs | Slides |
22/10 | Vincent Lully | Explorer la synergie entre le Web sémantique et la vision par ordinateur pour la personnalisation dans le e-tourisme | Web Sémantique, Systèmes de Recommandation, Vision par Ordinateur, Profils Utilisateurs | Slides |
24/09 | Gaël Lejeune | Simplexité et Complexité en TAL | Epistémologie, Classification, Multilinguisme | Slides |
02/07 | Eleni Kogkitsidou | Traduction Automatique de SMS | Normalisation de SMS, Traduction Automatique | |
05/06 | Pauline Delhaye | Zoosemiotics of Emotions : a New Model and its Applications | Zoosémiotique | |
17/04 | Alice Millour | Crowdsourcing POS tags for Kréyòl Gwadloupéyen | Création de Ressources, Myriadisation | |
05/04 | Karën Fort | Représentation des Femmes dans la recherche en TAL | Ethique | |
08/03 | Gaël Lejeune | Evaluation Intrinsèque et Extrinsèque de Web Scraping | Web Content Extraction, Collecte de Corpus, Evaluation |