STIH

Séminaires "Variation Linguistique et Linguistique Computationnelle" 2023-2024

Créneaux second semestre (salle 224) : 15/02, 14/03, 16/05 et 20/06

(11/04: annulé)

Ce séminaire a vu le jour à l'initiative d'Alice Millour et Gaël Lejeune en 2018 (63 séminaires organisés depuis lors) sous le nom de séminaire de l'équipe de Linguistique Computationnelle. Depuis janvier 2023, avec le concours de Gilles Couffignal il est renommé “Variation Linguistique et Linguistique Computationnelle” afin d'accueillir les recherches de l'axe transversal du même nom nouvellement créé au sein du laboratoire STIH.

Séminaires les jeudi de 9h à 10h en salle D117 (puis salle 224 à partir du 15/02)

18/01	15/02	14/03	16/05	20/06
G.Dias / F.Maurel	M.Hernandez	L. Moreno et G.Lejeune	Caroline Koudoro-Parfait

Date	Titre	Intervenant	Mots-clés	Lien Diapos
07/09	Speed Dating	Collectif	Séminaire de rentrée
26/10	Gaël Lejeune	Rapprocher des éléments textuels similaires : apports à la gestion des sauts qualitatifs en général et à la variation morphologique en particulier	Similarité, Classification, OCR, Corpus Multilingues	Slides
23/11	Luis-Gil Moreno Jiménez	Utilisation de la rime et de l'analyse sémantique pour la génération de phrases	Analyse Sémantique, Créativité Computationnelle, Rimes	Slides
21/12	Iglika Nikolova-Stoupak	Abrégement des textes littéraires dans plusieurs langues : transformations grammaticales	Simplification, Abrègement, Accès aux données textuelles	Slides
18/01	(I) G. Dias et (II) F. Maurel (Greyc)	Détection de la Dépression dans des textes (I) & Rôle de la sémantique morpho-dispositionnelle pour la compréhension active et non visuelle des documents numériques (II)	Classification, Dépression, Structure de Documents, Oralisation	Slides G.Dias
15/02	Marceau Hernandez	MORDOR :Myriadisation et Orchestration de Ramifications Divergentes pour l' Optimisation de Ressources textuelles	Scraping, OCR, ASR, fusion	Slides
14/03	Luis Gil Moreno et G.Lejeune	Approche stochastique pour la génération automatique de titres descriptifs	Génération, Modèles de Langue
16/05	Caroline Parfait	Annoter un corpus bruité quelles difficultés et perspectives

Séminaires 2022-2023 (9)

Date	Titre	Intervenant	Mots-clés	Lien Diapos
15/06	Regrouper des Entités Nommées de Lieux issues d'océrisation : Epimethee de l'OCR à la carte (Mapping spatial named entities from noisy OCR output: Epimethee from OCR to map)	Caroline Koudoro-Parfait et Gaël Lejeune	variation, OCR, Reconnaissance d'entités nommées, cartographie	Slides
11/05	Reconnaissance de défigements dans des tweets en français par des mesures de similarité sur des alignements textuels	Julien Bezançon	variation, mesures similarité, corpus de tweets	Slides
13/04	Correction automatique des interférences OCR dans la reconnaissance d’entités nommées spatiales : réel gain ou perte de l’information ?	Caroline Parfait et Ljdumila Petkovic	NER, OCR, évaluation	Slides
30/03	Synthèse vocale pour la langue Arabe : voix naturelle et manque de ressources	Oumaima Zine	Traitement de la Parole
16/02	Sauts qualitatifs dans les corpus : conséquences épistémologiques et techniques	Gilles Couffignal et Gaël Lejeune	OCR, LInguistique de Corpus, Variation
15/12	Détection des comportements anormaux dans les réseaux sociaux	Nour El Houda Ben Chaabene	Détection d’anomalie, Analyse des réseaux sociaux, Données multimodales, Réseau multidimensionnel, Détection de communautés	Slides
17/11	La double nature de la dématerialisation	Corina Chutaux	Humanités Numériques	…
29/09	Retour sur le DEFT2022: Notation automatique de copies d'étudiant·e·s par combinaisons de méthodes de similarité	I. Ben Ltaifa, T.Boubehziz, A. Briglia, C. Chutaux, Y. Dupont, C. González-Gallardo, C. Koudoro-Parfait, G. Lejeune	…	…
08/09	Rencontres minutes Science (3mn pour vous présenter)	Collectif	TAL, Humanités Numériques	Slides

Séminaires 2021-2022 (11)

07/07	Art et littérature transhumanistes	Corina Chutaux	Humanités Numériques	…
16/06	A New Representation Approaches based on Deep Learning to Improve the Semantic Information Retrieval	Ibtihel Ben Ltaifa	Semantic Information Retrieval	Slides
19/05	Quasi real-time simulation of a capsule in flow using data-driven Reduced-Order Model	Toufik Boubehziz	Data Analysis	…
21/04	Problématiques d'élaboration d'un corpus de chansons situées temporellement	Gaël Lejeune	Constitution de Corpus, dédoublonnage, Web Scraping, API	Slides
31/03	Doxa et contre-doxa dans la construction du territoire discursif du Front National (2000-2017)	Camille Bouzereau ( Université Côte d'Azur)	Analyse du discours politique,humanités numériques, lexicométrie, linguistique, discours politique	Slides
10/03	Évaluation des résultats de NER sur des transcriptions OCR bruitées par élaboration de supports cartographiques	Caroline Parfait	Reconnaissance d'Entités Nommées, Cartographie, OCR	Slides
20/01	Antonomaz : Exploitation d'Imprimés du XVIIème siècle Numérisés	Karine Abiven	Humanités Numériques, OCR	Slides
16/12	Ce que l'annotation avec TreeTagger permet d'apprendre sur les adverbes et adverbiaux dans les scripts d'audiodescription	Eva Lacroix	Linguistique de Corpus, Analyse Syntaxique, Audiodescription	Slides
9/12 (report du 21/10)	Les biais dans les annotations manuelles	A. Baledent (Univ. Caen)	Annotation, Evaluation, Biais
18/11	L'enjeu de la représentation de grandes quantités de données langagières. Un cas d'étude sur des suivis longitudinaux	Andrea Briglia	Données longitudinales, Apprentissage de la Langue
09/09	Speed Dating (Vos travaux de recherche en 3mn)	Collectif	Humanités Numériques, TAL, TAP, Linguistique, Ethique, Corpus	Slides

Séminaires 2020-2021 (13)

17/06	Participation de STIH à Deft 2021 (indexation/similarité)	Dupont el al.	Fouille de Textes, Indexation, Classification, Régression
20/05	Clustering de textes pour l'extraction de néologismes : justification du coût de construction d'un petit corpus	Manuela Yapomo	Néologismes, Linguistique de Corpus
15/04	Investigating dominant word-order on universal dependencies with graph rewriting	HeeSoo Choi	Universaux de Greenberg, Ordre Syntaxique
01/04	Détection d'objets en temps réel	Fouad Aouinti	Détection d'Objets, Humanités Numériques
18/03	Reconnaissance d'entités nommées dans des textes de littérature française du 19ème : le poids du bruit ?	Caroline Parfait	Données Bruitées, Littérature, Entités Nommées	Slides
18/02	La théorie de l'information	Jean-Baptiste Tanguy	Théorie de l'Information, OCR
21/01	La reconnaissance automatique de la parole dans le contexte médical	Imed Laaridh	Débit de parole, parole pathologique	Slides
17/12	Articles “doudou”	Karën Fort et al.	Style et Science	Slides
03/12	Partitionnement des actualités avec MAJORCLUST et distances temporaires	Carlos González	Clustering, Multimedia	Slides
12/11	New Results in Multilingual Epidemic Surveillance	Gaël Lejeune	Classification, Extraction d'Information	Slides
15/10	“Construction de ressources langagières par myriadisation pour le traitement automatique des langues peu dotées” (Pré-soutenance de thèse)	A. Millour	…
08/10	Le CNU (27) et la qualification MCF	K. Fort	Qualification, CNU, Section 27, carrière	Slides
10/09	Speed Dating (Vos travaux de recherche en 3mn)	Collectif	du TAL au TAP en passant par les ontologies et les Humanités Numériques	Slides

Séminaires 2019-2020 (11)

02/07	Faire face à la variabilité en TAL: pistes épistémologiques et pratiques	Gaël Lejeune	Epistémologie, Paradigmes, Tokénisation, Analyse en Caractères	Slides
18/06	Exploiter des modèles de langue pour évaluer des sorties de logiciels d’OCR pour des documents français du XVIIe siècle	Jean-Baptiste Tanguy	OCR, modèle de langue, évaluation, document historique, français pré-classique.	Slides
28/05	Il a cru j'étais un second choix » : analyse syntaxique et sociolinguistique des constructions [CV. Ø CV.] en français parlé contemporain	Auphélie Ferreira (Lattice)	Langue parlée, Syntaxe	Slides
06/04	Sentiment Analysis for the Latinised Arabic (Arabizi)	Taha Tobaili (The Open University UK)	Sentiment Analysis, Tweets, Under Resourced Languages	Slides
26/03	Analyse et classifications des dialectes arabes en se basant sur des techniques de Deep Learning	Dhaou Ghoul	Classification, Dialectes, Langue Arabe	Slides
27/02	CamemBERT: Yet Another Cheese Strategy for Attaigning State-of-the-Art	Yoann Dupont	Modèles de Langue, Evaluation, BERT, Deep Learning
23/01	Etudes des Mèmes textuels : hypothèses de travail	Lichao Zhu	théorie des mèmes, myriadisation, apprentissage automatique, projet MEMES	Slides
19/12	Redescription en analyse de données : exemples variés	François Rioult (GREYC)	Fouille de Données, Descripteurs	Slides
14/11	Adaptation au domaine et combinaison de modèles pour l'annotation de textes multi-sources et multi-domaines	Tian Tian	POS tagging, Entités Nommées, Deep Learning, Mots non Standards	Slides
17/10	Ceci n'est pas un titre	Gaël Lejeune	Classification, Détection de Titres, Extraction de Table des Matières, Structure de Documents, FinTOC 2019	Slides
12/09	Rencontres Minute Science	Collectif (3mn chacun)	Dans l'ordre : G. Lejeune, A.Baledent, A.Boublenza, K.Fort, D.Ghoul, N.Hiebel, V.Lully, A.Millour, J.B.Tanguy, T.Tian, L.Vercruyssen, L.Zhu	Slides

Séminaires 2018-2019 (10)

20/06	Alice Millour	Unsupervised data augmentation for less-resourced languages with no standardized spelling	Less-resourced languages, Data Augmentation, Language Models	Slides
16/05	Anaëlle Baledent	Présentation du projet de sujet de thèse	Observables en linguistique et TAL, corpus bruités	Slides
18/04	Dhaou Ghoul	Classification et grammaires des invariants lexicaux arabes en prévision d'un traitement informatique de cette langue	Corpus, classification, désambiguïsation, langue arabe, invariants lexicaux, grammaire régulière, schémas de grammaires	Slides
21/03	Gaël Lejeune	Antonomaz: Analyse Automatique des Mazarinades, tirer parti d’un corpus incomplet, hétérogène et bruité	Corpus Integrity, Analyse au grain caractère, Classification, Datation, Corpus Anciens, Erreurs d'OCR	Slides
28/02	Hélène Gerardin	Constituer un corpus oral en langue peu dotée : de la linguistique de terrain au traitement automatisé.	Constitution de Corpus, Langues peu dotées
21/01	Caroline Langlet	Analyse de sentiments dans les conversations humain-agent. Vers un modèle des goûts de l'utilisateur	Analyse de Sentiments, Agents Conversationnels, Classification	Slides
17/12	Olga Seminck	Modèles cognitifs et computationnels de la résolution des pronoms	Anaphores, Coréférence, Entropie, Théorie de l'information, Modélisation cognitive, Pronoms	Slides
19/11	Karën Fort	Questions de catégorisation	Catégorisation, Annotation, Accords inter-annotateurs	Slides
22/10	Vincent Lully	Explorer la synergie entre le Web sémantique et la vision par ordinateur pour la personnalisation dans le e-tourisme	Web Sémantique, Systèmes de Recommandation, Vision par Ordinateur, Profils Utilisateurs	Slides
24/09	Gaël Lejeune	Simplexité et Complexité en TAL	Epistémologie, Classification, Multilinguisme	Slides

Séminaires 2017-2018 (5)

02/07	Eleni Kogkitsidou	Traduction Automatique de SMS	Normalisation de SMS, Traduction Automatique
05/06	Pauline Delhaye	Zoosemiotics of Emotions : a New Model and its Applications	Zoosémiotique
17/04	Alice Millour	Crowdsourcing POS tags for Kréyòl Gwadloupéyen	Création de Ressources, Myriadisation
05/04	Karën Fort	Représentation des Femmes dans la recherche en TAL	Ethique
08/03	Gaël Lejeune	Evaluation Intrinsèque et Extrinsèque de Web Scraping	Web Content Extraction, Collecte de Corpus, Evaluation

STIH

User Tools

Site Tools

Table of Contents