Direction de thèses

  • Aurore LESSIEUX. 1.10.2022 Analyse automatique de la perception des projets d’aménagement de territoire dans les corpus mulimodaux (thèse financée par le projet Labex Vital et co-dirigée avec Olivier RATOUIS)
  • Ousseynou GUEYE. 1.09.2020 Reformulation automatique appliquée aux problèmes arithmétiques
  • Laura NORESKAL. 1.09.2018-14.12.2022 Erreurs dans les phrases coordonnées au sein des rédactions universitaires : typologie et détection (thèse sur contrat doctoral d’établissement, projet ECRI+, co-dirigée avec Marianne DESMETS)

Cette thèse s’inscrit dans le cadre du projet écri+ (ANR17NCUN0015). Elle a pour objet de présenter le développement d’un outil de détection automatique des erreurs dans les phrases coordonnées au sein des rédactions universitaires, et de proposer une typologie des erreurs. Cette recherche, qui s’intègre dans le développement de solutions de remédiation à l’expression et à la compréhension écrites du français, à destination des étudiants et des formateurs (outils d’évaluation, de formation et de certification), cherche à répondre en particulier aux difficultés observées dans la production des constructions syntaxiques complexes et des séquences phrastiques longues, avec des coordinations ou des juxtapositions. Elle met en oeuvre un déploiement sur plusieurs champs de recherche : le TAL, la linguistique de corpus, la linguistique de l’écrit et la didactique, avec deux objectifs principaux : (1) l’étude des phrases coordonnées erronées et (2) la détection des erreurs syntaxiques dans les rédactions des étudiants. Après la constitution d’un corpus collectant différentes catégories de rédactions universitaires (devoirs maison, exercices, mémoires et rapports de stage), l’analyse a permis de valider quatre hypothèses de départ : la catégorie de rédaction évaluative a une incidence sur la présence d’erreurs, les rédactions non-préparées contiennent plus d’erreurs que les rédactions préparées, la taille des phrases a une incidence sur la présence d’erreurs et le nombre de coordonnants présents dans la phrase a une incidence sur la présence d’erreurs. Une typologie des erreurs dans les structures coordonnées a été élaborée. Afin de développer le module automatique de détection d’erreurs, deux types d’apprentissage supervisé ont été testés : l’apprentissage de surface et l’apprentissage profond. Pour chaque apprentissage, les expériences ont été menées une première fois sur des données équilibrées entre phrases correctes et phrases erronées, et une seconde fois sur des données déséquilibrées contenant plus d’erreurs que de phrases correctes. Concernant l’apprentissage de surface, onze traits jugés pertinents pour l’apprentissage ont été répertoriés, parmi lesquels figurent le nombre de mots, le nombre de verbes transitifs, le nombre de que, le nombre de conjonctions de coordination, le nombre de prépositions, le nombre de à, de, sur, dans, pour, ainsi que. Lors des expériences, l’apprentissage profond avec les données déséquilibrées a obtenu le meilleur résultat avec 0,81 de f-mesure.

  • Hyun Jung Kang. 1.09.2016-28.01.2021 Regards croisés sur les avis en ligne : approches du TAL et de la linguistique de corpus. (bourse d’études de gouvernement coréen)

La thèse se situe dans la lignée des recherches en Traitement Automatique des Langues (TAL) sur la fouille d’opinions et propose la modélisation, l’analyse outillée et le traitement automatique des évaluations en ligne des restaurants. L’évaluation des restaurants visités ne se limite pas aux opinions positives ou négatives données par les clients mais peut avoir d’autres fonctions : le visiteur laisse son avis pour donner son opinion (opinions), faire des suggestions (suggestion), exprimer ses intentions (intention) ou décrire son expérience (description). Chaque fonction est analysée du point de vue quantitatif à travers l’extraction de mots-clés, la répartition des catégories morphosyntaxiques et sa position au sein de l’évaluation. Un module de détection automatique de chacune de ces fonctions est développé. La méthode utilisée est fondée sur l’apprentissage de surface et l’apprentissage profond. Les performances obtenues pour chaque fonction sont interprétées en tenant compte des spécificités du corpus traité. La généralisabilité du modèle développé a été testée et validée sur d’autres données : un corpus relevant du domaine de l’hôtellerie et un corpus écrit dans une autre langue – le coréen.

  • Hélène Flamein. 1.10.2015-10.12.2019 Étude de la perception d’une ville. Repérage automatique, analyse et visualisation. (thèse sur contrat doctoral d’établissement)

A partir de l’exploitation du corpus ESLO (Enquête Sociolinguistique à Orléans), l’objectif de la thèse est de modéliser, détecter et visualiser la perception qu’ont les locuteurs de la ville d’Orléans. Pour cela, une approche pluridisciplinaire associant la linguistique, le Traitement Automatique des Langues (TAL) et la géographie a été suivie.

  • Sandra Cestic. 1.09.2013-11.03.2019 Perception du bruit et de la température en milieu professionnel. Outils et méthodes de la linguistique de corpus pour améliorer les environnements de travail. (thèse CIFRE)

La thèse vise la prévention des nuisances physiques au travail générées par le bruit et les ambiances thermiques. L’objectif du travail est de repérer et d’étudier la variation de l’expression de la perception du bruit et de la température dans le discours oral des salariés. Alors que de nombreux travaux traitent de la verbalisation des perceptions sensorielles liées à la vision, à l’audition ou à l’olfaction, cette étude est l’une des premières qui étendent à l’environnement thermique (en même temps qu’au contexte sonore) les protocoles et les analyses.