chapitre :

 B A S E S   T E X T U E L L E S 

Recherche : laboratoires et revues - Bases et bibliothèques : littérature française, langues anciennes Le projet Basile, les principes de l'édition électronique - Utilisation des bases de textes dans le secondaire - Liens sur des usages pédagogiques

apprendre avec les bases textuelles

 Recherche littéraire assistée par ordinateur

COLLOQUES.

L'édition électronique en littérature et dictionnairique

Colloque organisé par l'Université de Rouen (Centre de Recherche d’Étude et Éditer-Interpréter - CEREDI), l'Université Paris-IV Sorbonne, l'Université de Franche-Comté.
Actes en ligne : http://www.univ-rouen.fr/univ/Recherche/Labos/CEREDI/index.html

CENTRES DE RECHERCHE.

ATILF (Analyse et traitement informatique de la langue française)
Le laboratoire ATILF (Analyse et Traitement Informatique de la Langue Française) est né du rapprochement de l'Institut National de la Langue Française (INALF-CNRS) et de LANDISCO (Langues Discours Cognition-Université Nancy 2).
Ses travaux portent sur :
- les études synchroniques du lexique (Moyen français et français préclassique, français contemporain, usages et marges, régionalismes, lexiques multilingues et études contrastives),
- les études diachroniques du lexique (étymologie et histoire du lexique, matériaux pour l’histoire du vocabulaire du français),
- les études des usages, modèles et traitements informatiques des données lexicales.
Ce dernier axe intègre les bases de données textuelles (Frantext), les lexiques et dictionnaires informatisés (Encyclopédie de Diderot et d'Alembert en collaboration avec l'ARTFL, Trésor de la Langue Française informatisé, Dictionnaires de l'Académie française, Dictionarium latinogallicum de Robert Estienne, Thresor de la langue françoyse, tant ancienne que moderne de Jean Nicot, Dictionnaire historique et critique de Pierre Bayle), les interfaces lexique – grammaire – sémantique et le traitement automatique des langues (morphologie et construction du lexique).
Le laboratoire développe des outils informatiques : STELLA, catégoriseur (WinBrill) ...
Le laboratoire ATILF est la plate-forme nationale de ressources linguistiques soutenue par le CNRS, Département Sciences de l’Homme et de la Société.
Adresse : http://www.inalf.fr/_ie/atilf.htm

Université de Nice - Sophia-Antipolis - Institut de linguistique française (ILF)
Les principaux axes de recherche de l'unité de recherche " Bases, Corpus et Langage " associée au CNRS et équipe constitutive de l' ILF, sont les suivants :
- constitution, structuration et exploitation de bases de données linguistiques textuelles et lexicales ;
- traitement quantitatif des données : développement et application des divers outils de la statistique linguistique ;
- étude du changement linguistique, appréhendé dans ses composantes diachronique, sociolinguistique et géographique ;
- linguistique de l'énonciation et pragmatique des textes littéraires.
Différents logiciels ont été produits par le laboratoire : ESTELA (exploitation statistique des textes latins), HYPERBASE (logiciel hypertextuel et statistique pour le traitement des grands corpus), THIEF (exploitation statistique de la base de données FRANTEXT), MARIAMA (logiciel d'analyse multidimensionnelle).
Parmi les productions majeures, les bases exploitées statistiquement par le Professeur Etienne Brunet : Recherche hypertextuelle dans La Comédie humaine de Balzac et Rabelais et son temps (avec Marie-Luce Demonet, laboratoire EQUIL XVI, Université Clermont II).
Adresse : http://134.59.31.3/

Université de Paris III (Sorbonne nouvelle) : Lettres modernes et outils informatiques
L'équipe Hubert de Phalèse, fondée en 1989 par Henri Béhar, Michel Bernard, Jean-Pierre Goldenstein, Pascal Mougin, et Patrick Rebollar, a pour mission de développer les études littéraires assistées par ordinateur et de diffuser ces nouveaux savoirs.
L'équipe est l'auteur collectif de la collection Cap'Agreg, publiée à Paris chez Nizet, dont certains compléments figurent sur le site.
Le site publié électroniquement les œuvres complètes de Lautréamont Ducasse avec des documents complémentaires (bibliographie, variantes, etc.).
Le site donne accès aux Journées d'agrégation en ligne (JAL). Les sept universités du réseau JAL sont reliées par visioconférence, ce qui permet aux spécialistes d'intervenir depuis n'importe quel point du réseau, mais aussi aux étudiants de poser des questions en direct aux intervenants. Il est possible d'assister à ces journées dans les universités du réseau, mais aussi en ligne, en se connectant à l'Internet, où les journées seront diffusées en direct en RealVideo©. Ces enregistrements sont archivés, ce qui permet de les voir ou de les revoir à tout moment. On trouve aussi sur le site les textes des communications et des bibliographies.
Sur le site, également la Banque de Données d'Histoire Littéraire (BDHL) en version allégée.
Adresse : http://www.cavi.univ-paris3.fr/phalese/hubert1.htm

Université de Paris III (Sorbonne nouvelle) - ILPGA - Outils de statistique textuelle
Présentation du logiciel Lexico 3 (manuel, rapports d'analyse) réalisé par Cédric Lammalle, William Martinez, André Salem. Le logiciel et le manuel d'utilisation peuvent être téléchargés sur le site. La troisième version de Lexico (Lexico 1 a été réalisé par André Salem en 1995) propose des outils d'exploration textuelle (segmentation du texte, index, concordances, segments répétés), des outils d'analyse statistique (calcul des spécificités, analyse factorielle des correspondances), des outils de navigation lexicométrique recherche des segments répétés). Le manuel comprend un glossaire et une bibliographie.
Adresse : http://www.cavi.univ-paris3.fr/ilpga/ilpga/tal/lexicoWWW/team.htm

Université Paris 7 - Laboratoire d'Automatique documentaire et linguistique (LADL)
Le LADL associée au CNRS en tant qu'équipe du Laboraroire d'Informatique Linguistique de l'Université de Villetaneuse - Paris XIII.
Le LADL a pour mission la construction d'outils de base pour le traitement automatique des textes. Les outils construits sont de deux types principaux :
- linguistiques (dictionnaires et lexiques, grammaires),
- informatiques : algorithmes d'application des données linguistiques aux textes (documentation automatique par traitement de textes libres, aides à la traduction).
Le LADL entretient d'étroites relations de recherches avec le Centre d'Etudes et de Recherche en Informatique Linguistique (CERIL), laboratoire de l'Institut Gaspard-Monge (Université Marne-La-Vallée).
Le LADL est le noeud central du réseau RELEX de laboratoires européens qui construisent des bases de données selon les mêmes normes et peuvent en conséquence échanger des logiciels de constitution de bases de données et d'applications à des textes. Les langues principales concernées sont l'allemand, l'anglais, l'espagnol, le grec, l'italien, le coréen, et le portugais.
Adresse : http://ladl.univ-mlv.fr/French/

Université de Franche-Comté - Grelis (Groupe de Recherche en Linguistique Informatique et Sémiotique)
Le GRELIS a constitué, sous la direction de Jean-Marie Viprey, une équipe de recherche (composée de littéraires, de linguistes statisticiens et de linguistes informaticiens), dont les objectifs sont de construire ou d'utiliser les outils d'étiquetage automatiques existants et de les améliorer afin de mettre en œuvre des dispositifs nécessaires au traitement des grandes bases de données textuelles.
Le GRELIS fait partie du réseau des chercheurs qui utilisent INTEX comme outil de recherche et d'enseignement. INTEX est un environnement de développement utilisé pour construire des descriptions formalisées des langues naturelles et les appliquer à des textes de taille importante en temps réel. Les descriptions de langues naturelles sont formalisées sous la forme de dictionnaires électroniques, de grammaires représentées par des graphes à état fini, de lexiques-grammaires. INTEX fournit des outils pour décrire la morphologie flexionnelle et dérivationnelle, la variation orthographique et terminologique, le vocabulaire (mots simples, mots composés, expressions figées), les phénomènes semi-figés à la limite entre lexique et suntaxe (grammaires locales, description des accords) et la syntaxe (grammaire syntagmatique). INTEX est également utilisé comme traitement de corpus. Les opérations typiques sur les tecxtes incluenet l'indexation de motifs morpho-syntaxiques, d'expressions figées ou semi-figées, de concordances lemmatisées et l'étude statistique des résultats.
LE GRELIS développe des outilks qui pourraient être intégrés à INTEX (DIALAG) et participent aux journées qui permettent aux chercheurs utilisant l'environnement INTEX de confronter leurs racherches et leurs résultats. Katia Zellagui a décrit, aux rencontres de 2001, une application à l'étude d'Aurélien : de l'analyse traditionnelle à l'analyse informatique des textes littéraires.
Adresse : http://grelis.univ-fcomte.fr/

Texto
Site de sémantique des textes publié avec le concours de l'Institut Ferdinand de Saussure, Texto publie de nombreux textes de chercheurs et par exemple, en intégralité, la thèse soutenue par Évelyne Bourion en 2001 : " L'aide à l'interprétation des textes électroniques " : cette étude propose une méthode de recherche thématique dans un vaste corpus multi-auteurs (Frantext) et dans un genre littéraire homogène (le roman).
" Lire autrement le Le Père Goriot " montre, à travers l'exemple du Père Goriot, les résultats de recherche effectuées avec le Système d'Aide à l'Analyse Sémantique (SAAS), mis au point à l'Institut National de la Langue Française par Évelyne Bourion et l'informaticien J. Maucourt pour l'étude du corpus Roman XIXe-XXe siècles de Frantext. Ces programmes ne figurent pas dans l'actuel moteur de recherche de cette base textuelle.

Adresse : http://www.msh-paris.fr/texto/

ARTICLES EN LIGNE.

" Encyclopédie de la recherche littéraire assistée par ordinateur "
L'Université d'Ottawa propose une sélection organisée par thèmes : analyse de textes par ordinateur, analyse thématique, banques de données, hypertexte, logiciels, etc.
Adresse : http://www.uottawa.ca/academic/arts/astrolabe/imc.htm

Lexicometrica
La revue LEXICOMETRICA s'adresse aux chercheurs, aux étudiants, aux professionnels de la communication et de la fouille de données textuelles... intéressés par les travaux théoriques et pratiques menés dans les domaines suivants : Lexicométrie / statistique textuelle, linguistiques de corpus, extraction d'informations à partir de corpus de texte, acquisition de connaissances...
Elle est publiée sur Internet et rassemble des articles de recherche ou des comptes-rendus d'expériences. Assisté d'un réseau de correspondants, son comité de rédaction sélectionne les articles à paraître. Un sommaire à double entrée permet d'accéder aux articles à la fois par date de parution (Parcours Chronologique) et par thème (Parcours Thématique).
La revue met en ligne les communications des "Journées d'analyse textuelle" (JADT) qui réunissent tous les ans des chercheurs du monde entier : les actes des JADT 2002 sont disponibles.
Adresse : http://www.cavi.univ-paris3.fr/lexicometrica/index.htm

Marges linguistiques
La revue " Marges Linguistiques " (ML) s'adresse prioritairement à l'ensemble des chercheurs et praticiens concernés par les questions s'inscrivant dans le vaste champ des sciences du langage.
Publiée uniquement sur Internet, Marges linguistiques - revue électronique semestrielle entièrement gratuite - entend rassembler, autour de thèmes spécifiques faisant chacun l'objet d'un numéro particulier, des articles scientifiques sélectionnés selon de stricts critères universitaires.
ML souhaite allier, dans un esprit de synthèse et de clarté, d'une part les domaines traditionnels de la linguistique: syntaxe, phonologie, sémantique ; d'autre part les champs plus éclatés de la pragmatique linguistique, de l'analyse conversationnelle, de l'analyse des interactions verbales et plus largement, des modalités de la communication sociale; enfin les préoccupations les plus actuelles des sociolinguistes, psycholinguistes, ethnolinguistes, sémioticiens, pragmaticiens et philosophes du langage.
Lieu d'échange et de dialogue entre universitaires, enseignants et étudiants, ML publie en priorité des articles en langue française tout en encourageant les chercheurs qui diffusent leurs travaux dans d'autres langues à participer à une dynamique qui vise à renforcer les liens entre des univers scientifiques divers et à mettre en relation des préoccupations linguistiques variées et trop souvent séparées.
Au delà de cette première mission, ML offre sur Internet une information détaillée et actualisée sur les colloques et manifestations en sciences du langage, un ensemble de liens avec les principaux sites universitaires et avec de nombreux laboratoires et centres de recherche, notamment dans la communauté francophone. A noter enfin qu'un espace " thèses en ligne ", mis à disposition des chercheurs et des étudiants, permet à la fois d'archiver, de classer mais aussi de consulter et de télécharger, les travaux universitaires les plus récents en sciences du langage que des particuliers souhaitent livrer au domaine public.
Le site est fermé mais les archives de Marges linguistiques sont maintenant hébergées par "Texto!", rubrique "Archives et secrets".
Le site "Le Net des Lettres" vient de mettre en ligne, avec l'accord du créateur-directeur de ML et du responsable de Texto!, les sommaires des 11 numéros parus et les liens sur les pdf téléchargeables dans Texto!.

Le Net des Etudes françaises
La bibliothèque de Lisieux a organisé, en mai 2002, le deuxième colloque : " Les études françaises valorisées par les nouvelles technologies d'information et de communication " dont les communications sont en ligne. Le premier colloque avait permis la création d'une base de données interrogeable en ligne à Toronto de tous les textes publiés sur le site de la bibliothèque électronique de Lisieux (LexoTor), l'ouverture d'un vaste site " Le Net des Etudes françaises " (bases textuelles, entretiens, outils d'analyse, galerie,...) et de son miroir à l'École Normale Supérieure. Il offre des liens notamment sur une base recensant le théâtre en ligne (1600-1800).
Adresse : http://www.etudes-francaises.net/

tête de chapitre accueil du site haut de page-