COLLOQUES.
L'édition
électronique en littérature et dictionnairique
Colloque organisé par l'Université
de Rouen (Centre de Recherche dÉtude et Éditer-Interpréter
- CEREDI), l'Université Paris-IV Sorbonne, l'Université
de Franche-Comté.
Actes en ligne : http://www.univ-rouen.fr/univ/Recherche/Labos/CEREDI/index.html
CENTRES DE RECHERCHE.
ATILF
(Analyse et traitement informatique de la langue française)
Le laboratoire ATILF (Analyse et Traitement Informatique
de la Langue Française) est né du rapprochement de l'Institut
National de la Langue Française (INALF-CNRS) et de LANDISCO
(Langues Discours Cognition-Université Nancy 2).
Ses travaux portent sur :
- les études synchroniques du lexique (Moyen français et
français préclassique, français contemporain, usages et
marges, régionalismes, lexiques multilingues et études contrastives),
- les études diachroniques du lexique (étymologie et histoire
du lexique, matériaux pour l’histoire du vocabulaire du
français),
- les études des usages, modèles et traitements informatiques
des données lexicales.
Ce dernier axe intègre les bases de données textuelles (Frantext),
les lexiques et dictionnaires informatisés (Encyclopédie
de Diderot et d'Alembert en collaboration avec l'ARTFL,
Trésor
de la Langue Française informatisé, Dictionnaires
de l'Académie française, Dictionarium
latinogallicum de Robert Estienne, Thresor
de la langue françoyse, tant ancienne que moderne de
Jean Nicot, Dictionnaire
historique et critique de Pierre Bayle), les interfaces
lexique – grammaire – sémantique et le traitement automatique
des langues (morphologie et construction du lexique).
Le laboratoire développe des outils informatiques :
STELLA, catégoriseur (WinBrill) ...
Le laboratoire ATILF est la plate-forme nationale de ressources
linguistiques soutenue par le CNRS, Département Sciences
de l’Homme et de la Société.
Adresse : http://www.inalf.fr/_ie/atilf.htm
Université
de Nice - Sophia-Antipolis - Institut de linguistique française
(ILF)
Les principaux axes de recherche de l'unité de recherche
" Bases, Corpus et Langage " associée
au CNRS et équipe constitutive de l' ILF, sont les suivants
:
- constitution, structuration et exploitation de bases de
données linguistiques textuelles et lexicales ;
- traitement quantitatif des données : développement et
application des divers outils de la statistique linguistique ;
- étude du changement linguistique, appréhendé dans
ses composantes diachronique, sociolinguistique et géographique ;
- linguistique de l'énonciation et pragmatique des textes
littéraires.
Différents logiciels ont été produits
par le laboratoire : ESTELA (exploitation statistique
des textes latins), HYPERBASE (logiciel hypertextuel et
statistique pour le traitement des grands corpus), THIEF
(exploitation statistique de la base de données FRANTEXT),
MARIAMA (logiciel d'analyse multidimensionnelle).
Parmi les productions majeures, les bases exploitées
statistiquement par le Professeur Etienne Brunet :
Recherche
hypertextuelle dans La Comédie humaine de Balzac
et Rabelais
et son temps (avec Marie-Luce Demonet, laboratoire EQUIL
XVI, Université Clermont II).
Adresse : http://134.59.31.3/
Université
de Paris III (Sorbonne nouvelle) : Lettres modernes et outils
informatiques
L'équipe Hubert de Phalèse, fondée en 1989 par Henri
Béhar, Michel Bernard, Jean-Pierre Goldenstein, Pascal Mougin,
et Patrick Rebollar, a pour mission de développer les études
littéraires assistées par ordinateur et de diffuser ces
nouveaux savoirs.
L'équipe est l'auteur collectif de la collection Cap'Agreg,
publiée à Paris chez Nizet, dont certains compléments
figurent sur le site.
Le site publié électroniquement les uvres
complètes de Lautréamont Ducasse avec
des documents complémentaires (bibliographie, variantes,
etc.).
Le site donne accès aux Journées
d'agrégation en ligne (JAL). Les sept universités
du réseau JAL sont reliées par visioconférence, ce qui permet
aux spécialistes d'intervenir depuis n'importe quel point
du réseau, mais aussi aux étudiants de poser des questions
en direct aux intervenants. Il est possible d'assister à
ces journées dans les universités du réseau, mais aussi
en ligne, en se connectant à l'Internet, où les journées
seront diffusées en direct en RealVideo©. Ces enregistrements
sont archivés, ce qui permet de les voir ou de les revoir
à tout moment. On trouve aussi sur le site les textes des
communications et des bibliographies.
Sur le site, également la Banque
de Données d'Histoire Littéraire (BDHL) en version allégée.
Adresse : http://www.cavi.univ-paris3.fr/phalese/hubert1.htm
Université
de Paris III (Sorbonne nouvelle) - ILPGA - Outils de
statistique textuelle
Présentation du logiciel Lexico 3 (manuel,
rapports d'analyse) réalisé par Cédric Lammalle,
William Martinez, André Salem. Le logiciel
et le manuel d'utilisation peuvent être téléchargés
sur le site. La troisième version de Lexico (Lexico
1 a été réalisé par André
Salem en 1995) propose des outils d'exploration textuelle
(segmentation du texte, index, concordances, segments répétés),
des outils d'analyse statistique (calcul des spécificités,
analyse factorielle des correspondances), des outils de
navigation lexicométrique recherche des segments
répétés). Le manuel comprend un glossaire
et une bibliographie.
Adresse : http://www.cavi.univ-paris3.fr/ilpga/ilpga/tal/lexicoWWW/team.htm
Université
Paris 7 - Laboratoire d'Automatique documentaire et linguistique
(LADL)
Le LADL associée au CNRS en tant qu'équipe du Laboraroire
d'Informatique Linguistique de l'Université de Villetaneuse
- Paris XIII.
Le LADL a pour mission la construction d'outils de base
pour le traitement automatique des textes. Les outils construits
sont de deux types principaux :
- linguistiques (dictionnaires et lexiques, grammaires),
- informatiques : algorithmes d'application des données
linguistiques aux textes (documentation automatique par
traitement de textes libres, aides à la traduction).
Le LADL entretient d'étroites relations de recherches avec
le Centre d'Etudes et de Recherche en Informatique Linguistique
(CERIL), laboratoire de l'Institut Gaspard-Monge (Université
Marne-La-Vallée).
Le LADL est le noeud central du réseau RELEX de laboratoires
européens qui construisent des bases de données selon les
mêmes normes et peuvent en conséquence échanger des logiciels
de constitution de bases de données et d'applications à
des textes. Les langues principales concernées sont l'allemand,
l'anglais, l'espagnol, le grec, l'italien, le coréen, et
le portugais.
Adresse : http://ladl.univ-mlv.fr/French/
Université
de Franche-Comté - Grelis (Groupe de Recherche en
Linguistique Informatique et Sémiotique)
Le GRELIS a constitué, sous la direction de
Jean-Marie Viprey, une équipe de recherche (composée
de littéraires, de linguistes statisticiens et de
linguistes informaticiens), dont les objectifs sont de construire
ou d'utiliser les outils d'étiquetage automatiques
existants et de les améliorer afin de mettre en uvre
des dispositifs nécessaires au traitement des grandes
bases de données textuelles.
Le GRELIS fait partie du réseau des chercheurs qui
utilisent INTEX comme outil de recherche et d'enseignement.
INTEX est un environnement de développement utilisé
pour construire des descriptions formalisées des
langues naturelles et les appliquer à des textes
de taille importante en temps réel. Les descriptions
de langues naturelles sont formalisées sous la forme
de dictionnaires électroniques, de grammaires représentées
par des graphes à état fini, de lexiques-grammaires.
INTEX fournit des outils pour décrire la morphologie
flexionnelle et dérivationnelle, la variation orthographique
et terminologique, le vocabulaire (mots simples, mots composés,
expressions figées), les phénomènes
semi-figés à la limite entre lexique et suntaxe
(grammaires locales, description des accords) et la syntaxe
(grammaire syntagmatique). INTEX est également utilisé
comme traitement de corpus. Les opérations typiques
sur les tecxtes incluenet l'indexation de motifs morpho-syntaxiques,
d'expressions figées ou semi-figées, de concordances
lemmatisées et l'étude statistique des résultats.
LE GRELIS développe des outilks qui pourraient être
intégrés à INTEX (DIALAG) et participent
aux journées qui permettent aux chercheurs utilisant
l'environnement INTEX de confronter leurs racherches et
leurs résultats. Katia Zellagui a décrit,
aux rencontres de 2001, une application à l'étude
d'Aurélien : de
l'analyse traditionnelle à l'analyse informatique
des textes littéraires.
Adresse : http://grelis.univ-fcomte.fr/
Texto
Site
de sémantique des textes publié avec le concours de l'Institut
Ferdinand de Saussure, Texto publie de nombreux textes de
chercheurs et par exemple, en intégralité,
la thèse soutenue par Évelyne Bourion en 2001
: " L'aide
à l'interprétation des textes électroniques " :
cette étude propose une méthode de recherche thématique
dans un vaste corpus multi-auteurs (Frantext) et dans un
genre littéraire homogène (le roman).
" Lire autrement le Le Père Goriot "
montre, à travers l'exemple du Père Goriot,
les résultats de recherche effectuées avec
le Système d'Aide à l'Analyse Sémantique (SAAS), mis au
point à l'Institut National de la Langue Française par Évelyne
Bourion et l'informaticien J. Maucourt pour l'étude du corpus
Roman XIXe-XXe siècles de Frantext. Ces programmes
ne figurent pas dans l'actuel moteur de recherche de cette
base textuelle.
Adresse : http://www.msh-paris.fr/texto/
ARTICLES
EN LIGNE.
" Encyclopédie
de la recherche littéraire assistée par ordinateur
"
L'Université d'Ottawa propose
une sélection organisée par thèmes
: analyse de textes par ordinateur, analyse thématique,
banques de données, hypertexte, logiciels, etc.
Adresse : http://www.uottawa.ca/academic/arts/astrolabe/imc.htm
Lexicometrica
La revue LEXICOMETRICA s'adresse aux chercheurs,
aux étudiants, aux professionnels de la communication et
de la fouille de données textuelles... intéressés par les
travaux théoriques et pratiques menés dans les domaines
suivants : Lexicométrie / statistique textuelle, linguistiques
de corpus, extraction d'informations à partir de corpus
de texte, acquisition de connaissances...
Elle est publiée sur Internet et rassemble des articles
de recherche ou des comptes-rendus d'expériences. Assisté
d'un réseau de correspondants, son comité de rédaction sélectionne
les articles à paraître. Un sommaire à double entrée permet
d'accéder aux articles à la fois par date de parution (Parcours
Chronologique) et par thème (Parcours Thématique).
La revue met en ligne les communications des "Journées
d'analyse textuelle" (JADT) qui réunissent tous
les ans des chercheurs du monde entier : les actes des JADT
2002 sont disponibles.
Adresse : http://www.cavi.univ-paris3.fr/lexicometrica/index.htm
Marges
linguistiques
La revue " Marges Linguistiques " (ML)
s'adresse prioritairement à l'ensemble des chercheurs et
praticiens concernés par les questions s'inscrivant dans
le vaste champ des sciences du langage.
Publiée uniquement sur Internet, Marges linguistiques -
revue électronique semestrielle entièrement gratuite - entend
rassembler, autour de thèmes spécifiques faisant chacun
l'objet d'un numéro particulier, des articles scientifiques
sélectionnés selon de stricts critères universitaires.
ML souhaite allier, dans un esprit de synthèse et de clarté,
d'une part les domaines traditionnels de la linguistique:
syntaxe, phonologie, sémantique ; d'autre part les
champs plus éclatés de la pragmatique linguistique, de l'analyse
conversationnelle, de l'analyse des interactions verbales
et plus largement, des modalités de la communication sociale;
enfin les préoccupations les plus actuelles des sociolinguistes,
psycholinguistes, ethnolinguistes, sémioticiens, pragmaticiens
et philosophes du langage.
Lieu d'échange et de dialogue entre universitaires, enseignants
et étudiants, ML publie en priorité des articles en langue
française tout en encourageant les chercheurs qui diffusent
leurs travaux dans d'autres langues à participer à une dynamique
qui vise à renforcer les liens entre des univers scientifiques
divers et à mettre en relation des préoccupations linguistiques
variées et trop souvent séparées.
Au delà de cette première mission, ML offre sur Internet
une information détaillée et actualisée sur les colloques
et manifestations en sciences du langage, un ensemble de
liens avec les principaux sites universitaires et avec de
nombreux laboratoires et centres de recherche, notamment
dans la communauté francophone. A noter enfin qu'un espace
" thèses en ligne ", mis à disposition des chercheurs et
des étudiants, permet à la fois d'archiver, de classer mais
aussi de consulter et de télécharger, les travaux universitaires
les plus récents en sciences du langage que des particuliers
souhaitent livrer au domaine public.
Le site est fermé mais les archives de Marges linguistiques sont maintenant hébergées par "Texto!", rubrique "Archives et secrets".
Le site "Le Net des Lettres" vient de mettre en ligne, avec l'accord du créateur-directeur de ML et du responsable de Texto!, les sommaires des 11 numéros parus et les liens sur les pdf téléchargeables dans Texto!.
Le
Net des Etudes françaises
La bibliothèque de Lisieux
a organisé, en mai 2002, le deuxième colloque
: " Les études françaises valorisées
par les nouvelles technologies d'information et de communication
" dont les communications sont en ligne. Le premier
colloque avait permis la création d'une base de données
interrogeable en ligne à Toronto de tous les textes
publiés sur le site de la bibliothèque électronique
de Lisieux (LexoTor), l'ouverture d'un vaste site "
Le
Net des Etudes françaises " (bases textuelles,
entretiens, outils d'analyse, galerie,...) et de son miroir
à l'École Normale Supérieure. Il offre
des liens notamment sur une base recensant le théâtre
en ligne (1600-1800).
Adresse : http://www.etudes-francaises.net/