mais aussi :
et si on allait voir ce que dit Wikipedia sur la Science des données
Le concordancier : indispensable tout au long d’une analyse de texte, quel qu’il soit :
Ex : Attributions d’écrits historiques ou littéraires à un auteur, comparaison et évolution du style de différents auteurs, etc.
Ex : Analyse des réponses à une question ouverte, analyse d’entretiens, de discours, etc.
S’appuyer sur des métadonnées sur les textes
Pour faire émerger des thématiques au moyen de méthodes statistiques d’analyses multivariées (Analyses Factorielles, Classifications) sans a priori
Logiciels historiques (Spad, Lexico, Alceste, Hyperbase) aujourd’hui open source écrits à partir de R (tm, R.temis, TXM, Quanteda, IRaMuteQ ou Xplortext ….)
Les méthodes s’appliquent à des corpus qui diffèrent par leur nature mais qui sont transformés en tableaux de même structure : les tableaux lexicaux
Modèle probabiliste permettant de déterminer des champs lexicaux dans un document (apprentissage automatique - traitement automatique du langage naturel (TLN))
Quels sont les textes les plus semblables en ce qui concerne le vocabulaire et la fréquence des formes utilisées ? Quelles sont les formes qui caractérisent chaque texte, par leur présence ou leur absence ? (Lebart & Salem, 1994, p.135)
Ne pas oublier les métadonnées
Les questionner, les contextualiser : disponibilités/droits, sources, limites…
= Etape de l’analyse à ne pas sous-estimer
Diffère selon les types de corpus (questions ouvertes, entretiens, romans, articles, pages Web etc..)
= nettoyer, normaliser, corriger ( encodage, orthographe, abreviations …)
Tableaux dits hyper-creux. Présence/absence de mots dans les textes (Valeur positive ou nulle). L’ordre des mots n’est pas pris en compte (sacs de mots)
Lecture des mots par ordre de fréquence (occurrence), ordre alphabétique.
Réduire la taille du lexique Via l’opération de lemmatisation
= rattacher un ou plusieurs mots à une forme dite racine (Lebart, Salem, 1994)
Convertir :
Opération automatisée avec des dictionnaires et/ou manuelle
Les plans factoriels permettent de visualiser des proximités de mots, des oppositions et ainsi de repérer des champs lexicaux
(Enquête Populations, Espaces de vie, Environnements, Ined 1992)
Deux mots sont d’autant plus proches que leurs contextes d’utilisation se ressemblent et d’autant plus éloignés qu’ils seront rarement utilisés ensemble
Obtenir un classement des unités de textes en fonction de la ressemblance ou de la dissemblance des mots dans ces textes et d’ordonner les textes en cernant les homologies et les oppositions (Rouré, Reinert, 1993)
Méthode Alceste ( Reinert, 1983), aujourd’hui implantée dans le package Rainette (J. Barnier)
Utilisation d’un test statistique pour dire si l’écart entre la fréquence relative d’une forme dans une partition (par modalité) et la fréquence globale calculée sur l’ensemble des réponses est significatif ou non
(Enquête Populations, Espaces de vie, Environnements, Ined 1992)
Les mots ou textes caractéristiques de ces partitions sont restitués selon leur degré de spécificité
Tableau de contingence qui croise les mots du lexique et les modalités des métadonnées.
(Populations, Espaces de vie, Environnements, Ined, 1992)
Le plan factoriel permet d’observer la position réciproque des “mots” et des métadonnées et de faire émerger des champs lexicaux propres à des sous-populations
(Enquête Populations, Espaces de vie, Environnements, Ined 1992)
Liste non exhaustive
Feinerer, Hornik, Meyer Wirtschaftsuniversity de Wien, in Journal of Statistical Software (Mars 2008)
Facilite les étapes essentielles de l’analyse textuelle en s’appuyant au maximum sur les packages existants (tm, FactoMineR, explor, igraph…). R.temis implémente les méthodes suivantes :
Calculs statistiques appliqués à des corpus
Chiffres & Mots : Occurrences & Cooccurrences, …
Calcul de spécificités, profils, …
Visualisations : nuages de mots, graphe de mots, plan factoriels (Analyse des correspondances), dendrogrammes (classifications)
Aides à l’interprétation indispensables : les concordances