Application avec R.temis dans RStudio

Ressources

Pas à Pas de l’analyse de réponses à la question ouverte K1 Enquête “Population, Espace de Vie, Environnement”, Ined 1992 avec caractéristiques des répondants : QO_Pee_K1.html
et aussi le Pas à Pas montrant toutes les fonctionnalités de R.temis appliqué sur un autre texte court https://rtemis.hypotheses.org/r-temis-dans-rstudio

Extraire les scripts nécessaires des pages citées plus haut

Fichiers fournis :

Extrait des données de l’enquête : PEE_K1_extract.csv
Lemmatiseur personnalisé construit à partir du lexique associé aux corpus PEE : Pee_dic_lem_extract.csv
Lemmatiseur adapté de Lexique 3 base de données lexicales du français contenant des représentations orthographiques et phonémiques, des lemmes associés ainsi que leur catégorie grammaticale … : Lexique383_simplifié.csv

Etape 1 : Créer son environnement de travail

Créer un répertoire/dossier pour l’analyse sur votre ordinateur. Dans ce dossier, créér un sous-répertoire appelé (par exemple) data pour y placer les données à utiliser.
Créer un projet R dans le dossier de l’analyse [File/New Project …]. Créer un script [File/New File …].
Télécharger les données extraites de l’enquête PEE (textes et métadonnées) (PEE_K1_extract.csv) dans le répertoire data en exécutant le script ci-dessous.

library(readr)
PEE_K1_extract <- read.csv("https://raw.githubusercontent.com/benegarbi/AGD_QO/master/data/PEE_K1_extract.csv", sep=";")

write.csv2(PEE_K1_extract,file="data/PEE_K1_extract.csv")

Visualiser les données à traiter

Etape 2 : Importer les données dans R

Importer ce fichier contenant une variable textuelle et des métadonnées avec le package R.temis.

Importer le fichier : import_corpus.
Créer le tableau lexical (avec mots-outils) :build_dtm.
Repérer le nombre de répondants et le nombre de mots différents cités dans les réponses.
Créer le dictionnaire dictionary puis le visualiser View. Le trier, repérer les mots les plus cités, les lemmes générés par R.
Afficher des concordances avec des mots (au choix) concordances.
Afficher le nuage de mots associés au lexique word_cloud. Faire ce nuage de mots avec et sans les mots-outils. Calculer les éléments qui permettront d’ajouter une légende frequent_terms.

Etape 3 : Repérer des cooccurrences

Chercher des cooccurrences à certains mots (au choix) cooc_terms.
Produire un graphe de mots pour détecter les cooccurrences autour des mots les plus fréquents terms_graph. Que remarquez-vous ?
Faire une analyse factorielle sur le tableau lexical corpus_ca puis explorer les résulats avec l’interface explor. Afficher des concordances concordances.

Etape 4 : Utiliser les métadonnées

Visualiser le tableau des métadonnnées View(meta(corpus)). Compter le nombre de répondants(package questionr) selon 3 métadonnées (au choix).
Faire le bilan lexical pour au moins une métadonnée (au choix)lexical_summary.
Repérer le vocabulaire spécifique pour quelques métadonnées (au choix)specific_terms.
Faire une analyse factorielle sur le tableau croisant les mots du lexique et des caractéristiques des répondants (au choix) corpus_ca. Explorer les résulats explor. Afficher des concordances concordances, des réponses spécifiques extreme_docs.

Etape 5 : Lemmatiser

Il s’agit ici d’affiner peu à peu l’analyse en supprimant des mots et/ou en modifiant la lemmatisation.

Avec un lemmatiseur personnalisé

Créer une la liste de mots à enlever du corpus (prendre ici : “sur”,“que”,“qu”). La supprimer du tableau lexical et du lexique, puis exporter le dictionnaire dictionary.
Ouvrir ce dictionnaire avec un tableur. Corrigez si besoin les formes lemmatisées automatiquement par R.
Récupérer le lemmatiseur “associé à Pee” (Pee_dic_lem_extract.csv) et le copier dans le répertoire data du dossier créé pour l’analyse.

4.Importer ce fichier dans le projet (toujours le répertoire data) : read.csv2. Pour cela, exécuter le scipt ci-dessous :

library(readr)
dic_lem1 <- read.csv2("https://raw.githubusercontent.com/benegarbi/AGD_QO/master/data/Pee_dic_lem_extract.csv", sep=";",row.names=1)

Lemmatiser le tableau lexical à l’aide de ce lemmatiseur combine_terms.
Compter le nombre de mots distincts restants après cette lemmatisation par exemple avec lexical_summary
Excécuter des analyses précédentes avec ce nouveau lexique

Avec Lexique3

Récupérer le lemmatiseur adapté de lexique3 (Lexique383_simplifie.csv) dans le répertoire data de l’analyse en exécutant le script.

lexique3 <- read.csv2("https://raw.githubusercontent.com/benegarbi/AGD_QO/master/data/Lexique383_simplifie.csv", sep=",", fileEncoding="UTF-8")

Garder les mots de catégories grammaticales “utiles” et lemmatiser à nouveau le dictionnaire issu du tableau lexical initial
Relancer quelques analyses au choix….

Etape 6 : Classer les réponses

Faire une classification sur le tableau lexical associé aux réponses avec corpus_ca. Décrire les classe specific_terms puis joindre exporter la variable de classe aux metadonnées..

Etape 7 : Aller plus loin

Travailler sur des sous-corpus
Utiliser le package Rainette pour faire la classification sur le tableau lexical https://juba.github.io/rainette/articles/introduction_usage.html ………….