Resource: 88milSMS

Reference 88milSMS. A corpus of authentic text messages in French
Date of Submission Oct. 3, 2014, 4:34 p.m.
Status accepted
ISLRN 024-713-187-947-8
Resource Type corpus
Media Type Text
Source
Language French
Format/MIME Type .ods
Size 5 Mo
Access Medium Web
Description

Une équipe pluridisciplinaire de linguistes et d'informaticiens (Rachel Panckhurst, Catherine Détrie, Cédric Lopez, Claudine Moïse, Mathieu Roche, Bertrand Verine (Praxiling, Lirmm, Lidilem, Tetis, Viseo) a recueilli plus de 88 000 SMS authentiques en français à Montpellier, en 2011. Cette collecte a été effectuée dans le cadre du projet sud4science LR (Sud4science Languedoc Roussillon. Mutation des pratiques scripturales en communication électronique médiée (financement principal : MSH-M)), lui-même faisant partie du projet international sms4science, coordonné par le CENTAL à l'Université catholique de Louvain (UCL) en Belgique. Lors du recueil des SMS, un questionnaire sociolinguistique a également été proposé aux participants. Les SMS du projet sud4science LR ont été ensuite anonymisés de manière semi-automatique (en collaboration avec des étudiants stagiaires et un juriste-CIL, Nicolas Hvoinsky, SAJI, Université Paul-Valéry), puis partiellement transcodés (en français standardisé) et annotés (cf. Panckhurst et al. 2013).

A pluridisciplinary team of linguists and computer scientists (Rachel Panckhurst, Catherine Détrie, Cédric Lopez, Claudine Moïse, Mathieu Roche, Bertrand Verine (Praxiling, Lirmm, Lidilem, Tetis, Viseo) collected more than 88,000 French authentic text messages in Montpellier (2011), as part of the sud4science LR project (Sud4science Languedoc Roussillon. Mutation des pratiques scripturales en communication électronique médiée (main financial support: MSH-M)). This project is part of a vast international project entitled sms4science, coordinated by the CENTAL at Université catholique de Louvain (UCL) in Belgium. Participants from the general public, who donated their SMS to science, were also able to fill in a sociolinguistic questionnaire. The text messages from the sud4science LR project were then semi-automatically anonymised (in collaboration with student internships and a legal adviser-CIL, Nicolas Hvoinsky, SAJI, Université Paul-Valéry), before being partially transcoded (into standardised French) and annotated (cf. Panckhurst et al. 2013).

To obtain the corpus, please visit the following website: http://88milsms.huma-num.fr/

Version 1.0
Creator Rachel Panckhurst - Université Paul-Valéry Montpellier , Rachel Panckhurst , Bertrand Verine , Mathieu Roche , Claudine Moïse , Cédric Lopez , Catherine Détrie
Distributor Université Catholique de Louvain , Université Paul-Valéry Montpellier , Centre national de la recherche scientifique
Rights Holder Université Paul-Valéry Montpellier , Centre national de la recherche scientifique