88milSMS

Full Official Name: 88milSMS. A corpus of authentic text messages in French
Submission date: Oct. 3, 2014, 4:34 p.m.

Une équipe pluridisciplinaire de linguistes et d'informaticiens (Rachel Panckhurst, Catherine Détrie, Cédric Lopez, Claudine Moïse, Mathieu Roche, Bertrand Verine (Praxiling, Lirmm, Lidilem, Tetis, Viseo) a recueilli plus de 88 000 SMS authentiques en français à Montpellier, en 2011. Cette collecte a été effectuée dans le cadre du projet sud4science LR (Sud4science Languedoc Roussillon. Mutation des pratiques scripturales en communication électronique médiée (financement principal : MSH-M)), lui-même faisant partie du projet international sms4science, coordonné par le CENTAL à l'Université catholique de Louvain (UCL) en Belgique. Lors du recueil des SMS, un questionnaire sociolinguistique a également été proposé aux participants. Les SMS du projet sud4science LR ont été ensuite anonymisés de manière semi-automatique (en collaboration avec des étudiants stagiaires et un juriste-CIL, Nicolas Hvoinsky, SAJI, Université Paul-Valéry), puis partiellement transcodés (en français standardisé) et annotés (cf. Panckhurst et al. 2013). A pluridisciplinary team of linguists and computer scientists (Rachel Panckhurst, Catherine Détrie, Cédric Lopez, Claudine Moïse, Mathieu Roche, Bertrand Verine (Praxiling, Lirmm, Lidilem, Tetis, Viseo) collected more than 88,000 French authentic text messages in Montpellier (2011), as part of the sud4science LR project (Sud4science Languedoc Roussillon. Mutation des pratiques scripturales en communication électronique médiée (main financial support: MSH-M)). This project is part of a vast international project entitled sms4science, coordinated by the CENTAL at Université catholique de Louvain (UCL) in Belgium. Participants from the general public, who donated their SMS to science, were also able to fill in a sociolinguistic questionnaire. The text messages from the sud4science LR project were then semi-automatically anonymised (in collaboration with student internships and a legal adviser-CIL, Nicolas Hvoinsky, SAJI, Université Paul-Valéry), before being partially transcoded (into standardised French) and annotated (cf. Panckhurst et al. 2013). To obtain the corpus, please visit the following website: http://88milsms.huma-num.fr/

Creator(s)
Distributor(s)
Right Holder(s)