ISLRN

Chinese Kids Speech database (Upper Grade)

Full Official Name: Chinese Kids Speech database (Upper Grade)

Submission date: July 22, 2025, 5:17 p.m.

The Chinese Kids Speech database (Upper Grade) contains the total recordings of 161 Chinese Kids speakers (71 males and 90 females), from 10 to 12 years’ old recorded in quiet rooms using smartphone. This database may be combined with the Chinese Kids Speech database (Lower Grade) also available in the ELRA Catalogue under reference ELRA-S0495. Number of speakers, utterances and duration, age are as follows : Number of speakers (Male/Female): 161 (71/90) Number of utterances (average): 234 utt/spkr Total number of utterances: 37,806 Age: from 10 to 12 Total number of hours: 72 1,859 sentences were used. Recordings were made through smartphones and audio data stored in .wav files as sequences of 16KHz Mono, 16 bits, Linear PCM. Database ・Audio data: WAV format, 16KHz, 16bit, mono (recorded with smartphone) ・Transcription data: TSV format(tab-delimited), UTF-8 (without BOM), Line ending: LF ・Size: 7.8GB Age Male Female Total 10 14 23 37 11 22 33 55 12 35 34 69 Structure of database : ├─ readme.txt ├─ Chinese Kids Speech Database (Upper grade).pdf Description document of the database ├─ transcription(Upper).tsv Transcription └─ High/ directory of audio data └─ (1st/2nd/3rd) directory of version ID └─(0/1) directory of gender (0: male, 1: female) └─(audio_file) audio file (WAV format, 16KHz, 16bit, mono) Field information of “transcription(Upper).tsv” are as follows: Field number Description 0 Script ID 1 Speaker ID 2 Audio file name 3 Transcription (in Chinese) File naming conventions of audio files are as follows: Field number Contents Description Remarks 0 Script ID Four digits XXXX: four digits 1 Speaker ID Three digits XXX: three digits 2 Age Two digits From 10 to 12 3 Gender 0: male, 1: female 4 Utterance No. Three digits Sequential numbering starting from 001 within each speaker 5 Recording date YYYYMMDDHHMM 6 Recording device name Recording device name Ex. NTH-AN00 7 OS Operating System info of recording device Ex. android-11 8 Duration duration in msec Duration of the actual spoken utterance Filed separation character is “_”. For example, if the audio file name is “1190_190_11_0_001_202204291812_V2162A_android-11_3290.wav“, this file has the following meaning: 1190: script ID 190: speaker ID 11: age (eleven years old) 0: gender (male) 001: utterance number 202204291812: recording date (April 29, 2022, at 6:12 PM) V2162A: recording device name android-11: operating system info of recording device 3290: duration of the actual spoken utterance (3,290 msec)

Creator(s)

Distributor(s)