TSC973-973电话语料库

资源名称(中、英文)
TSC973-973电话语料库
TSC973-Telephone Speech Corpus 973

资源简介
TSC973电话语料库是国家973计划支持项目,由中国科学院自动化研究所(承担语音数据采集工作)和中国社会科学院语言研究所(承担文本转写和语音学标注工作)合作完成。

TSC973由真实环境下收集的酒店订房电话(对话)语音数据、文字转写和多层语音学标注组成。共有10个对话单元(分为93个声音文件),规模约120MB。语音信息采用电话录音通道采集,以8000赫兹,16位,单声道WAV格式存储,文字内容和语音学标注完全由人工手工完成,准确度高。标注信息丰富,共有7层,包括音节、声韵母、副语言学、发音人信息、句式、韵律单元、重音等内容(部分噪音较大的声音未作标注,实际标注文件共83个)。

TSC973主要针对口语(音段、韵律等)研究、语音(识别)工程等领域,尤其适合电话通讯领域的语音学研究。

*  本数据库已经在中文语言资源联盟(http://www.chineseldc.org/)发布,希望购买使用的用户可以与中文语言资源联盟联系。