简介 | 汉语口语语篇库 Discourse-CASS

Discourse-CASS是目前规模最大的具有深度标注的口语语篇库。为什么称为深度标注?首先是标注的层级多,多达18层;另外是标注的内容“深”,包括了口语语篇的多层级表示和标注体系的大部分层级信息(见李爱军,《汉语口语语篇库: 建构与标注》,社科出版社):音段和韵律标注、言语行为标注、修辞关系和依存关系标注、应答关系标注、情感态度标注等。

Discourse-CASS分为几个子库,先后得科技部国家重点研发计划-政府间国际科技创新合作重点专项-中欧政府间合作项目(2017YFE0111900)、973项目以及科技部重点研发项目(2013CB329301)、国家高技术研究发展计划863项目(2001AA114012)、国家社科基金重点项目(01AYY002)支持。

标注内容包含18层信息,如图所示,第1层为发音人信息描述层(发音人年龄、口音、与对话人之前的关系等);第2层为句子编号(以话轮为基础进行标记,方便提取句子进行自动语音切分处理);第3层为话轮;第4层为汉字;第5层为句子;第6层为单字;第7层为拼音;第8层为声韵母;第9层为韵律边界;第10层为韵律重音;第11层为副语言现象;第12层为音质;第13层为语用基础标注集;第14层为言外意;第15层为主题;第16层为邻接对;第17层为口语现象;第18层为情感。

tup1具有深度标注的网聊自然口语对话标注示例