口语转写软件Partitur-Editor简明操作指南
范俊军
中国,广州,暨南大学汉语方言研究中心
Email:tfanjunjun@126
Tel: 86-020-********
目录
第一节基本功能简介 (2)
一、基本概念 (2)
二、主界面窗口 (3)
三、主菜单命令 (4)
四、偏好设置 (9)
第二节操作实例 (10)
0. 几种常用快捷键 (10)
1. 新建一个转写文件 (10)
2. 快速切割媒体流 (11)
3. 导入外部文本并与媒体对齐 (12)
4. 转写文本的版式编排 (12)
5. 创建事件切割段的音视频剪辑片 (13)
6. 调用praat查看语图 (13)
Partitur-Editor(曲谱式编辑器)1是德语口语语料库工具套件EXMARaLDA的一个独立组件,用于口语的转写和标注。由德国的德国语言研究院托马斯•施密特(Thomas Schmidt)等人研发,目前最新版本是Partitur-Editor1.5.2。Partitur支持音频和视频的转写标注,能生成多种数据模式的xml文件,与PRAAT, ELAN, FOLK, ANVIL, Transcriber, Audacity等软件实现数据互操作。Partitur有简化版FOLKER。
EXMARaLDA工具组件、使用教程、演示语料库和相关技术文件标准,可登录网站/下载。登录网站agd.ids-mannheim.de/folker.shtml,注册以后可以下载FOLKER软件。
Partitur需要Java环境运行。初次运行程序时,系统将检查是否安装Java,如果没有,则提示用户并自动链接到Java网站下载程序。用户也可以直接登陆java/zh_CN/download/installed.jsp 网站下载。
Partitur可调用praat显示语图。启用此功能,必须先将和两个文件放在Partitur程序的同一文件夹目录下。
第一节基本功能简介
一、基本概念
1.时间轴(timeline)。也叫时间线,是一个有序的线性时刻点的集合。时间轴显示相对应的音频或视频的时刻读数。在波形浏览器中,同时显示同步的时间轴,通过时间轴上的时刻点,可以对媒体流中的任何片断进行精确定位搜索。
2.事件(event)。事件是基本的转写单位。转写文本中,每一个在时间轴上有对应时段的文本格,记录
一个事件(下文称这种文本格为“事件格”)。无任何转写内容的事件格是“空事件格”。事件可以是各种话语现象和对话语现象的分析和描述。
3.层(tier)。也叫轨。Partitur-Editor也采用曲谱式层结构组织数据。层是一系列有共同属性的事件集合,每个层必须指派一位说话人。
4.范畴和类型(category and type)。范畴是对事件内容的概括分类,主要指基于学科分析和研究得出的分类。如,句子”“非言语声音”“意译”“语调”等等。
类型是对转写和标注层预先定义的分类。Partitur规定了3种类型:(1)转写类型,用t表示。这个类型的层,用于转写言语。每位说话人只能指派1个转写类型的层,一个转写类型的层只能指派1位说话人。(2)描写类型,用d表示。这种类型的层,用来描述非言语现象。一位说话人可以有多个描写类型的层。例如,要分别描述说话人的面部表情、手势、体态,就可以建立3个层。这种类型的层,也可能没有说话人,如,背景噪声。(3)标注类型,用a表示。这种类型的层,用来记录对转写层事件的分析结果。例如,对转写层的事件进行翻译、解释、注音、词类标记,等等。一个转写层允许对应多个标注层。标注层的每个事件,在转写层中都有对应的事件,不允许在转写层中无对应事件的标注层事件。
5.段链(segment chains)。段链,也叫切割段链。它指转写层中一系列连续的事件,也就是时间轴上的一些列连续的切割段。由于段链记录的是语言,因此可以将段链的口语文本输出各种版式的文本,例
如,像话剧剧本那样的格式。
1Partitur-editor德文意思是曲谱编辑器。EXMARalDA是Extensible MARkup Language for Discourse Annotation的缩写。FOLK 是德语Forschungs- und Lehrkorpus的缩写,意思是面向研究和教学的德语口语语料库。
二、主界面窗口
运行程序,打开转写文件。Partitur-Editor主界面窗口如下图所示:
界面布局:
1主菜单;2工具栏;3文本输入框;4.音频流定位;5显示指针位置/选段时长;6波形缩放;7音频时间轴;8波形浏览器;9播放控制按钮;10话语事件转写格;11转写层;12层名。
editor bar试比较FOLKER的界面布局:
FOLKER主界面略有不同:10常用的标记符号;11转写本显示版式模式;15转写查错结果显示;16常见的切割和转写操作按钮。
三、主菜单命令
表1                      File、Edit菜单
表2                      view(查看)菜单
说明:
1.结构错误(structure errors)
(1)时间标示异常(temporal anomaly):切割段的起点时刻和结束时刻或且分段时长数据没有显示或计算出错。
(2)多个转写层同一说话人(More than one transcription tiers for one speaker):一个层原则上只能使用1个说话人标签。
(3)孤立的转写(Orphaned transcription tier):转写层没有指派说话人。
(4)孤立的标注(Orphaned annotation tier):标注层没有关联的转写层。
(5)标注匹配错误(Annotation mismatch):标注层的事件始末时刻点与相关联的转写事件的始末时刻点不一致。即:转写层的1个事件格,在对应的标注层中却有几个事件格;或者转写层的几个事件格,在对应的标注层中只有1个事件格。
2.切割错误(segmentation errors)
系统自动检查切割错误,并按以下格式列表:层序号(tier)、时间轴切割段序号(TIL)、错误原因(error)、处理结果(processed output)。改错方法如下:
在错误列表中选中1条错误,单击go to 按钮,系统自动定位到出错的音频段和转写事件格;修改错误,回车确认。单击刷新按钮,再选择其他错误进行修改。
如果存在切割错误,本组其他3个命令的操作将无效。单击其他3个命令时,系统将