[TOC]
## 試卷制作應遵循哪些規范
### 文本輸入格式
- [content]、[word] 是用來說明文本的類型的,試卷中必須并且僅能有一個類型的頭。
- [word]標記的試卷中,每行僅能有一個單詞。
- [vocabulary]中羅列每個單詞的音標,多發音的音標必須用“|”隔開。每個音標序列不能大于128字節。
### 英文單詞自定義發音
> 用戶可通過試卷音標標注指定單詞發音,以下是幾個題型的示例,供參考。
- 英文句子題型
[content]
May I help you. Yes please. Does this sweater come in yellow.
[vocabulary]
help/hh eh l p/
- 英文單詞題型
- 示例一:
[word]
kitchen
[vocabulary]
kitchen/'k ih - ch ih n/
- 示例二:
[word]
off
[vocabulary]
off/oo f | ao f/
- 示例三:
[word]
they
there
[vocabulary]
there/dh ar/
> **注**:以上采用的音標均為訊飛音標,詳細請參見 [科大訊飛語音評測試題格式及結果說明](http://www.hmoore.net/iflytek_sdk/ise_protocol/325502) 文檔中評測結果格式 --> 音標對照表。
### 英文分詞分句的規則
- 句子結束的標點符號是“.!?;”,縮寫中的點號不作為句子的結束標記進行句子切分;
- 引擎支持小數的解析,如果點號左右緊接著數字,則該點號為小數點;如果點號左右為非數字字符,則該點號為句子結束標點或者縮寫中的點號。
- 單詞題型中沒有句子的概念,故不會根據句子結束標點進行分句。表示句子結束的標點在單詞首尾將被過濾掉,在單詞間將不做任何處理。
- 分詞符號是“:\x0A,|\ ”、“|”、“\”、“,”、“.”以外的符號將轉換為空格進行分詞。
### 文本規范
- 文本中的標簽必須拼寫正確,而且不能雜含其他多余的字符;中括號“[ ]”為標簽的符號,正文中不能出現中括號,否則解析結果為未定義。圓括號“( )”為標記符號,用于標記連讀、停頓、句末升降調、重讀等信息,括號內除去約定的字符外,不能為其他字符,否則解析結果不正確。
- 一個標簽不能在一個文本中出現兩次;不能在同一文本中出現兩個同一類型的標簽。
- 文本中第一個標簽的前面不要出現任何字符。
- 標簽和正文之間是通過換行來控制位置關系的,這種位置上的相對關系不能被打破。
- 生詞中的音標標簽必須按照文本格式要求標寫,每行是一個單詞對應其相應的音標,音標序列中不能雜含其他不是(引擎定義的)音標字符或非法字符。
- 引擎不對文本進行語義解析,例如:“-780”(引擎不能解析出這是一個負數)”。
- “ " ”、“ ' ”、“.”、“!”、“?”、“ ”、“:”、“;”、“-”、“|”、“\x0A”、“\t”以及數字、字母之外的字符將被過濾掉。全角的標點將被轉換為半角,全角字符或者非法字符不能超過全文字符的10%。
- 英文文本中,除了 . (如:p.m),- (如:80-year-old),' (如:I'm) 這三個字符外,其余字符均會判定為非法字符。
- 文本內容不區分大小寫。
## 試卷制作中常見錯誤及修改方法
> 文本中的標點符號不能省略,否則會認為是非法格式。
> 常見錯誤碼:28682(試卷內容有誤),28693(試卷格式有誤),28694(存在未登錄詞)
- 28682錯誤碼:試卷內容不正確。常見的幾種錯誤:如出現了大量的全角字符,中文,圓括號中的標記符合規范、編碼錯誤(將試卷保存為ANSI編碼格式)等,可仔細檢查試卷內容,進行刪改。
- 28693錯誤碼:試卷格式有誤。可參照 [科大訊飛語音評測試題格式及結果說明](http://www.hmoore.net/iflytek_sdk/ise_protocol/325501) 中的試題格式進行修改。
- 28694錯誤碼:存在未登錄詞。表明有引擎無法處理的文本,請參照**文本規范**檢查文本內容。