4.19 其他問題 · 【譯】Python Lex Yacc手冊

* lexer需要輸入的是一個字符串。好在大多數機器都有足夠的內存，這很少導致性能的問題。這意味著，lexer現在還不能用來處理文件流或者socket流。這主要是受到re模塊的限制。 * lexer支持用Unicode字符描述標記的匹配規則，也支持輸入字串包含Unicode * 如果你想要向`re.compile()`方法提供flag，使用reflags選項：lex.lex(reflags=re.UNICODE) * 由于lexer是全部用Python寫的，性能很大程度上取決于Python的re模塊，即使已經盡可能的高效了。當接收極其大量的輸入文件時表現并不盡人意。如果擔憂性能，你可以升級到最新的Python，或者手工創建分析器，或者用C語言寫lexer并做成擴展模塊。如果你要創建一個手寫的詞法分析器并計劃用在yacc.py中，只需要滿足下面的要求： * 需要提供一個token()方法來返回下一個標記，如果沒有可用的標記了，則返回None。 * token()方法必須返回一個tok對象，具有type和value屬性。如果行號需要跟蹤的話，標記還需要定義lineno屬性。