（4）：遞歸下降 · 手把手教你做一個 C 語言編譯器

# 手把手教你做一個 C 語言編譯器（4）：遞歸下降本章我們將講解遞歸下降的方法，并用它完成一個基本的四則運算的語法分析器。 **本系列：** 1. [手把手教你做一個 C 語言編譯器（0）：前言](http://blog.jobbole.com/97332/) 2. [手把手教你做一個 C 語言編譯器（1）：設計](http://blog.jobbole.com/97350/) 3. [手把手教你做一個 C 語言編譯器（2）：虛擬機](http://blog.jobbole.com/97359/) 4. [手把手教你做一個 C 語言編譯器（3）：詞法分析器](http://blog.jobbole.com/97375/) ## 什么是遞歸下降傳統上，編寫語法分析器有兩種方法，一種是自頂向下，一種是自底自上。自頂向下是從起始非終結符開始，不斷地對非終結符進行分解，直到匹配輸入的終結符；自底向上是不斷地將終結符進行合并，直到合并成起始的非終結符。其中的自頂向下方法就是我們所說的遞歸下降。 ## 終結符與非終結符沒有學過編譯原理的話可能并不知道什么是“終結符”，“非終結符”。這里我簡單介紹一下。首先是 [BNF](https://zh.wikipedia.org/wiki/%E5%B7%B4%E7%A7%91%E6%96%AF%E8%8C%83%E5%BC%8F) 范式，就是一種用來描述語法的語言，例如，四則運算的規則可以表示如下： ``` <expr> ::= <expr> + <term> | <expr> - <term> | <term> <term> ::= <term> * <factor> | <term> / <factor> | <factor> <factor> ::= ( <expr> ) | Num ``` 用尖括號 `<>` 括起來的就稱作 **非終結符** ，因為它們可以用 `::=` 右側的式子代替。`|` 表示選擇，如 `<expr>` 可以是 `<expr> + <term>`、`<expr> - <term>`或 `<term>` 中的一種。而沒有出現在`::=`左邊的就稱作 **終結符** ，一般終結符對應于詞法分析器輸出的標記。 ## 四則運算的遞歸下降例如，我們對 `3 * (4 + 2)` 進行語法分析。我們假設詞法分析器已經正確地將其中的數字識別成了標記 `Num`。遞歸下降是從起始的非終結符開始（頂），本例中是 `<expr>`，實際中可以自己指定，不指定的話一般認為是第一個出現的非終結符。 ``` 1\. <expr> => <expr> 2\. => <term> * <factor> 3\. => <factor> | 4\. => Num (3) | 5\. => ( <expr> ) 6\. => <expr> + <term> 7\. => <term> | 8\. => <factor> | 9\. => Num (4) | 10\. => <factor> 11\. => Num (2) ``` 可以看到，整個解析的過程是在不斷對非終結符進行替換（向下），直到遇見了終結符（底）。而我們可以從解析的過程中看出，一些非終結符如`<expr>`被遞歸地使用了。 ## 為什么選擇遞歸下降從上小節對四則運算的遞歸下降解析可以看出，整個解析的過程和語法的 BNF 表示是二分接近的，更為重要的是，我們可以很容易地直接將 BNF 表示轉換成實際的代碼。方法是為每個產生式（即 `非終結符 ::= ...`）生成一個同名的函數。這里會有一個疑問，就是上例中，當一個終結符有多個選擇時，如何確定具體選擇哪一個？如為什么用 `<expr> ::= <term> * <factor>` 而不是 `<expr> ::= <term> / <factor>` ？這就用到了上一章中提到的“向前看 k 個標記”的概念了。我們向前看一個標記，發現是 `*`，而這個標記足夠讓我們確定用哪個表達式了。另外，遞歸下下降方法對 BNF 方法本身有一定的要求，否則會有一些問題，如經典的“左遞歸”問題。 ## 左遞歸原則上我們是不講這么深入，但我們上面的四則運算的文法就是左遞歸的，而左遞歸的語法是沒法直接使用遞歸下降的方法實現的。因此我們要消除左遞歸，消除后的文法如下： ``` <expr> ::= <term> <expr_tail> <expr_tail> ::= + <term> <expr_tail> | - <term> <expr_tail> | <empty> <term> ::= <factor> <term_tail> <term_tail> ::= * <factor> <term_tail> | / <factor> <term_tail> | <empty> <factor> ::= ( <expr> ) | Num ``` 消除左遞歸的相關方法，這里不再多說，請自行查閱相關的資料。 ## 四則運算的實現本節中我們專注語法分析器部分的實現，具體實現很容易，我們直接貼上代碼，就是上述的消除左遞歸后的文法直接轉換而來的： ``` int expr(); int factor() { int value = 0; if (token == '(') { match('('); value = expr(); match(')'); } else { value = token_val; match(Num); } return value; } int term_tail(int lvalue) { if (token == '*') { match('*'); int value = lvalue * factor(); return term_tail(value); } else if (token == '/') { match('/'); int value = lvalue / factor(); return term_tail(value); } else { return lvalue; } } int term() { int lvalue = factor(); return term_tail(lvalue); } int expr_tail(int lvalue) { if (token == '+') { match('+'); int value = lvalue + term(); return expr_tail(value); } else if (token == '-') { match('-'); int value = lvalue - term(); return expr_tail(value); } else { return lvalue; } } int expr() { int lvalue = term(); return expr_tail(lvalue); } ``` 可以看到，有了BNF方法后，采用遞歸向下的方法來實現編譯器是很直觀的。我們把詞法分析器的代碼一并貼上： ``` #include <stdio.h> #include <stdlib.h> enum {Num}; int token; int token_val; char *line = NULL; char *src = NULL; void next() { // skip white space while (*src == ' ' || *src == '\t') { src ++; } token = *src++; if (token >= '0' && token <= '9' ) { token_val = token - '0'; token = Num; while (*src >= '0' && *src <= '9') { token_val = token_val*10 + *src - '0'; src ++; } return; } } void match(int tk) { if (token != tk) { printf("expected token: %d(%c), got: %d(%c)\n", tk, tk, token, token); exit(-1); } next(); } ``` 最后是`main`函數： ``` int main(int argc, char *argv[]) { size_t linecap = 0; ssize_t linelen; while ((linelen = getline(&line, &linecap, stdin)) > 0) { src = line; next(); printf("%d\n", expr()); } return 0; } ``` ## 小結本章中我們介紹了遞歸下降的方法，并用它來實現了四則運算的語法分析器。花這么大精力講解遞歸下降方法，是因為幾乎所有手工編寫的語法分析器都或多或少地有它的影子。換句話說，掌握了遞歸下降的方法，就可以應付大多數的語法分析器編寫。同時我們也用實例看到了理論（BNF 語法，左遞歸的消除）是如何幫助我們的工程實現的。盡管理論不是必需的，但如果能掌握它，對于提高我們的水平還是很有幫助的。