11.2 生物信息學 · 程序設計思想與方法

## 11.2 生物信息學計算生物學（computational biology）研究如何用計算機來解決生物學問題，主要研究內容包括對生物系統的數學建模、對生物數據的分析、模擬等。本節介紹計算生物學的一個分支——生物信息學①。生物信息學（bioinformatics）主要研究生物信息的存儲、獲取和分析，這里所說的生物信息主要是指基因組信息。近年來，通過龐大的項目合作，生物學家對人類基因組和其他生物的基因組進行測序，獲得了大量的數據。針對以指數方式增長的數據，生物信息學應用算法、數據庫、機器學習等技術，來解決 DNA 和蛋白質序列的分析、序列分類、基因在序列中的定位、不同序列的比對、蛋白質結構及功能的預測和新藥物新療法的發現等問題。生物信息學已成為處于生命科學和計算機科學前沿的一門有戰略意義的學科，對醫學、生物技術以及社會的許多領域都有重要影響。生物信息的表示為了利用計算機來處理生物信息，首先要將生物信息表示成計算機中的數據。例如，聽上去很復雜的 DNA 和蛋白質的鏈狀分子，出乎意料地很容易表示——用符號序列即可。 DNA 是由 4 種單體，即以 A（腺嘌呤）、C（胞嘧啶）、G（鳥嘌呤）、T（胸腺嘧啶）代表的 4 中核苷酸聚合成的生物大分子。蛋白質是另一類由 20 種單體，即以 A、C、D、W 等表示的 20 種氨基酸聚合成的大分子。在鏈狀分子的特定位置上，只能出現某種確定的單體（“字符”），而不是幾種可能字符的組合，因此分子鏈可以用一維的、不分岔的。有方向的字符序列來表示。例如，DNA 分子可表示成如“AGTGATG”一樣的字符序列。測定 DNA 和蛋白質鏈狀分子的字符序列是從微觀結構研究生物的出發點。除了序列數據，生物信息還包括結構和功能數據、基因表達數據、生化反應通路數據、表現型和臨床數據等。生物信息數據庫數據庫技術是管理大量數據的計算機技術，目的是使用戶能夠方便、高效地訪問大量數據。過去數十年間，隨著人類基因組測序工程和其他生物測序項目的完成或推進，以及諸如 DNA 微陣列等高效實驗技術的出現，產生并積累了大量的生物信息（如前面所說的核苷酸序列和氨基酸序列），因此需要利用數據庫技術將這些信息組織、存儲起來。有了生物信息數據庫，生物學家們通過易用的 GUI 來訪問數據庫，既可以讀取數據，也可以添加新數據或者修訂老數據。當然，更重要的工作是利用各種算法來處理數據庫中的生物數據。生物學未來的新發現很可能是通過分析數據庫中的生物數據獲得的，而非僅僅依賴于傳統的實驗。 > ① 也有說生物信息學和計算生物學是一回事的。互聯網上有很多生物數據庫，例如 EMBL（核苷酸序列數據庫）、GenBank（基因序列數據庫）、PDB（蛋白質數據庫）等等。生物數據分析建立了生物信息數據庫之后，生物學家接下來的研究重點就轉向了數據分析。龐大的生物信息數據庫對數據分析技術提出了具有挑戰性的問題，人工分析 DNA 序列早已成為不可能完成的任務，傳統的計算機算法也越來越顯示出不足，這促使生物信息學去尋求新的算法來解決問題。序列分析是生物信息學的主要研究內容。例如，通過分析數據庫中的成千上萬種有機體的 DNA 序列，可以識別特定序列的結構和功能、特定序列在不同物種之間的不同形式、相同物種內部特定序列的不同形式。又如，通過對一組序列進行比較，可以發現功能之間的相似性或者物種之間的聯系。還可以在一個基因組中搜索蛋白質編碼基因、RNA 基因和其他功能序列，可以利用 DNA 序列來識別蛋白質。下面介紹基因組比對的基本思想和方法。當生物學家通過實驗獲得了一個基因序列，他接著就要確定這個基因序列的功能。為此，他以這個基因序列作為輸入，到基因序列數據庫中去搜索與之相似的、已知功能的基因序列，因為生物學家認為基因序列相似意味著功能相似。一種衡量基因序列相似性的方法是基因組比對（genome alignment），該方法將兩個基因序列對齊（如果序列長度不同可以在序列中插入一些空白位置），然后為對齊的每一對（代表核苷酸的）字符打分，所有分數的總和就是兩個序列的相似度。例如，對于兩個基因序列 AGTGATG 和 GTTAG，適當插入空白（用下劃線字符“_”表示）后可以按如下方式對準： ``` A G T G A T G _ G T T A _ G ``` 假如按如下規則打分： | | A | C | G | T | _ | | --- | --- | --- | --- | --- | --- | | A | 5 | -1 | -2 | -1 | -3 | | C | -1 | 5 | -3 | -2 | -4 | | G | -2 | -3 | 5 | -2 | -2 | | T | -1 | -2 | -2 | 5 | -1 | | _ | -3 | -4 | -2 | -1 | | 則該對準方案的得分為 14。當然也可以按別的方式對準，但上面給出的對準方案是得分最高的。這個最優對準方案可以利用動態規劃算法求得。另外，計算機科學中最新的機器學習和數據挖掘技術能夠實現更復雜的數據分析，很自然地成為當今生物信息學所倚重的方法。機器學習和數據挖掘的領域界線并不明顯，它們都是關于從大量數據中發現知識、模式、規則的技術。具體技術包括神經網絡、隱馬爾可夫模型、支持向量機、聚類分析等，這些技術都非常適合生物信息的分析和處理。例如，對大量蛋白質序列進行聚類分析，可以將所有蛋白質序列分組，使得同組的蛋白質序列非常相似，而不同組的蛋白質非常不相似。