## 11.2 生物信息學
計算生物學(computational biology)研究如何用計算機來解決生物學問題,主要研究內 容包括對生物系統的數學建模、對生物數據的分析、模擬等。本節介紹計算生物學的一個分 支——生物信息學①。
生物信息學(bioinformatics)主要研究生物信息的存儲、獲取和分析,這里所說的生物 信息主要是指基因組信息。近年來,通過龐大的項目合作,生物學家對人類基因組和其他生 物的基因組進行測序,獲得了大量的數據。針對以指數方式增長的數據,生物信息學應用算 法、數據庫、機器學習等技術,來解決 DNA 和蛋白質序列的分析、序列分類、基因在序列 中的定位、不同序列的比對、蛋白質結構及功能的預測和新藥物新療法的發現等問題。生物 信息學已成為處于生命科學和計算機科學前沿的一門有戰略意義的學科,對醫學、生物技術 以及社會的許多領域都有重要影響。
生物信息的表示 為了利用計算機來處理生物信息,首先要將生物信息表示成計算機中的數據。例如,聽上去很復雜的 DNA 和蛋白質的鏈狀分子,出乎意料地很容易表示——用符號序列即可。
DNA 是由 4 種單體,即以 A(腺嘌呤)、C(胞嘧啶)、G(鳥嘌呤)、T(胸腺嘧啶)代 表的 4 中核苷酸聚合成的生物大分子。蛋白質是另一類由 20 種單體,即以 A、C、D、W 等 表示的 20 種氨基酸聚合成的大分子。在鏈狀分子的特定位置上,只能出現某種確定的單體(“字符”),而不是幾種可能字符的組合,因此分子鏈可以用一維的、不分岔的。有方向的 字符序列來表示。例如,DNA 分子可表示成如“AGTGATG”一樣的字符序列。
測定 DNA 和蛋白質鏈狀分子的字符序列是從微觀結構研究生物的出發點。 除了序列數據,生物信息還包括結構和功能數據、基因表達數據、生化反應通路數據、表現型和臨床數據等。
生物信息數據庫
數據庫技術是管理大量數據的計算機技術,目的是使用戶能夠方便、高效地訪問大量數據。過去數十年間,隨著人類基因組測序工程和其他生物測序項目的完成或推進,以及諸如 DNA 微陣列等高效實驗技術的出現,產生并積累了大量的生物信息(如前面所說的核苷酸 序列和氨基酸序列),因此需要利用數據庫技術將這些信息組織、存儲起來。有了生物信息 數據庫,生物學家們通過易用的 GUI 來訪問數據庫,既可以讀取數據,也可以添加新數據 或者修訂老數據。當然,更重要的工作是利用各種算法來處理數據庫中的生物數據。生物學 未來的新發現很可能是通過分析數據庫中的生物數據獲得的,而非僅僅依賴于傳統的實驗。
> ① 也有說生物信息學和計算生物學是一回事的。
互聯網上有很多生物數據庫,例如 EMBL(核苷酸序列數據庫)、GenBank(基因序列 數據庫)、PDB(蛋白質數據庫)等等。
生物數據分析
建立了生物信息數據庫之后,生物學家接下來的研究重點就轉向了數據分析。龐大的生 物信息數據庫對數據分析技術提出了具有挑戰性的問題,人工分析 DNA 序列早已成為不可 能完成的任務,傳統的計算機算法也越來越顯示出不足,這促使生物信息學去尋求新的算法 來解決問題。
序列分析是生物信息學的主要研究內容。例如,通過分析數據庫中的成千上萬種有機體 的 DNA 序列,可以識別特定序列的結構和功能、特定序列在不同物種之間的不同形式、相 同物種內部特定序列的不同形式。又如,通過對一組序列進行比較,可以發現功能之間的相 似性或者物種之間的聯系。還可以在一個基因組中搜索蛋白質編碼基因、RNA 基因和其他 功能序列,可以利用 DNA 序列來識別蛋白質。
下面介紹基因組比對的基本思想和方法。當生物學家通過實驗獲得了一個基因序列,他 接著就要確定這個基因序列的功能。為此,他以這個基因序列作為輸入,到基因序列數據庫 中去搜索與之相似的、已知功能的基因序列,因為生物學家認為基因序列相似意味著功能相 似。一種衡量基因序列相似性的方法是基因組比對(genome alignment),該方法將兩個基 因序列對齊(如果序列長度不同可以在序列中插入一些空白位置),然后為對齊的每一對(代 表核苷酸的)字符打分,所有分數的總和就是兩個序列的相似度。例如,對于兩個基因序列 AGTGATG 和 GTTAG,適當插入空白(用下劃線字符“_”表示)后可以按如下方式對準:
```
A G T G A T G
_ G T T A _ G
```
假如按如下規則打分:
| | A | C | G | T | _ |
| --- | --- | --- | --- | --- | --- |
| A | 5 | -1 | -2 | -1 | -3 |
| C | -1 | 5 | -3 | -2 | -4 |
| G | -2 | -3 | 5 | -2 | -2 |
| T | -1 | -2 | -2 | 5 | -1 |
| _ | -3 | -4 | -2 | -1 | |
則該對準方案的得分為 14。當然也可以按別的方式對準,但上面給出的對準方案是得分最高的。這個最優對準方案可以利用動態規劃算法求得。 另外,計算機科學中最新的機器學習和數據挖掘技術能夠實現更復雜的數據分析,很自然地成為當今生物信息學所倚重的方法。機器學習和數據挖掘的領域界線并不明顯,它們都 是關于從大量數據中發現知識、模式、規則的技術。具體技術包括神經網絡、隱馬爾可夫模 型、支持向量機、聚類分析等,這些技術都非常適合生物信息的分析和處理。例如,對大量 蛋白質序列進行聚類分析,可以將所有蛋白質序列分組,使得同組的蛋白質序列非常相似, 而不同組的蛋白質非常不相似。
- 前言
- 第 1 章 計算與計算思維
- 1.1 什么是計算?
- 1.1.1 計算機與計算
- 1.1.2 計算機語言
- 1.1.3 算法
- 1.1.4 實現
- 1.2 什么是計算思維?
- 1.2.1 計算思維的基本原則
- 1.2.2 計算思維的具體例子
- 1.2.3 日常生活中的計算思維
- 1.2.4 計算思維對其他學科的影響
- 1.3 初識 Python
- 1.3.1 Python 簡介
- 1.3.2 第一個程序
- 1.3.3 程序的執行方式
- 1.3.4 Python 語言的基本成分
- 1.4 程序排錯
- 1.5 練習
- 第 2 章 用數據表示現實世界
- 2.1 數據和數據類型
- 2.1.1 數據是對現實的抽象
- 2.1.1 常量與變量
- 2.1.2 數據類型
- 2.1.3 Python 的動態類型*
- 2.2 數值類型
- 2.2.1 整數類型 int
- 2.2.2 長整數類型 long
- 2.2.3 浮點數類型 float
- 2.2.4 數學庫模塊 math
- 2.2.5 復數類型 complex*
- 2.3 字符串類型 str
- 2.3.1 字符串類型的字面值形式
- 2.3.2 字符串類型的操作
- 2.3.3 字符的機內表示
- 2.3.4 字符串類型與其他類型的轉換
- 2.3.5 字符串庫 string
- 2.4 布爾類型 bool
- 2.4.1 關系運算
- 2.4.2 邏輯運算
- 2.4.3 布爾代數運算定律*
- 2.4.4 Python 中真假的表示與計算*
- 2.5 列表和元組類型
- 2.5.1 列表類型 list
- 2.5.2 元組類型 tuple
- 2.6 數據的輸入和輸出
- 2.6.1 數據的輸入
- 2.6.2 數據的輸出
- 2.6.3 格式化輸出
- 2.7 編程案例:查找問題
- 2.8 練習
- 第 3 章 數據處理的流程控制
- 3.1 順序控制結構
- 3.2 分支控制結構
- 3.2.1 單分支結構
- 3.2.2 兩路分支結構
- 3.2.3 多路分支結構
- 3.3 異常處理
- 3.3.1 傳統的錯誤檢測方法
- 3.3.2 傳統錯誤檢測方法的缺點
- 3.3.3 異常處理機制
- 3.4 循環控制結構
- 3.4.1 for 循環
- 3.4.2 while 循環
- 3.4.3 循環的非正常中斷
- 3.4.4 嵌套循環
- 3.5 結構化程序設計
- 3.5.1 程序開發過程
- 3.5.2 結構化程序設計的基本內容
- 3.6 編程案例:如何求 n 個數據的最大值?
- 3.6.1 幾種解題策略
- 3.6.2 經驗總結
- 3.7 Python 布爾表達式用作控制結構*
- 3.8 練習
- 第 4 章 模塊化編程
- 4.1 模塊化編程基本概念
- 4.1.1 模塊化設計概述
- 4.1.2 模塊化編程
- 4.1.3 編程語言對模塊化編程的支持
- 4.2 Python 語言中的函數
- 4.2.1 用函數減少重復代碼 首先看一個簡單的用字符畫一棵樹的程序:
- 4.2.2 用函數改善程序結構
- 4.2.3 用函數增強程序的通用性
- 4.2.4 小結:函數的定義與調用
- 4.2.5 變量的作用域
- 4.2.6 函數的返回值
- 4.3 自頂向下設計
- 4.3.1 頂層設計
- 4.3.2 第二層設計
- 4.3.3 第三層設計
- 4.3.4 第四層設計
- 4.3.5 自底向上實現與單元測試
- 4.3.6 開發過程小結
- 4.4 Python 模塊*
- 4.4.1 模塊的創建和使用
- 4.4.2 Python 程序架構
- 4.4.3 標準庫模塊
- 4.4.4 模塊的有條件執行
- 4.5 練習
- 第 5 章 圖形編程
- 5.1 概述
- 5.1.1 計算可視化
- 5.1.2 圖形是復雜數據
- 5.1.3 用對象表示復雜數據
- 5.2 Tkinter 圖形編程
- 5.2.1 導入模塊及創建根窗口
- 5.2.2 創建畫布
- 5.2.3 在畫布上繪圖
- 5.2.4 圖形的事件處理
- 5.3 編程案例
- 5.3.1 統計圖表
- 5.3.2 計算機動畫
- 5.4 軟件的層次化設計:一個案例
- 5.4.1 層次化體系結構
- 5.4.2 案例:圖形庫 graphics
- 5.4.3 graphics 與面向對象
- 5.5 練習
- 第 6 章 大量數據的表示和處理
- 6.1 概述
- 6.2 有序的數據集合體
- 6.2.1 字符串
- 6.2.2 列表
- 6.2.3 元組
- 6.3 無序的數據集合體
- 6.3.1 集合
- 6.3.2 字典
- 6.4 文件
- 6.4.1 文件的基本概念
- 6.4.2 文件操作
- 6.4.3 編程案例:文本文件分析
- 6.4.4 緩沖
- 6.4.5 二進制文件與隨機存取*
- 6.5 幾種高級數據結構*
- 6.5.1 鏈表
- 6.5.2 堆棧
- 6.5.3 隊列
- 6.6 練習
- 第 7 章 面向對象思想與編程
- 7.1 數據與操作:兩種觀點
- 7.1.1 面向過程觀點
- 7.1.2 面向對象觀點
- 7.1.3 類是類型概念的發展
- 7.2 面向對象編程
- 7.2.1 類的定義
- 7.2.2 對象的創建
- 7.2.3 對象方法的調用
- 7.2.4 編程實例:模擬炮彈飛行
- 7.2.5 類與模塊化
- 7.2.6 對象的集合體
- 7.3 超類與子類*
- 7.3.1 繼承
- 7.3.2 覆寫
- 7.3.3 多態性
- 7.4 面向對象設計*
- 7.5 練習
- 第 8 章 圖形用戶界面
- 8.1 圖形用戶界面概述
- 8.1.1 程序的用戶界面
- 8.1.2 圖形界面的組成
- 8.1.3 事件驅動
- 8.2 GUI 編程
- 8.2.1 UI 編程概述
- 8.2.2 初識 Tkinter
- 8.2.3 常見 GUI 構件的用法
- 8.2.4 布局
- 8.2.5 對話框*
- 8.3 Tkinter 事件驅動編程
- 8.3.1 事件和事件對象
- 8.3.2 事件處理
- 8.4 模型-視圖設計方法
- 8.4.1 將 GUI 應用程序封裝成對象
- 8.4.2 模型與視圖
- 8.4.3 編程案例:匯率換算器
- 8.5 練習
- 第 9 章 模擬與并發
- 9.1 模擬
- 9.1.1 計算機建模
- 9.1.2 隨機問題的建模與模擬
- 9.1.3 編程案例:乒乓球比賽模擬
- 9.2 原型法
- 9.3 并行計算*
- 9.3.1 串行、并發與并行
- 9.3.2 進程與線程
- 9.3.3 多線程編程的應用
- 9.3.4 Python 多線程編程
- 9.3.5 小結
- 9.4 練習
- 第 10 章 算法設計和分析
- 10.1 枚舉法
- 10.2 遞歸
- 10.3 分治法
- 10.4 貪心法
- 10.5 算法分析
- 10.5.1 算法復雜度
- 10.5.2 算法分析實例
- 10.6 不可計算的問題
- 10.7 練習
- 第 11 章 計算+X
- 11.1 計算數學
- 11.2 生物信息學
- 11.3 計算物理學
- 11.4 計算化學
- 11.5 計算經濟學
- 11.6 練習
- 附錄
- 1 Python 異常處理參考
- 2 Tkinter 畫布方法
- 3 Tkinter 編程參考
- 3.1 構件屬性值的設置
- 3.2 構件的標準屬性
- 3.3 各種構件的屬性
- 3.4 對話框
- 3.5 事件
- 參考文獻