【基金標書】2010CB912700-蛋白質組海量質譜數據的解析及其在人類基因組注釋中的應用
《【基金標書】2010CB912700-蛋白質組海量質譜數據的解析及其在人類基因組注釋中的應用》由會員分享,可在線閱讀,更多相關《【基金標書】2010CB912700-蛋白質組海量質譜數據的解析及其在人類基因組注釋中的應用(39頁珍藏版)》請在裝配圖網上搜索。
項目名稱: 蛋白質組海量質譜數據的解析及其在人類基因組注釋中的應用首席科學家: 劉斯奇 中國科學院北京基因組研究所起止年限: 2010 年 1 月-2014 年 8 月依托部門: 中國科學院一、研究內容關鍵科學問題本項目將以我國蛋白質組學界產生的海量 MS/MS 質譜數據為基本分析材料,重點放在解析這些數據中的新的蛋白質編碼基因和蛋白質組定量信息。我們將運用計算化學、工程方法學、生物信息學、質譜學和生物分析化學等研究手段深入探討如何準確地將 MS/MS 質譜數據轉化為相對應的肽段信息,如何利用這些肽段補充和修訂基因組的蛋白質編碼基因,如何 發(fā)掘這些肽段所賦予的定量信息,并建立兼有定性和定量信息的新型蛋白質表達譜。 簡言之,本 項目擬解決的關鍵科學問題是,如何發(fā)掘高精度 MS/MS 質譜鑒 定的 肽段中所蘊含的大量生物學信息。主要研究內容1. 海量質譜數據的深度解析技術研究從高精度 MS/MS 數據出發(fā),通 過新一代蛋白質數據庫搜索引擎技術、 De Novo 技術、基因組數據庫 搜索技術三個途徑來實現 海量質譜數據的深度解析,具體研究:? 通過嚴格的對照實驗確定質譜數據可解析率,優(yōu)化和規(guī)范實驗操作流程;? 研究新一代蛋白質鑒定搜索引擎,提高鑒定可信度、靈敏度和速度;? 綜合利用實驗、儀器和計算手段發(fā)展肽序列 De Novo 分析技術;? 利用基因組數據庫搜索進一步提高質譜數據解析率。2.高精度 MS/MS 數據對 基因組蛋白質編碼基因的 補充和修訂采用 De Novo 方法獨立演 繹所測定肽段的氨基酸順 序, 進一步反轉肽段信息至基因組,試圖補充和修 訂基因組的蛋白質編碼基因,具體研究:? 構建綜合性蛋白質序列數據庫;? 建立基于肽段信息注釋基因組的方法流程;? 利用 MS/MS 所鑒定的肽段補充和修訂基因組蛋白質編碼基因。3一 基于高精度質譜數據的蛋白質表達譜定量計算方法的研究及應用以鑒定的肽段頻率為基礎,發(fā)展兼顧準確度與規(guī)?;姆菢擞浂康鞍踪|學方法,同時開發(fā)以多肽質譜 數據為基礎的蛋白質編碼基因的可視化標識技術,實現蛋白質表達譜的定量化,具體研究:? 蛋白質表達譜定量算法研究;? 蛋白質組表達譜定量分析及可視化研究;? 建立以基因為中心的定量蛋白質數據庫及分析平臺。4一 基于質譜數據的預測結論的實驗驗證研究運用質譜學、生物化學、分子生物學和免疫學等手段系統(tǒng)驗證基于 MS/MS數據所分析的生物信息學結論,同時為生物信息學的理論模型提供嚴格設計和控制的實驗數據,具體研究:? 建立先進的MRM技術平臺實現對蛋白質定性和定量的高通量驗證,發(fā)現和驗證新的蛋白編碼基因,并提供相應的定量蛋白質組信息;? 利用先進的質譜技術平臺獲取高精度MS/MS數據服務于質譜譜圖的深度解析;? 建立通用技術平臺從核酸和蛋白質水平上驗證通過MS/MS所鑒定的新基因;? 建立通用技術平臺從不同技術角度上驗證定量蛋白質組。二、預期目標1.總體目標本項目研究的總體目標是,發(fā)掘 MS/MS 數據中的肽段信息,開拓生物信息學在質譜數據分析中的研究領域,促進高精度質譜數據在基因組學和蛋白質組學的應用。本項目將通過高精度 MS/MS 數據和 De Novo 方法獲取一系列與基因組注釋基因不相匹配的肽段,并利用這些信息補充和修訂基因組蛋白質編碼基因;將采用肽段頻率為定量蛋白質組計算的基本數據,通過蛋白質定量參數、數學模型和可視化標示等技術來建立定量蛋白質表達譜,并闡明其生物學意義。通過本項目的執(zhí)行,我們將顯 著提高 MS/MS 數據的利用率,具體回答若干相關的生物學問題,拓展生物信息學 應用于蛋白質組學的思路和方法。因此,本 項目將促進我國在蛋白質組學、基因 組學和生物信息學交叉領域的研究。2.五年目標1)發(fā)展一套針對高精度 MS/MS 數據的分析策略以及相應的數據庫和計算方法;2)顯著提高海量 MS/MS 數據的利用率,深入揭示高精度質譜數據所蘊含的物理化學和生物學意義;3)提升我國在質譜信號解析和蛋白質組生物信息學研究方面的水平。4)在國際主流雜志發(fā)表論文 30 篇左右,并爭取 Nature 及其它國際知名科學期刊發(fā)表 10 篇論文。申請發(fā)明專利 5-10 項。5)造就一支生物信息學和蛋白質組領域中的高水平的科研隊伍,培養(yǎng)一批博士研究生(10-15 人),碩士研究生(20-25 人),博士后研究人員(5-10 人)。三、研究方案1. 總體學術思路在蛋白質組學誕生的短短幾年內,這個學科已經取得了重大進展:蛋白質表達譜的建立,修飾蛋白質的 測定,和蛋白 質相互作用的分析等。但是,作為一門年輕的學科,蛋白質組的分析技術還遠未成熟。其中一個主要的原因是人們在蛋白質鑒定和定量分析上仍遭遇較大的技術困難。近年來,高精度質譜儀的出現給蛋白質組學發(fā)展創(chuàng)造了一個新的發(fā)展契機。如何深入解析高精度 MS/MS 數據所蘊含的豐富的生物學信息,是擺在蛋白質組生物信息學面前的重要課題。本項目立足于我國蛋白質組學界已產生的海量 MS/MS 數據,運用一系列的計算化學和生物信息學的方法,試圖發(fā) 展一套針對高精度 MS/MS 數據的分析策略以及相應的數據庫和計算方法;并以此為基礎集中解決兩個在基因組學和蛋白質組學亟需解決的問題,即利用肽段信息 補充和修訂基因組蛋白質編碼基因和以肽段頻率為基礎計算定量蛋白質表達譜。本研究項目需要生物信息學、蛋白質組學和基因組學各交叉學科團隊的通力合作,而她產生的科研成果又將施惠于各個研究領域。2. 技術途徑本項目的技術途徑包括海量 MS/MS 數據的產生、生物信息軟件的設計和應用、以及實驗驗證等 3 個層 面的多種途徑。1) 海量 MS/MS 數據的 產生技術:LTQ、Orbitrap、 FTMS 質譜在蛋白質組測定中的應用,多維高效液相 層析,高效蛋白 質提取技 術平臺, SDS-PAGE/LC 串聯分析技術,多重蛋白質酶 消化技術等。2) 生物信息軟件的設計和應用技術:樣品處理和儀器操作流程控制,MS/MS 譜圖 的計算機識別,蛋白 質搜索引擎, De Novo 分析軟件,各種數據庫的構建技術等。3) 實驗驗證技術:MRM 技術, 穩(wěn)定同位素標記定量技 術,化學修 飾輔助蛋白質末端序列測定技術, ELISA,Western blot,基因克隆,重組蛋白質制備技術,單克隆抗體制備,Real-Time PCR,5’-RACE 等。本項目研究已具備了較好的技術平臺支撐,承擔單位擁有 2 個國家重點實驗室,3 個部級重點實驗室,項目所需的絕大部分實驗儀器和實驗手段均已具備,各承擔單位間有著長期的良好合作關系和基礎。本項目具有豐富的前期工作積累與相關研究成果及多學科背景的研究隊伍,已經建立起成熟的研究手段和方法,有能力完成所計劃的研究任務。3. 創(chuàng)新性和特色本項目的創(chuàng)新之處集中表現在:一整套針對于高精度 MS/MS 數據的分析策略以及相應的數據庫和計算方法;利用 MS/MS 和 De Novo 技術補充或修訂基因組蛋白質編碼基因;建立兼有定性和定量數據的蛋白質表達譜;和 Gene-centric方法標示組織或細胞蛋白質表達譜。本項目的特色在于:問題明確、方法新穎、 課題間環(huán)環(huán)相扣。我們立足于 建立高精度串連質譜數據解析的分析策略、數據庫和算法,著眼于這些研究成果在具體生物學 問題上的應用,結論于實驗科學對理論分析結果的嚴格驗證。同時 ,我 們將最大程度地發(fā)揮 “集體效應”優(yōu)勢,整合我國在生物信息學、蛋白質學和基因 組學優(yōu)秀團隊,根據各團隊的專長來展開相關研究。4. 取得重大突破的可行性分析本項目瞄準了當前蛋白質組學研究的熱點和重點,試圖揭示高精度 MS/MS數據所蘊含的豐富的生物學信號。在項目執(zhí)行過程中,我們有信心在 MS/MS 數據的有效利用率、肽段信息 對基因組蛋白質編碼基因的補充和修訂、質譜譜圖在定量蛋白質組中應用、定量蛋白質組的圖形標示技術等方面取得突破。我們的信心植根于:1) 本項目計劃解決的幾個問題在國際間仍然懸而未決,我們和其他的競爭者正處在同一起跑線上;2)參與本項目的各個團隊在相關的領域處在先進水平,某些課題已取得了進展; 3)在我國政府的支持下,在過去幾年中我國蛋白質學界已積累了海量的 MS/MS 數據,無 論在數據的質 量還是數量上,我國的MS/MS 數據 庫領先于其他國家;4)參與的團隊與國際優(yōu)秀的蛋白質組學家形成了較好的合作關系,尤其在 MS/MS 數據的共同開發(fā) 上已取得重大進展。同時,項目首席科學家和課題組長在科研項目的組織和協調方面具有豐富的經驗,均承擔完成多項國內或國外的重要科研項目。本項目計劃是基于研究團隊的研究基礎和前期工作而提出的,在本項目的申報過程中,項目專家組及研究骨干多次研討,圍繞本研究計劃擬解決的重大科技問題,制定了合理可行的研究方案和技術路線。相信通過學科交叉、集成多種研究方法,我 們研究團隊完全有可能在本領域取得突破性進展。5. 課題設置課題設置思路本項目擬在高精度 MS/MS 數據基礎上,采用各種數據分析手段,從基因 組蛋白質編碼基因和蛋白質組定量兩個生物學問題著手,深入地了解和認識MS/MS 數據所 蘊含的肽段信息的生物學意義, 為蛋白 質組的功能性研究提供新的方法和思路。本項目將設置四個課題,分別為, 1)海量質譜數據的深度解析技術研究;2)高精度 MS/MS 數據對基因 組蛋白質編碼基因的補充和修訂;3)基于高精度 MS/MS質譜數據的蛋白質表達譜定量計算方法的研究及應用;4)基于質譜數據的預測結論的實驗驗證研究。建立質譜數據的統(tǒng)計數學模型分析有賴于實驗數據的精度和重現性。目前的質譜數據廣泛存在兩個基本問題,一是缺乏不同的質譜儀所產生的質譜圖譜的共享標準,二是譜圖解讀和肽段判斷的標準沒有達到共識。因此,我們把質譜數據分析的標準化放在本項目頭等重要的位置。在深度解析 MS/MS數據的基礎上,我們設定兩個課題組具體研究如何發(fā)掘 MS/MS 信號所蘊含的生物信息,即補充和修訂基因 組蛋白質編碼基因及定量表達蛋白質組。前者注重于剖析 MS/MS 數據,通 過 De Novo 方法直接分析與數據庫搜索獲得 MS/MS 所含有的肽段序列信息,然后建立 MS/MS 對應的肽段數據庫,并以此數據 庫為基點開展基因組的相關研究;后者則集中于研究 MS/MS 所產生的肽段頻率與蛋白質豐度之間的相關性,試圖建立基于非標記性肽段頻率的蛋白質定量判據,并應用于估算蛋白質定量表達譜,同時還要開發(fā)具備定性和定量信息的蛋白質表達譜的可視化標示方法。本項目聚焦于如何運用生物信息學方法處理高精度 MS/MS數據,抽象和演繹出蛋白質組相關的生物學信息。與傳統(tǒng)的生物信息學研究項目不同的是,我們還充分意識 到,生物信息學的理 論分析離不開對蛋白質或肽段化學性質的知識水平和實驗數據的支持,為此設定了第四課題組,專職與生物信息課題相配合,對理論預測的結果進行實驗驗證,同 時也通過方法學的探索為生物信息理論分析提供具有針對性的實驗數據,特別是高精度的 MS/MS 數據。課題的關聯本項目的四個課題中,一個課題注重 MS/MS 數據的標準化分析, 為蛋白質生物信息學研究提供可靠的肽段信息和計算工具;兩個課題集中于肽段信息在具體生物學問題中應用研究;另一個課題則從實驗技術層面上對生物信息學的預測結果進行系統(tǒng)的驗證,并為 理論分析提供和補充相應的實驗數據。本項目的各個課題之間既存在學術邏輯上必然聯系,又有研究內容上的互為補充,還有研究成果的相互驗證。這樣如圖一所示,四個課題之間形成了 較為完整的研究關聯網絡,在不同的層次和角度上共同發(fā)掘高精度 MS/MS 數據在蛋白質組學中的應用以及它們的生物學意義。圖一:課題設置及各子課題之間的相關性課題 1. 海量質譜數據的深度解析技術研究課題背景海量質譜數據的解析是蛋白質組研究的基礎,而自動化的數據分析軟件是海量質譜數據解析的基本工具。蛋白質組過去十年的研究歷程,主要依靠蛋白質鑒定兩大商業(yè)軟件 Mascot 和 SEQUEST 來實現海量質譜數據的基本解析,其最大的問題在于:僅僅有 10%左右的質譜數據可以得到肽鑒定結果,其余數據無法解析,因而其中所蘊涵的信息無法利用。造成這種局面的原因是多方面的。首先,對于分子生物學的規(guī)律,比如基因水平上的基因預測、基因突 變、可 變剪接及蛋白質水平上的氨基酸突變、翻 譯后修飾等,目前還沒有完整、準確的認識。其次,對于包括樣品制備和質譜儀操作在內的質譜數據生成過程的設計和規(guī)范化控制缺乏系統(tǒng)的研究,加上質譜儀的分辨率和準確度不足,造成原始數據質量不高。再次,數據分析方法和 軟件發(fā)展滯后,表現在兩大商業(yè)軟件核心鑒定算法多年來沒有大的改進,鑒定可信度評價方法沒有達到共識和規(guī)范化, 鑒定靈敏度研究長期缺乏關注,而鑒定速度不夠高則直接限制了對于海量質譜數據的全面探索性分析,比如非特異酶切、可變翻譯后修飾的鑒定。近年來,質譜技術發(fā)展迅速,高精度質譜儀(如 FTMS、Orbitrap),配以基于 電子的離子裂解新方式(如電子捕獲裂解 ECD、電子轉運裂解 ETD),已 經開始在國內外和本項目申請單位安裝和應用,因此質譜數據質量近期將會大大提高。同時,由于認識到基于數據庫搜索的質譜數據解析與蛋白質鑒定本質上是一種特殊的信息檢索,而信息檢索領域的搜索引擎技術經過了十多年的成功發(fā)展,因此,海量質譜數據的專用搜索引擎設計可以從中獲得充分的借鑒,數據分析的速度和質量有望大大提高。本項目申 請單位在過去幾年中參加過人類肝臟蛋白質組表達譜的完整實驗和數據分析, 對于海量質譜數據的解析積累了比較豐富的一手經驗,而獨立自主開發(fā)蛋白 質鑒定軟件系統(tǒng) pFind 則為進一步設計新的搜索引擎奠定了基礎。這都為深度解析海量質譜數據提供了希望。深度解析海量質譜數據,首先要在嚴格對照實驗的條件下認識質譜數據的規(guī)律,特 別是質譜數據有多大比例可以解析,有多大比例可以得到可信的肽鑒定結果,在這個基礎上設計新一代搜索引擎并確立合理的解析率指標。新一代搜索引擎的設計,立足于在現有蛋白質數據庫的基礎上充分解析質譜數據,從而把現有蛋白質數據庫中沒有包含的新肽段的鑒定限定在未鑒定的質譜數據上,這是對基因組注釋最可能有意義的地方。新肽段的鑒定分為兩種途徑,一是不依賴蛋白質數據庫,直接從串聯質譜圖中提取肽段完整序列或者序列片段,即所謂的De Novo 技術;二是將搜索數據庫的范圍從蛋白質組擴展到基因組,獲得更多的肽段序列來達到鑒定更多質譜數據的目的。通過新一代蛋白質數據庫搜索引擎技術、De Novo 技術、基因組數據庫搜索技術三個途徑來實現海量質譜數據的深度解析,提高解析率,并進一步利用控制實驗來驗證。研究目標本課題的研究目標是發(fā)展海量 MS/MS 數據的深度解析技術,顯著提高數據解析率。具體分為四點:一一通過嚴格的對照實驗確定質譜數據可解析率,優(yōu)化和規(guī)范實驗操作流程;二)研究新一代蛋白質鑒定搜索引擎,提高鑒定可信度、靈敏度和速度;三)綜合利用實驗、儀器和計算手段發(fā)展肽序列 De Novo 分析技術;四)利用基因組數據庫搜索進一步提高質譜數據解析率。研究內容一)通過嚴格的對照實驗確定質譜數據可解析率,優(yōu)化和規(guī)范實驗操作流程MS/MS 質譜 數據的鑒定成功率約為 5%-15%,無鑒定結果的 MS/MS 質譜數據中可能蘊含著許多蛋白質或肽段信息,如基因組數據庫中不存在的新蛋白質或蛋白質剪切體,或可能存在的錯誤的注釋信息等。所以,確定無 鑒定結果的MS/MS 質譜 數據的產生原因并發(fā)掘其隱含信息極其必要和迫切。此外,在蛋白質表達譜中所普遍采用的 Shotgun 路線中,蛋白 質鑒 定覆蓋率往往很低,其原因也需要探索。計劃以高純度標準蛋白質為樣本,在優(yōu)化和規(guī)范化實驗操作流程的基礎上,獲取蛋白酶切肽段 MS/MS 數據,明確每一 張串聯質譜圖歸屬,分析 圖譜鑒定或未鑒定原因。合成若干類,每類若干條具有代表性理化性質肽段,分析其 單獨質譜行為和在復雜體系中的質譜行為和鑒定成功率,找出未鑒定原因,為發(fā)展新的數據分析算法/軟件和檢索工具提供依據。同 時研究 實驗設計、樣品處理和儀器操作流程對于質譜數據質量及其解析的影響,在此基礎上優(yōu)化和規(guī)范實驗操作流程。更具體地,計劃選取高純度標注蛋白質若干種作為初步研究分析對象。其中蛋白選取將主要考慮蛋白分子量、酶切肽段理化性質等因素。采用 Shotgun 策略,首先分別對單個蛋白進行質譜數據采集,并將全部串聯圖譜進行多搜索引擎檢索和手工平行分析,以確定全部圖譜的身份和發(fā)現方法及其比例。目前考慮到可能的原因包括:非肽段信號、未知修飾、碎片信息 過 差、非 規(guī)則酶切肽段、混合碎片、非數據庫包含序列、檢索算法問題、未知因素等。在整合產生這些結果原因的基礎上初步設計相應檢索分析軟件。之后將標準蛋白混合,用于檢驗分析效果,并進行調整。進一步選取簡單 模式生物標本,如 E.Coli、Yeast 等,采用 軟件自動分析結合手工分析,完成全部串聯圖譜身份分析,并再次調整分析策略和軟件。二)研究新一代蛋白質鑒定搜索引擎, 提高鑒定可信度、靈敏度和速度基于蛋白質序列庫搜索的蛋白質鑒定軟件,本質上是一個信息檢索系統(tǒng),其核心是搜索引擎。現有的蛋白 質鑒定搜索引擎,在 質譜 數據分析上面臨著很多挑戰(zhàn)和困難,比如質譜圖解析率低、鑒定結果可信度低、數據庫搜索速度慢,等。除了由于我們對肽段離子碎裂和串聯質譜圖生成機制的認識有限之外,很重要的原因在于,目前廣泛應用的蛋白質鑒定搜索引擎沒有及時集成新方法和新技術,從預處理到打分排序和可信度評價都普遍存在缺陷,比如沒有深入挖掘肽-譜匹配的特征,沒有利用機器學習和搜索引擎的新技術。為此,我 們將開展如下方面的研究。1) 提高蛋白質鑒 定搜索引擎的可信度通過對數據進行深入的分析,考察隨機匹配產生的原因,在此基礎上提取特征,對隨機匹配的搜庫結果 進行分類處理,建立理 論 性比較強的模型;整合搜索引擎提供的多個匹配打分參數,建立適當的數學模型,為每個非冗余鑒定肽段賦予一個適當的判別分值,實現肽段水平的可信度控制;利用隨機數據庫搜索等對單個搜索引擎和數據集肽段可信度控制結果,構建合適的算法模型,實現對不同搜索引擎、不同數據集數據的整合;考慮基于圖譜計數的半定量、蛋白質序列長度、數據庫大小、蛋白質的酶切肽段和鑒定肽段等信息構建基于超幾何分布的蛋白質鑒定可信度評估概率模型。2) 提高蛋白質鑒 定搜索引擎的靈敏度融合多種信息源,提取和篩選有效的肽譜匹配特征,基于機器學習技術,將肽打分函數構造問題,轉化 為排序學習或者分類問題,通過迭代搜索或者迭代打分,動態(tài) 地、自適應地更新肽打分函數,從而使之能夠更好地適應不同特點的質譜數據,在保證足夠可信度的條件下,顯著提高肽鑒 定的靈敏度和譜圖的解析率。對串聯質譜數據進行聚類研究,揭示譜圖間的相互關系,建立譜圖數據的內部結構。通過 限制性譜圖聚類識別 冗余譜圖,生成代表 譜 ,改善 譜圖的質量,提高譜圖解析的精度。通過非限制性聚類識別相關譜圖, 發(fā)現 含有修飾、氨基酸突 變的譜圖、以及由非特異酶切肽 段產生的譜圖,以 進一步提高譜圖解析率。3) 提高蛋白質鑒定搜索引擎的速度采用高效的數據索引技術及與之相配合的高效搜索流程設計,以加速候選肽查詢的過程。優(yōu)化肽譜匹配打分算法的實現,使之適應多種翻譯后修飾以及非限定修飾、非特異性酶切等 帶來的候選肽規(guī)模膨脹問題。采用以序列標簽手段為主,對數據 庫候選肽進行過濾 的方式,突破 傳統(tǒng)的搜索引擎框架。通過實際典型數據的運行時間測量,確定搜索引擎流程模塊的運行熱點,研究任務級并行的靜態(tài)和動態(tài)負載均衡算法,在此基礎上進一步研究算法級負載均衡算法,將鑒定流程中的熱點模塊分配到多個節(jié)點進行運算,以進一步提高蛋白質搜索引擎的速度,實現 1~2 個量級的加速。三)綜合利用實驗、儀器和計算手段發(fā)展肽序列 De Novo 測序技術蛋白質鑒定從頭測序算法的主要思想是只利用串聯質譜中的譜峰信息推斷肽段序列。De Novo 方法不依賴于蛋白質數據庫,在數據庫信息不完整的情況下De Novo 比數據庫搜索具有一定的優(yōu)勢。然而,De Novo 算法的應用范圍有比較大的局限性,它可以處理的數據通常為 CID 碎裂方式下的高質量譜圖,而且,De Novo 方法的譜圖鑒定率相對比較低,通常情況下,對于質量比較好的 MS/MS 譜圖,利用從頭測序算法僅可以得到約 30%的正確鑒定結果。隨著質譜儀精度的逐漸提高,利用高精度譜圖的一系列優(yōu)勢,提高鑒定序列的準確性,越來越受到人們 的關注。另外,利用同一 肽段不同碎裂方式等方法產生的多張譜圖的內在聯系進行從頭測序的方法也逐漸成為蛋白質鑒定問題中的研究熱點。利用特殊化學修 飾,如磺酸化修 飾等,可以為 De Novo 提供更豐富的技術路線。 為此,本課題將與課題 4 密切合作開展如下方面的研究。1) 利用高精度 MS/MS 數據進行 De Novo 測序利用課題 4 提供的 LTQ-Orbitrap 高精度質譜數據,可以更有效地進行從頭測序。首先,高度精確的母離子及碎片離子質量使得不同氨基酸殘基的區(qū)分度更好,提高了氨基酸殘基識別 的可靠性;利用離子峰同位素模式的差異,可以進一步區(qū)分質量相似的氨基酸,如谷氨酸與賴氨酸等。其次,低精度 質譜儀下不同離子類型的碎片質量可能重疊的現象,在高精度情況下可能性大大降低,從而可以進一步提高從頭測序算法的精度。此外,利用高精度的有效離子峰,可以計算出離子的理論氨基酸組成,從而更有效地過濾候選肽序列。2) 利用譜圖相關性信息進行 De Novo 測序CID 與 EXD(如電子捕獲裂解 ECD、電子轉運裂解 ETD 等)是蛋白質或多肽在質譜儀中的不同碎裂方式,通常 EXD 碎裂方式可以更好地保存完整的修 飾信息,而且碎裂譜峰有較好的 連續(xù)性,與 CID 的特性形成很好的互補。利用課題 4提供的同一肽段的 CID/ETD 碎裂形成的譜圖,我們 可以利用不同譜圖間的譜峰信息相互驗證,區(qū)分有效峰與噪音峰,進而將不同碎裂方式下的譜峰進行聚合,可以提高譜圖的信噪比;通過不同碎裂方式下相關離子的質量差值,可以識別譜峰所屬的離子類型;結合基于譜峰圖的從頭測序方法,不僅可以提高鑒定肽段的置信度,而且可以鑒定到單 一碎裂方式下難以鑒定到的肽段。 3) 利用化學修飾方法輔助 De Novo 測序近年來很多研究都通過各種化學小分子修飾策略來輔助肽段的裂解與質譜測序。例如,通 過磺酸化修飾在肽段上引入磺酸基,不僅可以提高肽段的碎裂效率,還可以抑制其它離子的 產生,得到以 y 系列離子 為主的 MS/MS 數據;利用嘧啶化合物修飾多肽羧基可以有效增強修飾譜譜峰的信號強度。因此,利用課題 4提供的高清晰串聯質譜數據,基于譜峰圖的方法進行從頭測序,不僅可以更準確地挑選有效峰,而且減少了單個譜峰匹配多種可能離子類型的風險,從而提高從頭測序算法的精度。四)利用基因組數據庫搜索進一步提高質譜數據解析率基于蛋白質數據庫搜索的質譜數據解析與蛋白質鑒定方法的成敗,強烈依賴蛋白質數據庫是否完整,如果不存在相應的條目,即使是質量很好的譜圖,也無法得到鑒定。因此,在常規(guī)鑒定方法的基礎上擴大搜索范圍, 對更全面的 EST或基因組數據庫進行搜索,就成為提高質譜鑒定率的另一種有效方法。目前存在各種不同的基因組學相關的數據庫:原始基因組數據,信息最全面,但數據量巨大,沒有可變剪接信息,所以目前一般只進行原核生物的直接搜索;表達序列標簽 EST(Expressed Sequence Tag)庫,是指從不同組織來源的 cDNA片段序列積累得到的數據庫,可確定是轉錄水平的數據,且基本覆蓋整個基因組;可變剪接數據庫,通過選取有可變剪接注釋的肽序列,進行搜索、序列比 對、篩選和分類構建而成,可以看作基因組數據庫和蛋白質數據庫的橋梁。針對不同層次的數據庫,可以對質譜數據進行多步驟、多策略的迭代搜索:先對常規(guī)蛋白質數據庫進行搜索鑒定;沒有得到解釋的質譜數據再利用 EST 庫和可變剪接數據庫進行搜索;對于仍然無法解釋的質譜,采用直接搜索六個開放閱讀框翻譯的氨基酸序列的方法進行鑒定;或通過譜圖解析得到肽片段信息,再對基因進行序列比對。最終鑒 定出常規(guī)方法無法解釋的譜圖數據。基因庫搜索面臨的主要挑戰(zhàn)包括:如何構建面向多層次海量基因數據庫的數據結構?如何加快鑒定速度, 應對劇烈膨脹的數據庫搜索量?如何有效估計和控制譜圖解析的錯誤率?為此本課題將與課題 2 密切合作開展如下方面的研究。1)構建多層次的、相互關聯的、海量的基因 組-蛋白 質組數據庫基因組數據非常龐大復雜,如何有效設計數據結構予以存儲和表達,是非常關鍵的問題。本項目的課題 2 將構建一個基于基因組序列的,比當前公共蛋白質數據庫包含序列種類更多、數量更大的蛋白質數據庫;而我們將通過設計索引數據格式和讀取接口,解決海量 規(guī)模數據庫的存儲和快速檢索問題。借鑒現有成熟的蛋白質和肽數據索引技術方案,設計合理的數據結構,便于系統(tǒng)內數據的讀取、存儲、壓縮、表達,查詢和關聯。2)提高蛋白質鑒定引擎的搜索速度基因組或 EST 數據庫相對于傳統(tǒng)的蛋白質數據庫,規(guī)模擴大了不止一個數量級,面 臨著搜索速度上的挑 戰(zhàn)。除了利用各種常 規(guī) 思路對搜素引擎進行加速外,重點利用基因和蛋白質數據之間的關聯關系,將常規(guī)蛋白數據庫搜索或者DeNovo 測序 鑒定出的肽段 /蛋白質映射到對應的核酸序列上,然后枚舉出該基因區(qū)域經過突變、可變剪接、翻譯等種種變化得到的所有可能的氨基酸序列, 對沒有得到鑒定結果的譜圖進行二次搜索,既可能提高譜圖解析率,同時又可以大大減小基因組數據庫產生的候選肽規(guī)模,從而加速鑒定。3)研究搜索結果可靠性問題,有效估計和控制譜圖解析的錯誤率。數據庫規(guī)模的擴大,不僅僅帶來速度問題:基因組數據或 EST 數據庫遠大于蛋白質數據庫,同時含有一定的測序誤差, 發(fā)生隨機匹配的概率更大;并且因為預測錯誤的開放閱讀框和低質量的 EST 序列,以及串聯質譜數據本身帶有的噪音和復雜性,將導致更多錯誤 的隨機匹配。 因此需要深入分析傳統(tǒng)方式下隨機誤匹配產生的原因,構建模型提取特征,進一步建立完善的估計檢驗算法。課題承擔單位:中國科學院計算技術研究所課題參加單位:復旦大學課題負責人: 賀思敏科研骨干:孫瑞祥、趙屹、張揚經費比例:23%課題 2. 高精度 MS/MS 數據對基因組蛋白質編碼基因的補充和修訂課題背景:基因組 DNA 序列的測定標志著人類在探索生命之謎的征程中邁出了關鍵一步。 但是,解讀基因組中所富含的遺傳秘密和生物功能信息的研究工作還剛剛開始。根據 2007 年在 PNAS 上發(fā)表的研究表明,人類基因組中的蛋白質編碼基因數量可能會少于 24,500;而 Broad 研究所的研究指出,人類基因數據庫如Ensembl、RefSeq 和 Vega 包括了許多任意出現的而非蛋白質編碼區(qū)域的開放閱讀框,實際 上人類基因組中的蛋白質編碼基因數目可能只有 20,500 左右。2007年康奈爾大學的研究人員發(fā)表在 Genome Research 的研究工作,通過利用超級計算機比較人類、小鼠、大鼠和雞的基因組部分,發(fā)現 了 300 個之前沒有確定的人類基因, 還確定了幾百個已知基因的范圍。 這意味著,有許多基因會在目前的生物分析方法下被漏掉。傳統(tǒng) 的基因注釋方法對廣泛表達基因的發(fā)現非常有效,卻會遺漏只在特定器官表達或在胚胎發(fā)育早期表達的基因。傳統(tǒng)上,開放閱讀框(open reading frame,ORF)的一些原則正在受到大量 實驗數據的挑戰(zhàn),尤其是 對于內含子的可變剪切豐富的真核生物基因組而言,基因組的注釋的缺陷尤其明顯。例如,即使是研究較透徹的模式生物果蠅,大概 30%的轉錄本都沒有被注釋。通過比對人的 EST 和基因組,產生了約 62000 個不相重疊的聚 類,但大多數都不包含 ORF 的 5’端區(qū)域,提示了 僅依靠測序 cDNA 來完整注釋動物基因組是不切實際的。普遍使用的基因預測軟件 GENSCAN 在對小鼠和人的 ORF 預測上正確率僅為 15%和 10%;在哺乳 動物基因預測方面表現最好的 CONTRAST 算法,對人的 ORF 預測也只有 58%的正確率。近年來,高精度質譜儀(FT、Orbit-Trap)的發(fā)展以及 肽段解析技術的進步為基因組的蛋白質編碼注釋開辟了新的研究方向。采用 MS/MS 數據注釋基因組有其獨到的技術優(yōu)勢。首先,肽段反映的是基因最終表達的產物,它比 RNA 分子更為直接地傳遞了基因的編碼信息。其次,大規(guī)模 MS/MS 數據庫的建立,使得傳統(tǒng)的一個基因一個 cDNA 一次測序的觀念受到沖擊,利用 De Novo 技術分析MS/MS 數據 庫,可能極大地豐富肽段信息。蛋白質組基因組學是近幾年誕生的一門用蛋白質組信息解構基因組的新興學科。MS/MS 質譜實驗輔 助基因組注釋已經在多種物種中(原核生物,酵母,植物和人等)使用,涉及到基因組注釋的多個研究內容,如:確認預測基因、 發(fā)現新基因、判斷假基因、證實可變剪切等。此外,串聯質譜數據還和基因預測算法整合,提高了基因預測準確率。然而必須認識到,蛋白質組基因組學領域還存在很多技術上的挑戰(zhàn),目前研究 還大多局限于低等生物,結果局限在對基因組注釋的補充與修訂,離全基因組水平基因注釋還相距很遠。據估計約 40-60%的人類基因存在可變剪切,但 Tanner 等從一千八百萬張 MS/MS 質譜里只找到了 40 多個可變剪切。造成這樣結果的原因主要有:1)質譜鑒定肽段的過程一般利用數據庫搜索法,只有數據庫中存在的蛋白質才可能被預測到;2)肽段和蛋白質的鑒定有一定的假陽性,錯誤率隨著數據庫的增大而增大;3)只有 10%~20%的質譜能匹配到肽段,絕大多數的質譜 都沒有被解讀。 課題 1 已就這些問題提出了一系列解決方案,著重解決公共蛋白 質數據庫局限性問題以及肽段鑒定算法覆蓋率和重復率低的問題。本課題將密切與課題 1 合作,利用 課題 1 剖析 MS/MS 數據的研究成果,通過 De Novo 方法直接分析和改善數據 庫搜索效率以獲得盡可能多的肽段序列信息,然后建立 MS/MS 數據所對應的肽段數據庫,基于此數據 庫進一步開展補充和修訂基因組蛋白質編碼基因的研究工作。研究目標一) 構建綜合性蛋白質序列數據庫;一一 建立基于肽段信息注釋基因組的方法流程;一一利用 MS/MS 所鑒定的肽段補充和修訂基因組 蛋白質編碼基因。研究內容一)蛋白質序列數據庫的構建為適應蛋白質數據庫搜索鑒定,構建一個基于基因組序列的,比當前公共蛋白質數據庫包含序列種類更多、數量更大的蛋白質數據庫,能使我們更有效地利用高通量蛋白質組學質譜數據。在這個方面,我 們和課題 1 既有密切合作,又有各自專攻方向。課題 1 通過設計索引數據格式和讀取接口,提高蛋白質鑒定引擎的搜索速度,有效估計和控制譜圖解析的錯誤率以解決海量規(guī)模數據庫的存儲和快速檢索問題,而本課題組則從如下幾個方面提供構建綜合數據庫的策略:1) 整合現有的蛋白質公共數據庫當前蛋白質序列公共數據庫,如 NCBI 蛋白質數據庫,Uniprot 蛋白質數據庫,以及 EMBL-EBI 的 IPI 蛋白 質數據庫等囊括了絕大多數已知蛋白質的序列信息。整理這些數據庫中的人類蛋白質數據,包括不同庫間數據進行相互補充和驗證、通過 Blast 方法去除冗余蛋白質、統(tǒng)一蛋白質編號、使用 FASTA 格式存儲包含對應基因組定位信息在內的蛋白質序列信息,從而構建一個含有絕大多數已知人類蛋白質序列的數據集合。2) 使用“六位移碼翻譯”方法得到全基因組 ORF 數據集使用“六位移 碼翻譯” 方法從基因序列中 尋找潛在的 ORF,能最大范圍地覆蓋所有基因可能的轉錄本。從 NCBI 基因組數據庫,Ensembl 基因組數據庫和UCSC 基因組數據庫搜集到完整的基因 組序列信息。潛在的 ORF 起始位點開始于每一個染色體的第一個堿基,每翻譯到終止密碼子時即為 ORF 的終止位點。下一個 ORF 的起始位點定 為上一個 ORF 終止位點的下一個堿基?;?組中不明確的堿基使用隨機方式以一種堿基代替。這種方法應用于基因組 DNA 雙鏈的各三個閱讀框,即“ 六位移碼翻譯”。每一個 ORF 均標 示出基因組的坐標與方向,便于將肽段信息匹配到基因組上。從每一個染色體得到的氨基酸序列以 FASTA 格式保存。3) 構建可變剪切數據庫可變剪切是單個基因編碼眾多蛋白質亞型的重要機制。通過多種方法構建可變剪切數據庫對于驗證已有的及發(fā)現新的可變剪切方式、發(fā)現新 ORF 與新基因具有重要意義。我們整合已有的(如 Ensembl 數據庫)和預測軟件(如“AUGUSTUS”)預測的外顯子與內含子信息,構建含有基因多種可變剪切模型的數據庫。具體步驟包括:1)將基因(正鏈)的同一個轉錄本內的已知與預測的外顯子按 5'至 3'順 序排列后,依次按順序選取外顯子序列拼合組成所有可能的剪切方式;2)對于每一種拼接結果,截取拼接點左右各 90 個堿基序列(如果外顯子堿基數少于 90,則取其全部序列,截取過程中保留拼接點位置信息),從 該序列 5'端每次移動一個堿基共移動三次分別按通用密碼子翻譯成含有近 60 個氨基酸的肽段序列;3)去除不連續(xù)的無意義的蛋白質序列;4)位于反鏈上的基因將其轉錄本反轉成相應的正鏈堿基序列后按照前三個步驟構建可變剪切序列。為了應對 MS/MS 搜索后續(xù)的結果評估,上述三個數據庫還會與一個將靶序列打亂(shuffle)生成的“ 誘餌 ”(decoy)庫相結合,生成最終用于搜索的大型數據庫。任何一個在靶序列庫和 誘餌序列庫中同時出現的 8 氨基酸以上的序列都會被重新打亂(re-shuffled),以保證靶序列與誘餌序列之 間的重合度最小,方便后續(xù)鑒定結果假陽性率(false-discovery rate, FDR)的估算。二)建立基于肽段信息注釋基因組的方法流程通過 De Novo 方法直接分析和改善數據庫搜索效率,我們將盡可能從高精度 MS/MS 數據 獲得豐富的 肽段序列,并建立 MS/MS 對應的肽段數據庫。以此數據庫為基點可通過與對應的蛋白質信息聯配(alignment)至基因組上,將這些肽段延伸成開放閱讀框(ORF ),最 終生成一個“蛋白質組基因組學圖譜”(proteogenomic map)。這些基于肽段序列的基因 組注釋方法學將主要包括下列七個方面:1一 鑒定已知蛋白質的診斷(diagnostic)肽段結合完全匹配文本搜索和本地序列聯配方法(如 Perl 編寫的正則表達式),可鑒定出映射到已知編碼區(qū)域的基因內診斷肽段。由這種方法無法鑒定的肽段,運用 TBLASTN(使用 PAM30 矩陣)對它們親本(parent )基因的蛋白質產物進行聯配,只考慮 100%匹配的鑒定結果。2一 分類已知基因內的新診斷肽段將不能聯配于任意已知蛋白質的基因內診斷肽段聯配到從 UCSC 基因組網站上獲得的人類 ESTs 庫, MEGABLAST 使用步長 12。新 肽段完全包含在已注釋外顯子之內定義為 IE(intronic exon),肽段與已注 釋外顯子部分重疊分類為OE(overlapping exon),而完全未處于已注釋外顯子中的肽段定義為 NE (non-overlapping exon)。3一 定義新編碼區(qū)域對診斷肽段 NE 和 OE 編碼區(qū)域兩側延伸 1000 堿基對由 BLASTN 聯配到ESTs,只接受匹配重疊于 肽段編碼區(qū)域且 E 值小于 1e-6 的結果。新編碼區(qū)域的相應基因位置來自于從重疊 ESTs 生成的最長鄰近聯配窗。4一 鑒定蛋白質結構域(domain )分類為 OE 的診斷肽段以 BLASTP 聯配到他們的親本基因。可能包含新肽段的相應蛋白質隨后被計算確定。每個蛋白質序列使用 UNIPROT 和 PROSITE搜索其蛋白質結構域。從數據 庫中挑出重疊到新肽段區(qū)域的蛋白質結構域。包括新 OE 肽段序列的理論蛋白質亦基于如上所述的 BLASTP 相應產物生成。這些理論蛋白質也由 PROSITE 分析,并與原始蛋白質相比較,以額外氨基酸殘基的存在確定引入蛋白質結構域的變化。5一 校正開放閱讀框在當前基因模型之外發(fā)現的新肽段中,當有些新肽段位于已知的基因座(gene locus)時,這些與基因座的編碼區(qū)域重合的肽段將位于一個新閱讀框內。為了(至少在一定程度上)證實這些被錯誤預測的基因的存在,我們用幾個特征篩選這些新肽段:位于已知閱讀框外的新肽段要多次出現,超出閱讀框外的氨基酸個數至少為 3,與已知數據 庫中的序列沒有沖突。6一 分析基因的可變剪切可采用兩種策略,篩選跨越基因組上剪切位點邊界的肽段,對已知的基因可變剪切模式進行注釋或發(fā)現基因的新剪切方式:1)利用整合的現有的蛋白質公共數據庫與使用“ 六位移碼翻 譯” 方法得到全基因組 ORF 數據集,將高通量質譜鑒定到的肽段以無間隙(no gap)方式匹配到這些蛋白質序列。將匹配到的蛋白質重新比對到基因組后得到這些肽段在基因組上的位置信息。2)直接利用構建的“ 可變剪切庫”及其保留的可 變 剪切位置信息,合并入一個 競爭性數據庫。篩除最佳匹配出現在競爭性數據庫中的肽段,篩出跨越可變剪切位點的肽段。7一 整合肽段開發(fā)新的基因預測算法將質譜鑒定到的肽段用 TBLASTN 算法對齊到基因組序列上。根據肽段在基因組上的位置為每個核苷酸指派狀態(tài),用隱馬爾可夫方法建立基因預測模型,并估計模型參數。用此模型與 傳統(tǒng)的基因預測方法(如:GENESCAN,TWINSCAN,N-SCAN)結合進行基因預測,包括:啟動子,5 端非翻譯區(qū),外 顯子,內含子,3 端非翻譯區(qū),基因間區(qū)域。三)利用 MS/MS 所鑒定的肽段補充和修訂基因組蛋白 質編碼基因1) 線蟲蛋白質組數據對其基因組蛋白質編碼基因的補充和修訂我們將以線蟲(C. elegans)為例建立以蛋白質組學質譜數據解讀基因組的方法流程。線蟲擁有多細胞生物中最小的基因組,是基因組研究最完整的高等真核生物之一,而且其基因組包含外顯子、內含子、可變 剪切等類似于人類基因組的復雜結構。 線蟲的蛋白質組 學質譜鑒定數據豐富,已從文獻入口下載五套,分 別來自 PLoS Biol. 2009 Mar 3;7(3):e48;Genome Res., 2008 Oct;18(10):1660-9;Biochem Biophys Res Commun. 2008 Sep 12;374(1):49-54;J Proteome Res. 2006 Sep;5(9):2448-56;Journal of Proteome Res, 2003, 2 (1):23-25。同時,我 們也將和課題 4 合作,利用 FTMS 或 Orbitrap 質譜儀分析線蟲蛋白質組,試圖獲取高精度MS/MS 數據服 務于新蛋白 質編碼基因的發(fā)現。 因此, 線蟲是建立用蛋白質組信息注釋基因組方法的最佳模型之一。我們將整合多套蛋白質組學數據,特別是結合 De Novo 數據和肽段對基因組的注釋技術,把鑒定的肽 段通過蛋白質信息聯配到線蟲基因組上,開展預測基因、發(fā)現 新基因、判斷假基因、 證實可變剪切等分析。2) 人體肝臟蛋白質組數據對人類基因組蛋白質編碼基因的補充和修訂中國人體肝臟蛋白質組數據庫是當前世界上最大的人類組織蛋白質組的數據庫,擁 有超過 3 千萬個高 質量的 MS/MS 圖譜。我 們將與課題 1 和課題 4 合作發(fā)掘其中所蘊含的肽段信息,特別是關注那些不曾被基因組所注釋的肽段,然后采用肽段信息注釋基因組的分析流程,試圖補充或修訂人類基因組的蛋白質編碼基因。課題承擔單位:上海生物信息技術研究中心課題參加單位:中國科學院北京基因組研究所課題負責人: 石瑜科研骨干:謝鷺、武鈞、任艷經費比例:23%課題 3.基于高精度質譜數據的蛋白質表達譜定量計算方法的研究及應用課題背景生物機體中蛋白質豐度以及修飾狀態(tài)與其生物功能有著密切的聯系。就定量的計算方式而言,蛋白質組 的定量分析分為相對和絕對定量兩大類,就實驗方法而言,又分為有標記定量和無標記定量。相 對定量蛋白質組學也稱比較蛋白質組學,是指對不同生理病理狀 態(tài)下細胞、 組織或體液蛋白質表達量的相對變化進行比較分析,從而發(fā)現表征生物差異的蛋白質。 絕對 定量蛋白質組學是測定某一蛋白質組中每種蛋白質的絕對量或濃度,對研究蛋白質相互作用網絡、疾病診斷和監(jiān)測等都具有重要意義。隨著實驗技術的進步,利用質譜數據的逐漸成為蛋白質組定量分析的主流方法。在 質譜定量分析中, 穩(wěn)定同位素標記技術通過代謝、化學標記方法在肽段上引入質量標簽(mass tag),以區(qū)分不同狀態(tài)的樣品,是比較成熟的定量方法。但是,它需要比較復雜的標記實驗 完成樣品處理, 較難避免標記化學反應的不完全, 而且不同質量標簽標記 的肽段信號同時出現在一張質譜圖中,限制了定量的動態(tài) 范圍。與之相比,無標記 定量不需要額外的實驗設計來引入質量標簽,利用一次或多次獨立實驗中質譜的物理信號(離子流色譜峰(extracted ion chromatograms, XIC)面積、母離子信號強度(parent intensity)、圖譜計數(spectral counting)或者帶有搜庫分值校正的圖譜計數等)來表征肽段的表達豐度,從而推算蛋白質表達豐度,動態(tài)范圍比較寬,既可實現相對定量,也能計算絕對定量,因之是發(fā)展速度很快的一種定量技術。值得指出的是,無標記定量數據分析研究工作還剛剛興起。無論從算法工具還是就應用報道而言,其研究工作遠遠少于同位素標記的定量蛋白質組研究。我們認為,在 這個領域中有三個 問題需要給與優(yōu)先關注。1一 蛋白質表達譜定量算法動態(tài)范圍、準確程度等方面的分析、比較和優(yōu)化:雖然肽段計數定量方法在定量分析中已經取得了初步的應用,但目前的方法還缺少能夠在組織器官樣品中大規(guī)模應用的驗證。很多文獻提出了肽段計數定量指標的校正方法,也有很多研究指出,肽段計數定量的動態(tài)范圍和精度都不如離子流色譜峰面積,并且很多研究是針對差異比較的,絕對定量或者半定量的準確性問題怎樣分析還是需要探索的問題。此外,低豐度蛋白質的定量可能是困擾很多定量方法的重要問題。在對表達譜數據進行規(guī)?;糠治鲋?,需要設計標準實驗,對各種定量計算方法進行分析、比 較和優(yōu)化,驗證方法的定量精度、動態(tài)范圍,找出影響該定量指標計算的重要因素,改 進和優(yōu)化,甚至重新 設計新的定量方法。在確定定量方法后,還需要探索性研究肽段的質譜分析效率問題, 肽段定量分析的基質效應和離子抑制效應問題,利用標準實驗數據構建肽段分析效率預測模型,構建絕對定量的校正曲線,以 實現更為精確的絕對定量。2一 質譜數據庫建設及分析平臺構建:無標記定量技術建筑在高質量的質譜數據庫的基礎之上。在以往的蛋白質組數據中,蛋白質鑒定占了較大的比重,但是質譜數據庫的建設的重視是不夠的。比如,離子流色譜峰在定量計算上似乎有一定的優(yōu)勢,但是它的實驗 重現性較差,而目前大型的蛋白質組數據庫中并沒有相應的離子流色譜峰海量數據,很難開展這方面的統(tǒng)計計算工作。在 MS/MS數據上也存在相同的問題,不同的質譜儀或不同的搜索引擎可能產生明顯的MS/MS 譜圖 差別,直接影響了定量的計算。雖然數據 庫及分析平臺是蛋白質組研究的基礎及保障。因此,課題 1 的研究方向與本課題 有密切的相關性, 標準化的高精度 MS 和 MS/MS 將在很大程度上決定了無標記定量法的準確與否,尤其是 MRM 技術在蛋白質組 定量上的應用更是如此。3一規(guī)模化蛋白質組表達譜定量的可視化研究:蛋白質表達譜不能僅僅說明有多少蛋白質在特定的組織或細胞中存在,更為重要的是要能夠確切表示蛋白質豐度的相關信息。問題還 不限于此,即使一個 組織 或細胞中含有的定性和定量信息可以準確測定,如何將 這些信息科學地表達出來?特別是給生物學家提供一種定量表示方法,既容易充分理解定性和定量的相互關系,又為探索功能提供定量信息。Heat Map 方法是生物學家較為廣泛采用的圖形表示方法。它的特點在于多維地展示信息、靈活地聚 類分析功能。 Bergeron 等人所提出的 gene-centric就是 Heat Map 圖示法的一種。作為一個新型的蛋白質表達譜的定量分析方法,gene-centric 在大規(guī)模蛋白質組數據分析的應用還待研究 發(fā)展。首先, gene-centric方法雖已成功地分析了小規(guī)模蛋白質組分析,但是它并未有運用于大規(guī)模的蛋白質組數據的先例。對于海量的質譜信號, gene-centric 方法是否能避免假陽性的干擾?是否能有效合理地利用冗余肽段信息?是否可找到合適的圖形定量方法描述規(guī)?;康鞍踪|組數據? 這些問題是必須直面的。其次,我們缺乏對gene-centric 分析結果的系統(tǒng)比較,尤其是與其他蛋白質組定量分析結果的平行比較。再次,gene-centric 方法在具體的統(tǒng)計學計算中存在很大的改善空間,諸如MS/MS 信號的 篩選,修 飾 和非修飾肽段的區(qū)分和權重,大 規(guī)模定量數據的歸一化等等。研究目標一一在標準實驗的支持下,建立優(yōu)化的蛋白質表達譜定量算法庫;一一規(guī)?;康鞍踪|組分析方法和可視化研究;一一構建以基因為中心的定量蛋白質數據庫和分析平臺。研究內容一一蛋白質表達譜定量算法研究我們將在標準定量蛋白質組實驗數據的基礎上,發(fā)展基于不同質譜譜圖的蛋白質定量算法,結合豐度校正曲線,建立一套切 實 可行的無標記蛋白質定量方法。1一 基于質譜譜圖的定量算法方法針對現有儀器適用的全譜絕對定量算法,使用標準數據集對方法的精度、可重復性等進行比較研究。算法研究的內容包括:SC 校正方法,MS 圖譜信號提取和處理算法,肽段和蛋白質 定量指標計算方法,重復實驗結果整合算法,共享 肽段的處理算法等。2一 與定量算法相匹配的標準蛋白質組定量實驗我們將和課題 4 密切合作,設計實驗,采用復 雜樣品中添加少量標準蛋白質的方法,利用不同濃度的質譜 分析,研究和 優(yōu)化無標記 定量算法,并且 對定量結果的準確性進行評價,估計 定量結果的誤差范圍。3) 不同質譜數據的定量校正方法研究利用標準實驗數據,研究質譜信號的飽和效應、肽段在 LC-ESI 過程中分析的交互影響等制約無標記定量精度的問題,針對現有蛋白質組數據采用的實驗平臺,構建 LC-MS 分析的標準校正曲線,以得到更加精確的定量結果。質譜信號是肽段離子打在檢測器上放大得到的,放大器的線性范圍有限,信號到達一定強度后就會達到飽和,響應信號不再與肽段離子豐度成正比,造成定量結果的不準確。利用標準實驗方法研究質譜信號相應的飽和效應,估計其線性范圍和校正方法,可以進一步提高絕對定量的精度。在 MALDI 源的質譜分析中,基質效應會嚴重影響肽段的分析效率,導致肽段的質譜響應信號與其濃度不成比例,而在 LC-ESI 技術路線中,肽段離子信號會存在離子抑制效應,導致有的肽段分析效率很低,其質譜信號也不能代表其真實豐度。另外, 對于復雜體系的肽段混合物來說,LC 分離過程中,其流出曲線會相互影響,導致肽段的圖譜計 數也不能正確反映其真實濃度,這些因素最終都會影響蛋白質定量的準確性。利用標準實驗, 對這些因素 進行分析,既可以 驗證肽段計數方法定量的動態(tài)范圍、準確性,也能為定量指 標計算的改進提供新的思路。一一 蛋白質組表達譜定量分析及可視化研究改進和設計針對定量分析的數據標準,設計規(guī)模化蛋白質組表達譜定量分析方法,連接數據分析和生物學分析,提供數據可 視 化方法。1一 多重來源蛋白質組數據的定量歸一化方法研究由于質譜技術的局限和蛋白質組的高度復雜性,低豐度蛋白質的鑒定需要大量的重復實驗,而原理不同、實驗策略的不同可以 為蛋白質鑒定提供互補信息。在人類組織蛋白質組研究中,采用了多儀器平臺、多實驗策略和多家實驗室合作研究的技術路線,在定量分析中,怎樣將不同實驗技 術路線的定量結果進行整合是一個必須研究的問題。不同 質譜平臺對同一蛋白質的響應信號會不同,由于采樣效率不同,肽段和圖譜計 數也相差很大。 為了最大程度地利用現有的- 配套講稿:
如PPT文件的首頁顯示word圖標,表示該PPT已包含配套word講稿。雙擊word圖標可打開word文檔。
- 特殊限制:
部分文檔作品中含有的國旗、國徽等圖片,僅作為作品整體效果示例展示,禁止商用。設計者僅對作品中獨創(chuàng)性部分享有著作權。
- 關 鍵 詞:
- 基金 標書 2010 CB912700 蛋白質 海量 數據 解析 及其 人類基因組 注釋 中的 應用
裝配圖網所有資源均是用戶自行上傳分享,僅供網友學習交流,未經上傳用戶書面授權,請勿作他用。
鏈接地址:http://www.3dchina-expo.com/p-284539.html