找回密码
 新注册用户
搜索
查看: 15601|回复: 6

[转+部分综合]各种蛋白质计划的不同

[复制链接]
发表于 2007-12-11 20:06:23 | 显示全部楼层 |阅读模式
[簡介]各種蛋白質計畫的不同
原文链接地址:http://tw-dclub.com/forum/viewtopic.php?t=656
感谢 davidash & BOINC

我們從各計畫的描述和目的來區分它們的不同之處。  (by davidash & BOINC)

Folding@Home:
-蛋白質摺疊
計畫資訊摘自: Scientific Background
引用:
為了解決蛋白質摺疊問題,我們必須打破“百萬分之一秒障礙”。
我們團隊已經發展出許多可以打破“百萬分之一秒障礙”的蛋白質摺疊的新模擬方法,而這個方法是把工作分給許多的處理器,且速度的成長倍數與處理器的數目呈現近似線性的關係。
因此,以Folding@Home的力量(超過100,000個處理器),我們已經成功地打破“百萬分之一秒障礙”,模擬千分之一秒的摺疊時間,並幫助解開蛋白質如何摺疊的秘密。

Predictor@Home
-預言者
計畫資訊摘自: The Predictor Plan:
引用:
Preditor@Home的短程目標是測試和評估蛋白質結構預測的新演算法及方法。近程來說,我們會把P@H對一些已知結構的處理方式做校準。遠程來說,我們希望將P@H開放成為幫助預測蛋白質結構的資源。
另外,參考Chahm
Predictor@Home與Rosetta@Home這兩個計畫的一般目標有許多相似之處:兩者目的都是使用由BOINC社群所計算出的結果去改進使用於蛋白質結構預測的演算法及參數,並改進這些最先進的方法以處理研究目標的生物化學問題。而這兩個計化的最大差異處在於他們所研究的特定目標不同:Rosetta@Home著重於蛋白質設計,而Predictor@Home目標是對蛋白質系統搜集大量的平衡分子動力學資料。
不同之處在於這兩個計畫所使用的結構預測方法。不同建構方法的兩個差異點是(1)對構造空間的取樣方法,及(2)能量評估的的潛能函數。Predictor@Home現今使用的是一種兩階段多重比例的結構預測方法。
第一步,Mfold,使用一種低解析度的蛋白質鍊表示法,而每種氨基酸都被表示成三維網格中的一個點。許多可能的蛋白質幾何是以重覆的MonteCarloMethod來取樣。蛋白質鍊漸漸從高溫展開狀態冷卻至生理學上的溫度,能量是以一種知識基礎潛能函數來評估。Mfold產生了大量的低能量、類蛋白質的結構,並被轉換成有三個接觸的全原子蛋白質表示法。
第二步,CHARMM精製化,使用在第一步中所產生的低能量結構來模擬分子動力學。CHARMM使用一種以物理學為基礎的潛能函數,包含了一種隱性的模型來決定粒子間的交互作用能量,以及能量評估。在分子動力學的模擬中,蛋白質的動作是根據牛頓運動定律,以一種時間相依的方式來得到。第二步可把從第一步中得到的低解析度的蛋白質鍊精煉成更像蛋白質的高解析度結構,同時也可得到更精確的能量估計函數來選擇最佳架構。
也許Predictor@Home與Rosetta@Home這兩者用的方法最大的不同處在於他們對構造空間的取樣方式。Mfold是以一種更真實的、從頭開始的方法對所有幾何上可能的區域構造做取樣;而Rosetta@Home則是從先前已知結構的資料庫中使用區域結構的片段。


Rosetta@Home
-蘿西塔
計畫資訊摘自Research Overview
引用:
我們目前的研究目標是發展一種改良的[分子內]與[分子和分子間]互動模型,進而使用這種模型來預測及設計大分子結構與互動。預測與設計的應用,除了在生物學上有重大意義之外,也提供了可以改進此模型與增進基本了解的客觀、令人信服的方法。
我們用一個叫做Rosetta的電腦程式來實現蛋白質設計計算。Rosetta的核心是計算大分子內、及分子與分子間互動能量的潛能函數,以及尋找氨基酸序列或蛋白質複合物之最低能量結構(此為蛋白質結構預測),以及尋找單一蛋白質或蛋白質複合物的最低能量氨基酸序列(此為蛋白質設計)。預測與設計測試的回饋結果被用來持續地改進潛能函數和搜尋演算法。發展一個可以處理如此多樣化的問題的電腦程式有許多好處:首先,不同的應用提供了底層的物理模型(基礎物理或物理化學)的互補測試;其次,許多目前受重視的問題,像是彈性骨架的蛋白質設計,及蛋白質間的彈性骨架結合,關係到許多不同最佳化方法的組合。
研究團隊投入在基礎方法的發展研究,並嘗試更直接地對抗疾病。在這個網站中,大部分資訊主要集中在基本的研究內容,但我認為使用者們可能會對我們在疾病相關的研究內容感到興趣。
*瘧疾:我們參加了一項由倫敦大學帝國學院的Austin Burt所領導的合作計畫,這個計畫也是蓋茲基金會“GrandChallenge Projects in GlobalHealth”其中的一個。瘧疾的成因是寄生在蚊子上的瘧疾原蟲,並經由蚊子叮咬後傳染給人類。這項計畫的想法是要消除蚊子身上的某些特殊基因,使得蚊子對瘧疾原蟲有抵抗能力,讓瘧疾原蟲不能寄生。我們參與此計畫的部分是利用電腦設計方法(Rosetta)來創造新酵素,這些酵素會以那些特別的基因為目標,並使它們失去活性。
*炭疽熱:我們幫助哈佛大學的一個研究團隊建構炭疽毒素的模型,這將對治療法的發展有幫助。使用者可以從這篇論文的摘要中獲得一些資訊。
*人體免疫缺損病毒(愛滋病病毒):愛滋病會致命的原因之一是因為它已經發展出欺騙人體免疫系統的手段。我們與西雅圖的研究人員以及美國國家衛生研究院合作,試著發展愛滋病的疫苗。我們在這個計畫中扮演中心角色─我們使用Rosetta設計一些小的蛋白質,這些蛋白質可以顯示出HIV coatprotein的一些關鍵區域,而讓人類免疫系統可以輕易地識別出它並製造抗體。我們的目標是創造出小的、穩定的蛋白質疫苗,而這些疫苗的製作費用非常低且可以運到世界各地。
您可能會好奇,蛋白質結構預測和設計新的蛋白質這兩者之間有什麼關係,事實上他們關係密切。因為您的參與,將對我們製造新酵素與疫苗的方法有直接的改進。


SIMAP@Home
-蛋白質相似矩陣
計畫資訊摘自About SIMAP
引用:
SIMAP是什麼?
SIMAP(Similarity Matrix ofProteins)是一個“蛋白質相似性”的資料庫。它幾乎包含了現今所有已公開的蛋白質序列,並持續更新中。蛋白質相似性經由FASTA演算法計算而得,提供了最佳的速度及敏感度。SIMAP是我們所知唯一一個能廣泛地涵蓋所有已知蛋白質資訊,並且有更新能力的計畫。
SIMAP用來做什麼?
因為在公開資料庫中,已知的蛋白質序列數量非常龐大,所以決大多數不能在短期內以實驗的方法來認定其特性。然而,從一個共同的根源所演化出來的不同蛋白質,常有一些相同的功能(所謂的“同源基因”,orthologs)。因此,我們也許可以從某個已知的功能,藉由同源基因的關係去推論出另一個尚未被認定特性之蛋白質的功能。一個著名的例子是關於老鼠的基因和蛋白質的研究。這些結果和他們同源的人類基因與蛋白質在許多方面都是正確的。蛋白質相似性提供了蛋白質間關係的資訊,此外,對同源基因預測而言也是必須的。許多生物資訊方法需要仰賴蛋白質相似性資訊。我們的蛋白質相似性資料庫提供了預先計算過的相似性資料,也代表了已知的蛋白質空間。與一般的方法(重覆地再計算這些資料)來比較的話,這個方法開啟了一個全新的觀點。SIMAP有定期的更新。相似性矩陣會隨著新序列的發現而逐漸擴大。在教育及公開研究用途上使用SIMAP是完全免費的。
為什麼需要以分散運算的方式來實現SIMAP?
計算相似性資料所需的計算成本是跟它所含的序列數量的平方有關,所以為了讓這個矩陣保持在最新狀態所需的計算量也一直在增加。我們從幾年前開始用來執行SIMAP運算的內部資源,也變得不足以應付所有新的序列。這就是我們在BOINC平台上實做了SIMAP客戶端程式的原因。它是一個以FASTA演算法為基礎,用來偵測序列相似性的程式。我們現在正在做最後的測試,並且將在近期內啟動一個對SIMAP相似性計算有貢獻的BOINC計畫。
簡言之, Folding@Home/Predictor@Home/Rosetta@Home/World CommunityGrid/這些計畫用來測試蛋白質摺疊(最佳化學結構);而SIMAP則是分析這些已存在的資料庫(基於FASTA演算法),來偵測序列的相似性。有著相似氨基酸序列的蛋白質可能會展現出相同或相關的功用。FASTA查詢包含了四個部份:雜湊(Hashing),計分(Scoring)1 +2,及排列(Alignment),(詳情如下)。序列排列的目的是為了找出的種系發生及蛋白質功用相似性。
(引用)
FASTA動畫及資訊
•        FASTA動畫swf檔
•        FASTA
FASTA格式,為FASTA演算法的輸入資料,也是許多其他生物資訊應用上的輸入資料,描述如下:
•        FASTA格式描述

(以上by davidash)

World Community Grid-IBM世界社群網格
的人類蛋白質摺疊計畫將利用網格結合數百萬電腦的運算力;幫助科學家了解人類基因如何摺疊。它透過網格來分擔這項重大工作,預計完成的速度會比使用一般超級電腦快上許多。我們對基因結構有更透徹的了解之後,科學家就能知道疾病如何作用,最終發現解藥。此網格軟體運行時以不同的方法摺疊一條氨基酸鏈;並且評估氨基酸每一次的摺疊是否符合特定的摺疊法則而妥善的鏈結在一塊。電腦嘗試數百萬種氨基酸鏈的摺疊方法;試圖使摺疊結果與人體的實際情形一致。在每一個蛋白質中被認定為最好的形狀將回傳給科學家做更進一步的研究。這個程式的名字叫羅西塔。它計算"羅西塔績分"根據許多評分法則來計算績分,可以評估基因折疊的正確性。績分越低的結果越可能被排除,越高則反是。
蛋白質是建構起所有生命作用的基本建材,它是一串串名為「氨基酸」的長長分子鏈。酵素(酶)是加速生物化學作用的特定蛋白質。蛋白質分解酶是一種能切割蛋白質的酵素。例如,當你食用含蛋白質的食物,這些蛋白質分子就在你的胃裡被蛋白質分解酶給切割開來,然後你的身體就能利用這些氨基酸來製造它所需的蛋白質。雖然生物所擁有的蛋白質分解酶只佔所有蛋白質的一小部分,但它們對生命過程的正確運作卻至關重要。
你的電腦將幫助模擬許多使用在HIV-1蛋白脢的配體的結合過程。這個軟體叫AutoDock。最有希望的配體將由科學家作更進一步的研究,應當能藉此製造出更好的蛋白脢抑制劑來控制HIV,最終避免AIDS的發病。


TANPAKU
-蛋白質です
藉電腦預測蛋白質結構有相當實益,但涉及的計算量太過龎大,儘管電腦的計算能力大幅的增長,但即使用最尖端的電腦也無法在合理的時間內完成計算。
研究人員提出許多方法試圖克服這個難題。本實驗室以”布朗運動”模擬而發展出的”布朗動力學(Brownian Dynamics-BD)方法”從事研究,已經有少許成果。與一般慣用的方法相比,BD讓我們在更少的計算時間內得到較長時間的模擬成果。
(以上by BOINC)


討論本文翻譯請至


**************************************************************************

原帖由 BiscuiT 于 2009-3-3 21:48 发表
资讯来源 <wikipedia>

Rosetta@home
Rosetta@home的一个主要目标是在显著降低时间和金钱成本的情况下,预测蛋白质结构,并且达到与现有实验方法同样的精度。Rosetta@home还开发了确定膜蛋白(如G蛋白偶联受体)结构和对接的方法。膜蛋白是现代药物设计的主要目标,但通过X射线晶体学、核磁共振等传统技术却极难获得其结构。

Rosetta@home也被用于蛋白质-蛋白质对接预测。这项预测确定蛋白质复合体结构或者四级结构。这一类型的蛋白质交互作用影响到许多细胞功能,包括抗原-抗体、酶-抑制剂捆绑等。确定这些交互作用在药物设计中十分关键。Rosetta被用于交互作用预测的关键测试(CAPRI)实验。这项实验评估当前最前沿的蛋白质对接技术,评估模式与CASP类似。Rosetta在这项实验中得到的结果属最精确、最完整之一,而志愿者提供的计算资源被认为是Rosetta获得成功的主要因素之一。

Rosetta@Home还开发了一款电子游戏Foldit,目的是通过众包(crowdsourcing)途径来实现上述研究目标。

除了蛋白质结构预测、对接、设计等基础研究,Rosetta@home也被用在疾病相关研究。大卫·贝克的Rosetta@home日志上描述了许多附属的研究项目:

阿兹海默病
Rosetta套装软件当中的一个组件RosettaDesign,被用来精确预测淀粉样蛋白(amyloidogenicprotein)的哪个区域最可能形成淀粉样纤维。通过获取蛋白质中的六肽(6个氨基酸长度的片断),选择与一个已知能够形成纤维的六肽相匹配的最低能量结构,RosettaDesign能够识别出形成纤维可能性为随机蛋白质两倍的肽段。在此类研究中,Rosetta@home被用于预测β淀粉样蛋白的结构。β淀粉样蛋白是一种能够形成纤维的蛋白质,被认为会引起阿兹海默病。RosettaDesign一项尚未发表的初步结果设计出了也许可以预防纤维形成的蛋白质,但它能否预防这种疾病尚不得而知。

炭疽病
Rosetta的另一个组件RosettaDock与实验方法相结合,被用于构造致死因子(lethal factor,LF)、水肿因子(edemafactor,EF)和保护性抗原(protectiveantigen,PA)等三种蛋白质的交互作用模型。这三种蛋白质构成了炭疽病毒素。这个模型精确预测LF与PA之间的对接,帮助确定两种蛋白质分别有哪些结构域参与到LF-PA复合体的构造中。这项成果最终被应用到改良的炭疽病疫苗的研制。

单纯疱疹病毒1型
RosettaDock还被用来构造一种抗体(免疫球蛋白G)与能够使抗病毒抗体退化的单纯疱疹病毒1型(HSV-1)表面蛋白之间的对接模型。RosettaDock预测的蛋白质复合体与极难得到的实验模型近乎一致。研究人员总结说,这种对接方法有望解决X射线结晶学方法构造蛋白质-蛋白质界面模型所遇到的一些问题。

HIV
作为一项获得比尔与美琳达·盖茨基金会1940万美元资助的研究项目的一部分,Rosetta@home被用于设计人类免疫缺陷病毒(HIV)疫苗。

疟疾
在与“全球重大卫生挑战计划”相关的研究中,Rosetta还被用于运算设计新型的归巢核酸内切酶蛋白质。这种蛋白质能够根除冈比亚疟蚊或者使这种疟蚊无法传播疟疾。由于能够构建及改变蛋白质-DNA交互作用模型,特别是归巢核酸内切酶蛋白质等,像Rosetta这一类运算蛋白质设计方法成为基因治疗中的一个重要角色。


Folding@home
斯坦福大学开发的Folding@home是与蛋白质研究相关的主要分布式计算项目中唯一不使用BOINC平台的。Rosetta@home与Folding@home都研究蛋白质错误折叠疾病(如阿兹海默病),但Rosetta@home还进行其他研究,而Folding@home则主要集中于这类研究。Folding@home并不采用基于结构或者基于设计的方法来预测淀粉体行为,而是采用分子动力学方法来构建蛋白质折叠活动(以及可能的错误折叠和聚合)的模型。换言之,Folding@home的优势在于模拟蛋白质折叠活动,而Rosetta@home的优势则在于蛋白质运算设计以及蛋白质结构和对接的预测。这两个项目在计算资源和主机分布上也存在显著差异。Rosetta@home的主机群体基于PC,而Folding@home的主机群体包括了PlayStation 3和图形处理器。


世界公共网格(WCG)
世界公共网格的子项目人类蛋白质组折叠项目(HPF)1期和2期均使用Rosetta程序来为不同的基因组添加结构和功能注解。人类蛋白质组折叠项目的首席科学家里夏尔·博诺在华盛顿大学贝克实验室攻读博士学位期间积极参与了Rosetta的早期开发,但他现在主要使用Rosetta来为生物学家创建数据库。他的个人网站上设置了关于HPF1、HPF2的信息布告板。


Predictor@home
与Rosetta@home相似,蛋白质结构预测也是Predictor@home的研究重点。Predictor@home还计划在其分布式计算平台上开发蛋白质设计与对接的新研究领域(采用分子动力学的CHARMM软件包)。这将使它与Rosetta@home更加相似。进行结构预测时,Rosetta@home使用的是Rosetta程序,而Predictor@home则使用dTASSER方法。

其他
BOINC平台上其他的蛋白质相关分布式计算项目包括QMC@Home、Docking@home、POEM@home、SIMAP和TANPAKU。RALPH@home是Rosetta@home的alpha版本,用来进行新应用程序、工作单元以及更新被添加到Rosetta@home之前的测试工作。RALPH@home也在BOINC平台上运行。


**************************************************************************

另:

请参考

[转贴]F@H 与 R@H的不同
Predictor,Rosetta和folding三者有什么不同?
WCG的Human Proteome Folding和Rosetta@home的关系


#2  [再转]为什么Rosetta和SIMAP的包这么大呢?
#4  [继续转]研究的是不是重复了?

#5-#6 使用 Blue Gene/L 建立蛋白质模型

[ 本帖最后由 Julian_Yuen 于 2009-7-23 23:15 编辑 ]

评分

参与人数 1维基拼图 +5 收起 理由
霊烏路 空 + 5

查看全部评分

回复

使用道具 举报

 楼主| 发表于 2008-1-11 23:42:23 | 显示全部楼层

[再转]为什么Rosetta和SIMAP的包这么大呢?

感谢 feynord

原帖由 feynord 于 2008-1-11 19:26 发表
Rosetta和SIMAP都是计算生物类项目的,是计算蛋白质结构相关的问题的。

于是这就涉及到一个问题了:
如何用文本文件来表示一个蛋白质大分子的结构呢?

答案是:用PDB文件格式(XXXX.pdb)。

我把一个4M的Rosetta包解压,用写字板打开,看到了如下信息:
1a34 A   147 C L  -99.282  148.435 -172.588    2.080   12.148    37.577 3     0.000 P  1 F  1
1a34 A   148 R L  -78.555  -12.931  180.622    2.080   12.148    37.577 3     0.000 P  1 F  1
1a34 A   149 Q E -141.675  144.648  178.287    2.080   12.148    37.577 3     0.000 P  1 F  1
1a34 A   150 V E -135.523  132.709  177.207    2.080   12.148    37.577 3     0.000 P  1 F  1
1a34 A   151 A E  -95.989  128.928  181.811    2.080   12.148    37.577 3     0.000 P  1 F  1
1a34 A   152 L E -112.677  145.372  171.467    2.080   12.148    37.577 3     0.000 P  1 F  1
1a34 A   153 V E -129.360  106.872 -172.512    2.080   12.148    37.577 3     0.000 P  1 F  1
1a34 A   154 I E -105.224  125.366  173.825    2.080   12.148    37.577 3     0.000 P  1 F  1
1a34 A   155 S E  -97.403  119.274 -174.550    2.080   12.148    37.577 3     0.000 P  1 F  1
(这只是一段,还有很多段)

以第一行为例解释一下:
1a34:这个蛋白质的PDB序号。PDB序号是PDB蛋白质结构数据库(www.pdb.org)中的蛋白ID,一个号对应一个蛋白结构;
A:A链。一个蛋白质可能有几条链。
147:氨基酸序号。氨基酸是组成蛋白质的小片段,一个链可以有从1到N,N个连续的氨基酸。
C:氨基酸类型。C指CYS,半胱氨酸。
L:不知道。可能有Rosetta自设的意义。欢迎补充!
-99.282  148.435 -172.588:三维坐标。按照这些坐标,判定了每一个原子(氨基酸残基)的位置,进而可以推知整个蛋白的结构。
后面的数一般不重要,也可以是Rosetta自定的参数。

有兴趣可以从www.pdb.org上检索PDB序号(例如1a34),下载1a34.pdb,用写字板打开查看相关信息,或者用网站上提供的视图软件显示蛋白质的结构。1a34的结构图见下。

由上面可以看出,表达一个原子(氨基酸残基)的位置及相关信息,需要一整行字符!
如果这个蛋白有上千个残基,上万个原子。。。
所以蛋白质PDB大小,一般从从几百k到几M不等(压缩之前)。如果像Rosetta那样把多个序列放在一个包里,自然就更大了。

这也就决定了计算蛋白质的项目,可能包会比较大!
当然,也可能比较耗内存了!

所以计算Rosetta或SIMAP或其他蛋白质类项目的朋友千万别生气,包大完全是项目性质决定的!



期待 feynord 把本坛蛋白质科普工作发扬光大(汗,就他一人的话,任务似乎有些重了...

ps:唉,可怜,说好听了是“转”,说难听了是“抄”啊....orz 大家不要揭发我哦

评分

参与人数 1维基拼图 +5 收起 理由
霊烏路 空 + 5

查看全部评分

回复

使用道具 举报

发表于 2008-1-11 23:59:18 | 显示全部楼层

回复 #2 Julian_Yuen 的帖子

没办法啦.我们大部分没有相关的知识,看不懂唉.
回复

使用道具 举报

 楼主| 发表于 2008-2-21 22:54:24 | 显示全部楼层

[继续转]研究的是不是重复了?

感谢feynord  


问题:
原帖由 gaoxiang5220977 于 2008-2-20 14:57 发表
这些项目都有什么区别?研究的是不是重复了?
Folding@Home,POEM@HOME,Predictor@Home,Proteins@home,Rosetta@Home,SIMAP,Tanpaku,Human Proteome Folding 2



回答:
原帖由 feynord 于 2008-2-21 13:21 发表
研究肯定不重复,但原理只有一条:
通过氨基酸序列,按照一定方法,可以预测出蛋白质结构,进而设计药物

这些项目无非是致力于:
改进方法(从头设计,同源模建)
预测蛋白质结构
设计药物

有的项目,像Rosetta三样都做,以改进方法为主(从头设计),通过预测结构来检验方法,顺便设计药物。
其他做改进方法的项目大都是针对从头设计方法的。
像SIMAP就比较独特,主要目的就是改进方法(同源模建)。

所谓从头设计,就是通过未知氨基酸序列来预测结构。
所谓同源模建,就是通过与未知氨基酸序列很相似的已知蛋白的结构,来预测未知蛋白的结构。
所以从头设计要难一点,但更通用。
回复

使用道具 举报

 楼主| 发表于 2009-7-23 23:00:33 | 显示全部楼层

使用 Blue Gene/L 建立蛋白质模型

中文 http://www.ibm.com/developerworks/cn/linux/l-bluegene/index.html?ca=drs-cn-0723
英文http://www.ibm.com/developerworks/linux/library/l-bluegene/index.html?S_TACT=105AGX52&S_CMP=content

通过在超级计算机上建模和虚拟化数据来促进科学发展


级别: 初级
T.J. Christopher Ward, 高级软件工程师, IBM
Ruhong Zhou, Ph.D., 研究组成员, IBM


2009 年  7 月  23 日
Blue Gene®/L 超级计算机为科学家提供了一流的计算能力和复杂的数据虚拟化工具,帮助他们深入学科的前沿。了解此项技术如何帮助计算分子生物学家创建蛋白质折叠和错误折叠模拟,以更多好理解这些复杂的分子。


2001 年,IBM 的研究科学家着手开始设计一种新的服务器系列,即现在的 IBM System Blue Gene®。这些服务器从 2004 年开始投入使用 — 首先是 Blue Gene/L(本文所讨论的主题),然后是 Blue Gene®/P。

BlueGene 系列超级计算机采用标准的编程环境,旨在提供超大规模的性能;它们还旨在提高电能、散热和厂房的效率。许多大学、政府和商业研究实验室都使用Blue Gene研究射电天文学、蛋白质折叠、气候、宇宙学和药物开发。该系统为科研方式带来的变化是相当巨大的,因为它提供了一个更加高效的工具,用于设计和运行替换版本的复杂模型。

在本文中,我们将展示与蛋白质折叠相关的某个项目的研究进展情况。图 1 显示了我们当前可以完成的工作规模,这得益于 Blue Gene/L 的强大功能。初始配置从溶解酵素晶体结构开始(见 参考资料)。
                                                        
图 1. 活细胞 10 微秒活动情况;观看视频

figure1.jpg

蛋白质组学:蛋白质经济
蛋白质是一种生物高分子,它是有机体的基本成分,并且参与了细胞中的每一个流程。许多蛋白质是催化生物反应的酶;一些涉及细胞信号和免疫响应;还有一些提供了肌肉和骨骼的结构和机械功能。演示蛋白质普遍性和重要性的两个例子包括:        
  • 一种蛋白质负责血液的 “红色状态”;它从肺部携带氧气到身体的所有其他部分。
  • 另一种蛋白质负责人类身体对毒葛毒素的响应;刺激性极强,并通常无害。


参与地球上生命活动的蛋白质达到成千上万种。蛋白质组学的研究对象是蛋白质的工作原理、交互方式以及它们的多样化和专一性在生命有机体中的发展演变。本文将简要讨论蛋白质的概念,它们的成分以及它们对所在系统的影响。

DNA 是每一个植物和生物细胞中的信息存储成分。它将信息存储为化学基本成分序列(核苷),我们将其称作 ACTG(表示 DNA 中的腺嘌呤、胞嘧啶、胸腺嘧啶和鸟嘌呤,以及 RNA 中的尿嘧啶代替胸腺嘧啶)。从远处看,这些基本成分看上去极为相似,因此 DNA 的每一部分的基本形状都是相同的 — 著名的沃森克里克双螺旋结构。

为了读取 DNA 中的信息,DNA 螺旋分解和另一种 RNA 分子将由内部模式表示构成。您看到的不是拆分结构,而是整体的组合效果。RNA分子在一旁表示为核糖体的蓝图,这是一种功能类似于全能工厂的蛋白质。核糖体以三个一组的形式读取 A/C/T/G 编码,这样我们可以得出一个 64字母的 “字母表”。

其中的 12 个 “字母”对应于氨基酸,它是蛋白质的基本成分。这些氨基酸主要来自我们吃的食物(人不能合成所需的所有氨基酸,因此改组从食物中获取其他的 “基本”氨基酸)。每种氨基酸都有一个 “头部” 和一个 “尾巴”。核糖体找到每个 “字母” 的适当的氨基酸,并将它们首尾相连,组成一个序列;其他“字母” 表示何时开始以及何时停止。最终生成的氨基酸线性序列是最新生成的蛋白质分子,它是根据所使用的 DNA 部分中的代码精确形成的。

蛋白质分子各原子之间的压力和张力、与细胞中盐水之间的细微交互以及热量 的随机变化,造成蛋白质分子 “折叠” 成典型的形状。

蛋白质分子相当稳定;其中一些可以持续存在数百年时间而保持不变,以及承受几百摄氏度的高温,这个温度会杀死由它们构成的有机体。它们基本上会保持自身的状态,直到由强烈的化学物质、高压、热或冷改变特性,或者成为其他生物的食物。

它们的形状以及随时间、温度、和周围分子的变化将决定蛋白质分子的行为 — 无论是运输氧气,带来毒素敏感症状,或者任何其他细微的工作。

图 2 展示了熟悉的 DNA 球棍模型(图像提供了一对立体模型;见 参考资料):
                                                        
图 2. DNA 球棍模型

figure2.jpg

图 3 显示了色氨酸,二十种标准氨基酸中的一种(图像提供了一对立体模型;见 参考资料)。
                                                        
图 3. 色氨酸,二十种标准氨基酸中的一种

figure3.jpg

氨基酸合成蛋白质的方式是切断一个分子的 O-H 组(图 3 右侧),切断另一个分子 H 与 N 的连接(图 3 顶部),并将分子拼合起来。所有氨基酸都具有这种特有的原子分组特性(图 3 右侧)。

图 4 显示了蛋白质血色素的视图(图像提供了一对立体模型;见 参考资料)。
                                                        
图 4. 蛋白质血色素

figure4.jpg

血色素由 4 个子组中的 574个氨基酸分子组成。血色素,及其相关铁原子(它们合成蛋白质的方式不在本文讨论范围之内),在血液中运输氧气。氧气运输系统只需铁原子便可运行,但血色素提供的蛋白质 “笼状” 结构能够大大提高其效率。如果您将这个图像放到立体图像查看器中,您可以分辨出 3D原子结构;对于更加复杂的结构,我们需要采用不同的方式来可视化它们。

[ 本帖最后由 Julian_Yuen 于 2009-7-23 23:04 编辑 ]

评分

参与人数 1维基拼图 +5 收起 理由
霊烏路 空 + 5

查看全部评分

回复

使用道具 举报

 楼主| 发表于 2009-7-23 23:07:03 | 显示全部楼层
商业和学术动机

开发医药器和保护公共健康的发展越来越依赖于对于生命基本成分的良好理解,比如蛋白质。当前一个颇为关注的话题是 蛋白质错误折叠和聚合

— 如果某个蛋白质折叠成的形状不是目标形状,则最终可能会生成带有不同属性的非活动蛋白质,这会导致一些神经退行性疾病,比如说阿尔茨海默氏症、亚急性海绵样脑病、牛海绵状脑病(疯牛病)亨廷顿和帕金森、囊肿性纤维化以及其他淀粉样变性病。

理解造成蛋白质分子从有用的折叠形式转变成不同折叠形式的原因是研究这些重要疾病的活跃主题。最后,由 Chris Dobson 及其剑桥大学同事组织的实验(见 参考资料)显示,淀粉和纤维不仅可以形成传统的淀粉样肽,而且给予适当的条件就可以形成几乎所有的蛋白质(如溶菌酶)。事实上,溶解酵素蛋白质的单一变异(W62A)可以造成蛋白质的稳定性低于在野生型(参见下方星号后);它还可以造成错误折叠,并在针对缺少重要 “远程恐水症交互”的尿素解决方案中形成可能的淀粉。

科学目前尚未理解这种单一 W62 剩余物在折叠过程中如何在远程恐水症交互中发挥重要的作用,然后由于机能原因从预测的成核位置切换到表面。这可以让人们更好地理解单突变效果,以及与蛋白质错误折叠及聚合相关的上述疾病的内部机制。

Blue Gene/L 技术提供了一种强大的方法来研究这些类型的疾病,因为它能够更加经济高效地(和更快地)建模蛋白质折叠和错误折叠的效果。

********************
什么是野生型?
野生型(wildtype)是有机体、基因、菌株或特性的典型表现形式。如果表示的是显型(有机体的可见特性,通常是基因和环境因素的表示),则野生型将表现自然群体中最常见的特性。如果表示的是基因型(不可见的基因组成),则它将定义各基因座上生成野生型基因型所需的等位基因。野生型既不是显性也不是隐性的。野生型的一个恰如其分的反义词是变异。



我们的建模对象是什么?

图 1 的来源 视频 呈现了由于单一突变造成的溶解酵素蛋白质的序列的一部分。溶解酵素是一种蛋白质,它是人类免疫系统的一部分;由于功能正常,它可以刺破入侵细菌的细胞壁并毁灭它。

单一突变,DNA序列发生变化,会造成核糖体在构建溶解酵素分子时使用不同的氨基酸。其理论是,这种不同的氨基酸会影响溶解酵素折叠成的形状,并且形状稍有不同的溶解酵素分子在刺破细菌细胞壁方面的效果也不同。理解这种变化之后,我们可以设计药品或其他形式的治疗方法,来帮助发生这种突变的个人从细菌疾病中恢复。

作为工作的一部分,我们将一个溶解酵素分子中的每个原子的位置和速度,以及大约 10,000 个水和尿素分子的位置和速度(此模拟在 8 种摩尔尿素溶液中进行,以模拟实验环境),存储在计算机的内存中。可以通过许多方式来模拟原子之间的作用力;我们使用一种变化的球和弹簧 模型来模拟互作用力,使用 “逆平方法则” 模型来模拟带电原子之间的静电力,并使用 “吸引/击退” 模型来模拟相互接近但没有共价键的原子。模型作为时间序列运行。在每个步骤中,我们计算每个原子受到的作用力,然后根据牛顿第二法则更新速度和位置。

在每个时间步骤中(非常短,差不多 1 飞秒),需要计算的作用力的数量基本上可以达到数亿。计算如此庞大,并且我们还希望能够模拟足够长的时间(微秒)以便模拟感兴趣的运动,这意味着这种方法只在最近才实际可行。有关我们工作以及一些替代方案的详细信息,请参见 参考资料 中的 “Destruction of long-range interactions by a single mutation in lysozyme” 链接。



配置实验室
在纽约约克镇的 IBM Watson Research Lab,我们搭建了 20 组 BlueGene/L 服务器。每台服务器配备 1,024 PowerPC® 双核微处理器芯片;每个微处理器使用 512MB 内存。对于此计算网格 中的每 64 个芯片,都有一个额外的微处理器与 1Gbps Ethernet 相连。这 320 个 Ethernet 链接通过一个标准的以太交换器连接到带有磁盘、磁带、语言编译器和作业控制软件的标准 IBM Power Systems 机器。

这项溶解酵素建模工作平均要使用 4 组 BlueGene/L 处理器花费几个月的时间来生成超过 10 微秒的分子动态数据。应用程序会定期记录模拟中的所有原子的位置和速度(此信息的一部分用于生成上面提到的 合成视频)。在需要重新启动模拟时,可以加载一组合适的位置和速度。重新启动可能需要在计划关机之后,计划外机器故障之后,或者在使用不同时间步骤粒度重放科学模型事件时。



运行模型
应用程序在 Blue Gene/L 上由类似于 MPICH 作业提交的机制启动(MPICH 是一个免费、可迁移的 MPI(消息传递接口)实现;见 参考资料)。集群中的每个处理器都为应用程序提供了一个 POSIX 文件系统环境。可以在 IBM General Parallel File System (GPFS) 文件系统中建立数据,以便应用程序读取;当应用程序记录结果时,结果还必须通过它提供给外部使用。

对于这种时间数列建模应用程序,通常需要从文件系统读取初始条件,然后将模型状态的定期 “快照” 写入文件系统。



我们得到了什么?
这个视频展示了一个从未可见的世界。当然,我们不知道它表现的是真实的 —科学家始终需要比较模型与真实世界。在现实世界中看到溶解酵素错误折叠仍然是不可能的;即使 “看到” “固定”构造的一部分意味着准备样例并将它们放在电子显微镜下,或者甚至让大量溶解酵素分子结晶,然后使用 X射线衍射谱。但是,这些实验技巧通常无法展示蛋白质如何移动。

因此,当前的大规模模拟提供了一个独特的窗口,可以看到与疾病相关的错误折叠中所涉及分子移动和重要变化的细节。希望这项技术的出现能够推进淀粉样变性病研究的发展。它还可以用于培训下一代科学家使用这种新方法作为解决这类问题的主要方法。



结束语
实际上,我们还不能大胆地预测未来,但我们可以猜测 Blue Gene 计算将继续快速发展(我们使 Version L;每个芯片支持 4 个处理器的Blue Gene/P 升级,支持 10Gbps以太网以及一系列其他增强)。执行计算密集型运算和实现更快、更大存储(与本文介绍的数据虚拟化任务极为相关)的成本很可能将继续下降 —必须这样,因为科学家需要完成一些世界级的高级建模,用于公共研究以及商业目标。

我们介绍的溶解酵素模型只能将分子从新的计算生物学领域分离出来。超过 50,000 种蛋白质的结构归类在公共蛋白质数据银行中(见 参考资料);需要分析数百万具有潜在医学作用的成分;并且许多已知的人类疾病都与蛋白质及其缺陷相关。此外,我们甚至没有考虑其他众多领域都可以从这种建模中获益。Blue Gene 的工作才刚刚开始。
               


参考资料
学习

获得产品和技术

讨论
  • 加入 My developerWorks 社区;您可以通过个人档案和定制主页获得符合自己的兴趣的 developerWorks 文章,并与其他 developerWorks 用户进行交流。


作者简介

ChrisWard 于 1982 年从英国剑桥大学加入位于英国 Hursley 的 IBM UK DevelopmentLaboratories。他参与了 IBM 众多产品的开发工作,从硬盘文件到各种中间件。他目前致力于一项很特殊的技术,该技术对于 IBM未来客户的重要性相当于 IBM WebSphere Software 和 IBM Lotus Software 对于如今 IBM 客户的重要性。


RuhongZhou 是 Computational Biology Center/IBM Thomas J. Watson ResearchCenter 的一名研究科学家,以及哥伦比亚大学化学系的副教授。他于 1997 年与 Bruce Berne一同获得哥伦比亚大学化学专业的博士学位。2000 年,在与 Richard Friesner (Columbia) 及 WilliamJorgensen (Yale) 花费两年半时间研究极化力场和蛋白质配基结合机制之后,他加入了 IBM Research。他曾撰写了 80篇期刊出版物,获得了 7 项专利,在一些大型会议上和大学中组织了许多邀请会谈,并主持了几次关于计算生物学、化学和生物物理学的会议。他于1997 年获得了哥伦比亚大学颁发的 Hammett Award 奖,于 1995 获得 American Chemical Societyon Computational Chemistry 颁发的 DEC Award 奖,并分别于 2005 和 2006 年获得了 IBM 的Outstanding Technical Achievement Award奖。他目前的研究兴趣包括:为计算生物学和生物信息学开发新方法和算法,以及大规模蛋白质折叠模拟、配体受体结合与蛋白质结构预测。


[ 本帖最后由 Julian_Yuen 于 2009-7-23 23:16 编辑 ]

评分

参与人数 1维基拼图 +5 收起 理由
霊烏路 空 + 5

查看全部评分

回复

使用道具 举报

发表于 2009-7-24 00:29:26 | 显示全部楼层

5、6楼内容概述:分子动力学模拟

给教主的帖做点解释~


5、6楼中介绍的就是传说中的分子动力学(Molecular Dynamics)模拟方法了。
这是一种依托现代计算机技术来研究生物体系的常用方法,主要用来模拟体内环境中的蛋白质和小分子动态结构。(也就是图1中的视频,蛋白质在体内也是会动的哦,可惜被封了看不到)

而研究人员所做的工作,简而言之就是:
1。溶解酵素(lysozyme)是免疫系统用来抗菌的重要蛋白质。
2。如果编码溶解酵素的DNA发生了突变,将会导致溶解酵素蛋白质中的一个氨基酸变成另外一个氨基酸,进而导致溶解酵素蛋白质的结构不正常,失去抗菌的活性,导致疾病的发生。
3。应用分子动力学模拟,研究者可以了解突变的溶解酵素蛋白质这种不正常的结构,从而研究如何让溶解酵素从不正常的结构中恢复,进而治疗疾病。

而分子动力学模拟是需要强大的计算能力的。
原因在于,分子动力学模拟的每一“步”都需要计算至少几万个原子的位置和速度,并且代入下一步计算中。而这一“步”所对应的时间却只有1飞秒(0.000 000 000 000 001,10^-15秒)。鉴于多数生物学变化都是微秒、毫秒以上数量级的,因此计算量相当可观。
而且由于每步计算相互关联,给并行计算增加了难度,如何提高并行效率也是研究热点之一。


目前多个BOINC项目中都有分子动力学模拟的应用。

[ 本帖最后由 feynord 于 2009-7-24 00:31 编辑 ]

评分

参与人数 2基本分 +9 维基拼图 +30 收起 理由
霊烏路 空 + 30
Julian_Yuen + 9 握握小手~

查看全部评分

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 新注册用户

本版积分规则

论坛官方淘宝店开业啦~
欢迎大家多多支持基金会~

Archiver|手机版|小黑屋|中国分布式计算总站 ( 沪ICP备05042587号 )

GMT+8, 2024-4-29 01:46

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表