Z BioInf
Skocz do: nawigacja, szukaj

CABS

Modelowanie porównawcze umożliwia poznanie struktury przestrzennej białka w przypadku, gdy dysponujemy strukturą przestrzenną białka do niego homologicznego. Poprawność otrzymanego modelu zależy w dużej mierze od stopnia pokrewieństwa obydwu białek (szablonu oraz modelowanego białka) oraz od jakości struktury samego szablonu (rozdzielczości struktury, przerw w łańcuchu białkowym). Jednak często zdarza się, iż podobieństwo sekwencyjne w niektórych rejonach białek homologicznych, a zwłaszcza w obszarze N- i C-końca oraz pętli, jest znikome. Dodatkowo, liczba aminokwasów w wyżej wymienionych rejonach może znacząco się od siebie różnić. Klasyczne metody modelowania porównawczego stają się wtedy niewystarczające do otrzymania poprawnej konformacji łańcucha białkowego dla powyższych fragmentów budowanego białka.

Program CABS [1] przeznaczony jest do modelowania de novo struktury przestrzennej białek. Wyniki szóstej edycji ogólnoświatowego konkursu CASP (ang. Critical Assessment of Techniques for Protein Structure Prediction) [2, 3], weryfikującego skuteczność dostępnych metod teoretycznych w zakresie modelowania białek, sugerują, iż metoda CABS jest sprawdzonym narzędziem pozwalającym na przewidywanie struktury przestrzennej łańcucha białkowego wyłącznie na podstawie sekwencji aminokwasów [4].

Dla układu składającego się z kilkunastu tysięcy atomów, co odpowiada liczbie atomów pojedynczego białka otoczonego warstwą rozpuszczalnika, symulacje z zastosowaniem dynamiki molekularnej pozwalają na badanie ewolucji układu przez czas rzędu kilku mikrosekund (10-6 s) [5], przy pełnoatomowej reprezentacji cząsteczek oraz na obecnie używanych superkomputerach. W tym przedziale czasowym możliwa jest jedynie obserwacja lokalnych zmian konformacyjnych białka czy procesu formowania się odcinka krótkiej α-helisy lub β-kartki [6, 7]. W rzeczywistości czas zwinięcia się łańcucha polipeptydowego z losowej formy zdenaturowanej do postaci natywnej białka mieści się w przedziale od 10-3 s do 102 s. Obserwacja procesu zwijania się białka wymagałaby zatem zwiększenia czasu symulacji o kilka rzędów wielkości, co jest obecnie niewykonalne. Aby problem ten stał się traktowalny obliczeniowo, należy zastosować pewne uproszczenia w stosunku do reprezentacji badanego układu.

Rys. 1. A) Uproszczona reprezentacja łańcucha peptydowego przedstawiona za pomocą atomów: Cα, Cβ, SG oraz atomów wskazujących na środki wiązań peptydowych. B) Odwzorowanie sekwencji Ala-Phe-Leu-Gly na siatce o rozdzielczości 0.61 Å.

W metodzie CABS [1] w celu uproszczenia, reprezentacja całego białka przedstawiona została za pomocą czterech różnych typów zjednoczonych atomów: Cα – atomu definiującego położenie węgla Cα, Cβ – atomu definiującego położenia węgla Cβ każdej z reszt, SG – atomu zjednoczonego odpowiadającego łańcuchowi bocznemu każdego z dwudziestu aminokwasów oraz pseudo-atomu wyznaczającego środki wiązań peptydowych. Łańcuch peptydowy odwzorowany został na regularnej trójwymiarowej siatce tak, aby wszystkie atomy Cα białka znajdowały się dokładnie w jej węzłach.

Węzły siatki są oddalone od siebie o 0.61 Å. Dobranie takiej odległości między węzłami miało na celu umożliwienie odwzorowania struktury dowolnego białka z wysoką rozdzielczością (wartość RMSD liczona dla atomów Cα tak odwzorowanego białka w porównaniu z jego strukturą pełnoatomową nigdy nie przekracza 0.35 Å) [1]. Wirtualne wiązania między kolejnymi atomami Cα przybierają wtedy formę wektorów V = [±i, ±j, ±k] (gdzie i, j, k są liczbami całkowitymi). Przyjęto, że długość wektora | V | jest ograniczona i zawiera się w przedziale 29 ≤ | V |2 ≤ 49 (w jednostkach siatki). Powoduje to, że liczba wszystkich możliwych wektorów V ograniczona jest jedynie do 800. Dodatkowo, długość tak zdefiniowanych wektorów V zawiera się w przedziale od 3.28 Å do 4.27 Å (średnia odległość pomiędzy sąsiadującymi atomami Cα obserwowana w znanych strukturach krystalicznych białek równa jest 3.78 Å).

Uproszczona reprezentacja białka oraz zastosowanie siatki (zamiast modelowania w przestrzeni ciągłej) pozwalają na znaczne ograniczenie przestrzeni konformacyjnej modelowanego białka i w ogromnym stopniu przyspieszają obliczenia. Dowolna zmiana położenia pojedynczego atomu Cα wykonywana jest przez transformację tego atomu o jeden z 800 zdefiniowanych wcześniej wektorów V, co pozwala dodatkowo na szybkie wykonywanie kodu programu [1].

Zmiany konformacyjne położonego na trójwymiarowej siatce łańcucha białkowego są przeprowadzane losowo i wyróżnia się pięć możliwych modyfikacji łańcucha:

  1. zmianę położenia końcowych atomów łańcucha (ang. end move)
  2. zmianę położenia jednego atomu w środku łańcucha (ang. 2-bond move)
  3. zmianę położenia dwóch kolejnych atomów łańcucha (ang. 3-bond move)
  4. przesuniecie części łańcucha złożonej z od 4 od 24 atomów, gdzie liczba atomów jest wybierana losowo (ang. rigid-body move)
  5. geometria fragmentu łańcucha zostaje odwzorowana w innej części łańcucha białkowego, oddalonego od 4 do 24 atomów (ang. reptation move)

W każdym kroku symulacji algorytm podejmuje określoną liczbę modyfikacji łańcucha. Sposób oraz miejsce modyfikacji dobierane są losowo. Próbkowanie przestrzeni konformacyjnej odbywa się z zastosowaniem zmodyfikowanej metody MC (ang. Monte Carlo) z wymianą replik (ang. REMC - Replica Exchange Monte Carlo) [1, 8]. W metodzie tej repliki łańcucha białkowego symulowane są jednocześnie w różnych temperaturach, kolejno od niskiej do bardzo wysokiej. Po każdym cyklu symulacji, podjęta zostaje próba wymiany sąsiadujących ze sobą replik. Przejście zostaje odrzucone bądź zaakceptowane zgodnie z kryterium Metropolisa w oparciu o obliczoną energię łańcucha białkowego. REMC pozwala na ominięcie lokalnych maksimów funkcji potencjału umożliwiając znalezienie konformacji łańcucha charakterystycznej dla globalnego minimum energetycznego układu [9].

Funkcja energii układu opisująca oddziaływania molekularne w metodzie CABS została zbudowana w oparciu o potencjały statystyczne wyprowadzone na podstawie analizy regularności strukturalnych obserwowanych w już poznanych strukturach białkowych [1]. Potencjały te określają preferencje danych fragmentów sekwencji łańcucha białkowego do przyjmowania określonej struktury drugorzędowej widzianej w rzeczywistych białkach. Jednoczesnie, potencjały opisujące oddziaływania grup bocznych aminokwasów oraz tendencje to tworzenia wiązań wodorowych odzwierciedlają tendencje do formowania kontaktów charakterystycznych dla stanu natywnego białka.

Zobacz też

Literatura

  1. Kolinski, A., Protein modeling and structure prediction with a reduced representation. Acta Biochim Pol, 2004. 51(2): p. 349-71.
  2. Kryshtafovych, A., et al., CASP6 data processing and automatic evaluation at the protein structure prediction center. Proteins, 2005. 61 Suppl 7: p. 19-23.
  3. Moult, J., A decade of CASP: progress, bottlenecks and prognosis in protein structure prediction. Curr Opin Struct Biol, 2005. 15(3): p. 285-9.
  4. Kolinski, A. and J.M. Bujnicki, Generalized protein structure prediction based on combination of fold-recognition with de novo folding and evaluation of models. Proteins, 2005. 61 Suppl 7: p. 84-90.
  5. Kevin J. Bowers, E.C., Huafeng Xu, Ron O. Dror, Michael P. Eastwood, Brent A. Gregersen, John L. Klepeis, István Kolossváry, Mark A. Moraes, Federico D. Sacerdoti, John K. Salmon, Yibing Shan, and David E. Shaw. Scalable Algorithms for Molecular Dynamics Simulations on Commodity Clusters. in Proceedings of the ACM/IEEE Conference on Supercomputing (SC06). 2006. Tampa, Florida.
  6. Garcia, A.E., Molecular dynamics simulations of protein folding. Methods Mol Biol, 2008. 413: p. 315-30.
  7. Garcia, A.E. and J.N. Onuchic, Folding a protein in a computer: an atomic description of the folding/unfolding of protein A. Proc Natl Acad Sci U S A, 2003. 100(24): p. 13898-903.
  8. Thachuk, C., A. Shmygelska, and H.H. Hoos, A replica exchange Monte Carlo algorithm for protein folding in the HP model. BMC Bioinformatics, 2007. 8: p. 342.
  9. Hansmann, U.H. and Y. Okamoto, New Monte Carlo algorithms for protein folding. Curr Opin Struct Biol, 1999. 9(2): p. 177-83.