Datormodelēšana

Ar pašreizējiem sekvenēšanas tempiem zināmo DNS sekvenču skaits pieaug lielā ātrumā. Līdz ar to, izmantojot vienkāršus algotitmus, iespējams paredzēt lielu skaitu proteīnu aminoskābju sekvenču. Rentgenstaru difrakcijas un NMR spektroskopijas metodes ir samērā dārgas un laikietilpīgas, tādējādi zināmo proteīnu telpisko struktūru skaits krietni atpaliek no zināmo sekvenču skaita. Rodas likumsakarīgs jautājums – vai nebūtu iespējams, zinot tikai aminoskābju sekvenci, paredzēt proteīna trešējo struktūru? Atbilde – acīmredzot būtu gan, tomēr darbiņš, maigi izsakoties, nav no vienkāršajiem.

Proteīnu „foldings” jeb to spēja salocīties, no pirmējās struktūras veidojot trešējo, ir viena no jomām, kas pašlaik ļoti aktīvi tiek pētītas. No lineāras aminoskābju ķēdes dažu milisekunžu laikā spēj izveidoties proteīns ar sarežģītu, sev raksturīgu telpisko struktūru un principā visa informācija, kas nepieciešama šim procesam, jau ir aminoskābju sekvencē (šeit gan jāpiemin, ka eksistē arī čaperoni – proteīni, kas palīdz citiem proteīniem pareizi salocīties, bet lielākā daļa proteīnu tomēr spēj salocīties paši). Molekulārajā bioloģijā ir pazīstams t.s. Levintāla paradokss: ja proteīna molekula salocītos, mēģinājumu un kļūdu veidā izmēģinot visas iespējamās konformācijas, līdz atrastu termodinamiski visizdevīgāko, tas aizņemtu milzīgi daudz laika, kas nekādi neietilptu reāli novērojamā salocīšanās laikā. Acīmredzot eksistē kāds cits, īsāks ceļš. Viens iespējamais veids ir tāds, ka vispirms veidojas lokāli sekundārās struktūras elementi (α-spirāles, β-plāksnes u.tml.), kas pēc tam tālāk mijiedarbojas, izveidojot trešējo struktūru. Cits iespējamais modelis ir tāds, ka vispirms hidrofobo mijiedarbību rezultātā nepolārās aminoskābes satuvojas, veidojot kompaktu struktūru un pēc tam aminoskābju savstarpējo mijiedarbību rezultātā izveidojas galīgā proteīna trešējā struktūra. Patiesībā droši vien abi šie mehānismi darbojas reizē.

Ar esošajiem algoritmiem iespējams diezgan precīzi no aminoskābju sekvences paredzēt otrējās struktūras elementus. Eksistē vairāki serveri, kur katrs interesents var iesūtīt savu sekvenci un saņemt rezultātus.

Ar trešējās struktūras paredzēšanu tik labi pagaidām neiet, kaut gan, pie tā strādājot daudzām pētnieku grupām, ir sasniegts ievērojams progress un mazu proteīnu struktūras paredzēšana ir pilnīgi reāls mērķis. Šeit eksistē divas pieejas: de novo modelēšana un salīdzinošā modelēšana.

De novo modelēšana mēģina paredzēt proteīna telpisko struktūru „no tukšas vietas”, t.i., izmantojot kā ieejas datus tikai aminoskābju sekvenci. Šeit eksistē dažādas pieejas, tomēr visām ir nepieciešami milzīgi skaitļošanas resursi – superdatori. Piemēram, šādā veidā tika simulēta 36 aminoskābju gara polipeptīda salocīšanās. Process notika virtuālā „kastē”, kur atradās nejaušā stāvoklī esošs polipeptīds un 300 ūdens molekulās. Tika nosimulēta salocīšanās 1 milisekundes laikā, bet reāli skaitļošana prasīja 2 mēnešus uz diviem Cray superdatoriem.
Pastāv arī projekts folding@home, kurā tiek izmantota t.s. dalītā skaitļošana (distributed computing) – katrs zinātni atbalstošs interesents var lejupielādēt un uzstādīt savā datorā folding@home klientprogrammu. Tā saņem no galvenā servera datus un brīžos, kad procesora jaudu neizmanto citas programmas, izmanto to, lai locītu proteīnus, pēc tam nosūtot rezultātus atpakaļ. Šādi ir izdevies sasniegt līdz pat 200 teraFLOPS’u kopējo jaudu (FLOPS = floating point operations per second, rādītājs, kuru izmanto skaitļošanas jaudu salīdzināšanai), salīdzinājumam – pagaidām pasaulē ātrākais superdators IBM Blue Gene/L ir sasniedzis 280 teraFLOPS. Taču Blue Gene maksāja daudzus miljonus dolāru, bet folding@home balstās uz cilvēku vēlmi palīdzēt, un tādā ziņā nemaksā neko.

Otra modelēšanas pieeja – salīdzinošā modelēšana – izmanto jau esošos proteīnu struktūras datus. Pastāv uzskats, ka, neskatoties uz to, ka eksistē daudzi miljoni proteīnu, tajos ir sastopami tikai apmēram 2000 dažādi strukturālie motīvi. Salīdzinošā modelēšana meklē līdzības starp doto aminoskābju sekvenci ar sekvencēm, kas ir proteīniem ar jau zināmu (eksperimentāli noteiktu) telpisko struktūru. Tad, pieņemot, ka aminoskābju ķēdes posmi ar līdzīgām sekvencēm ieņem līdzīgas telpiskās struktūras, tiek veidoti iespējamie nezināmā proteīna struktūras 3D modeļi. Šī pieeja izskatās veiksmīga – šāda veida projekts HMMSTR/Rosetta uzrāda visai labus panākumus. Katrs interesents var uz viņu serveri aizsūtīt aminoskābju sekvenci un atpakaļ saņemt failu ar 3D koordinātām.

Pētījumi proteīnu struktūras paredzēšanā aktīvi turpinās, skaitļošanas jaudas arvien pieaug un tādējādi kļūst iespējams daudz kas tāds, par ko pirms tam varēja tikai sapņot. Dzīvosim – redzēsim!

Datormodelēšana

© Jānis Rūmnieks

Pēdējās izmaiņas lapā 24.01.2006