کتاب بیونفورماتیک سلولی و مولکولی » فصل چهارم-پایگاه‌های اطلاعات اولیه توالی‌های اسیدآمینه و ساختار فضایی پروتئین‌ها کتاب بیونفورماتیک سلولی و مولکولی

فصل چهارم-پایگاه‌های اطلاعات اولیه توالی‌های اسیدآمینه و ساختار فضایی پروتئین‌ها کتاب بیونفورماتیک سلولی و مولکولی

شرح فصل و نکات ویژه: * در این فصل به بانک‌های اطلاعاتی ای که هدف خود را معطوف به توالی‌های اسیدآمینه کرده‌اند خواهیم پرداخت و همچنین بانک‌هایی معرفی می‌شوند که به ارائه ساختارهای سه بعدی پروتئین‌ها می‌پردازند. * بانک‌ها و ابزارهایی که معرفی می‌شوند را در اینترنت بازبینی کنید و با آن‌ها کار کنید. * ساختار سوم بسیاری از پروتئین‌ها که توسط روش‌های آزمایشگاهی کشف شده‌اند به صورت رایگان در بانک‌ها قابل دریافت می‌باشد. * بحث در[…]

شرح فصل و نکات ویژه:

* در این فصل به بانک‌های اطلاعاتی ای که هدف خود را معطوف به توالی‌های اسیدآمینه کرده‌اند خواهیم پرداخت و همچنین بانک‌هایی معرفی می‌شوند که به ارائه ساختارهای سه بعدی پروتئین‌ها می‌پردازند.

* بانک‌ها و ابزارهایی که معرفی می‌شوند را در اینترنت بازبینی کنید و با آن‌ها کار کنید.

* ساختار سوم بسیاری از پروتئین‌ها که توسط روش‌های آزمایشگاهی کشف شده‌اند به صورت رایگان در بانک‌ها قابل دریافت می‌باشد.

* بحث در رابطه با پیشگویی ساختار سوم پروتئین‌ها در فصل دوازدهم انجام شده است.

۷۳-پایگاه‌های اطلاعات اولیه توالی‌های اسیدآمینه و ساختار فضایی پروتئین‌ها

در بخش اول این فصل تعدادی از پایگاه‌های توالی‌های پروتئینی و روش جست‌وجو در آن‌ها توضیح داده می‌شود. داده‌های موجود در این پایگاه‌ها عمدتا از ترجمه دستی یا خودکار توالی‌های نوکلئوتیدی موجود در پایگاه‌های دیگر سرچشمه گرفته است.

۱-۴ پایگاه‌های داده‌ی توالی آمینو اسیدی

مارگارت دیهوف در بنیاد ملی پژوهش زیست‌پزشکی (NBRF) در واشینگتن، در جمع‌آوری توالی‌های تمام آمینواسیدهای موجود فعال‌ترین پژوهش‌گر بود و اولین اطلاعات را در اطلس توالی‌ها و ساختارهای پروتئینی از ۱۹۶۸ تا ۱۹۷۸ منتشر کرد.

مجموعه “اطلس توالی‌ها و ساختارهای پروتئینی“:
مفهوم ابرخانواده‌های پروتئینی از این مجموعه پدید آمده و ماتریس داده‌های جهش، معروف به MDMVA یا PAM براساس فراوانی جهش‌های مشاهده شده در آمینواسیدها تدوین شد.
در حدود سال ۱۹۸۰ یعنی زمانی که رقابت برای تاسیس یک پایگاه داده ملی DNA در آمریکا وجود داشت، این مجموعه محاسباتی رایانه‌ای شد و پایگاه توالی پروتئینی NBRF نام‌گذاری شد.
پایگاه داده‌ی منبع اطلاعات پروتئین Protein Information Resource (PIR) که در ۱۹۸۴ و با حمایت NIH تاسیس شد از پایگاه NBRF منشا گرفت.
از ۱۹۸۸، PIR برای ایجاد پایگاه بین‌المللی توالی پروتئین PIR با مرکز اطلاعات مونیخ برای توالی‌های پروتئین
MIPS (Munich information Center for Protein Sequences) و پایگاه بین‌المللی داده توالی ژاپن JIPID (Japanese International Protein Sequence Database.) همکاری می‌کند.
بنیاد پژوهش پروتئین PRF (Fundation Protein Research) در ازاکا ژاپن از سال ۱۹۷۵ تاکنون یک نشریه‌ی چاپی Peptid information منتشر کرده است که شامل فهرست‌های کتاب‌شناسی از گزارش‌های مربوط به پپتیدها و پروتئین‌هاست. این پایگاه داده رایانه‌ای شده LITDB نام دارد.
مدت‌ها قبل از این‌که NCBI اتصال‌های بانک‌های مدلاین را معرفی کند، LITDB و SEQDB از ابتدا با یک‌دیگر ارتباط داشتند و از منابع مشترک استفاده می‌کردند.
SEQDB غیر از داده‌های مربوط به توالی اطلاعات دیگری ندارد و هم‌چنان مجموعه‌ی منحصر به‌فردی است که حیطه‌ی توالی‌یابی پروتئین را پوشش می‌دهد.
NBRF و PRF پایگاه‌های داده‌ی خود را با دیدگاهی متفاوت ایجاد کردند.
NBRF: توالی آمینو اسیدی را یک هستی زیست‌شناختی می‌دانست. بخش اصلی کوشش NBRF بر حاشیه‌نویسی، رده‌بندی ابرخانواده‌ها و حذف ورودی‌های تکراری متمرکز کرد که متاسفانه سبب شد نتواند با سرعت افزایش داده‌ها همگام شود.
PRF: توالی آمینو اسیدی را بخشی از اطلاعات کتاب‌شناسی و مانند چکیده‌ی مقالات می‌دانست. این پایگاه در مقابل افزایش داده‌ها موفق بود اما کارایی پایگاه داده محدود بود.
SWISS-PROT پایگاه داده توالی پروتئین دیگری بود که در سال ۱۹۸۶ در دانشگاه ژنو ایجاد شده اما خیلی زود از لحاظ کیفیت داده‌ها تبدیل به بهترین شد. داشتن ویژگی‌هایی هم‌چون حاشیه‌نویسی قوی، تصحیح مداوم و دقیق داده‌ها و ارتباط با بسیاری از پایگاه‌های داده‌ی دیگر از خصوصیات بارز این پایگاه می‌باشد. Swiss-Prot با EMBL (آزمایشگاه زیست‌شناسی مولکولی اروپا) همکاری کرده است و ترجمه‌ی توالی نوکلئوتیدی پایگاه داده EMBL یعنی (TREMBL) برای تکمیل Swiss-Prot استفاده شده است. در حال حاضر موسسه بیوانفورماتیک سوئیس (SIB) و موسسه‌ی اروپایی بیوانفورماتیک EBI به‌طور مشترک Swiss-Prot را اداره می‌کنند.

۱-۱-۴ جست‌وجو در بانک پروتئین NCBI:

در فصل گذشته با تعدادی از بانک‌های پایگاه NCBI آشنا شدید ودر این فصل با دو بانک دیگر از این پایگاه آشنا می‌شویم به نام بانک‌های Protein و Structure. در اینجا بانک Protein شرح داده می‌شود و در انتهای فصل به بانک structure خواهیم پرداخت.

۷۴-فصل چهارم

تصویر ۱-۴: نمایش لینک بانک‌های Protein و Structure در منوی کشویی پایگاه NCBI.

توالی‌های اسید آمینه ای در این بانک ذخیره می‌شوند. جست‌وجو در بانک پروتئین همانند بانک نوکلئوتید می‌باشد که در تصویر زیر مشاهده می‌کنید.ابتدا بانک protein را از منوی کشویی انتخاب کرده و در کادر روبه‌روی آن موضوع مورد جست‌وجو را نوشته و روی search کلیک کنید.

تصویر ۲-۴: نتیجه جست‌وجوی بانک protein

صفحه نتایج همانند صفحه نتایج بانک نوکلئوتید می‌باشد که در تصویر ۳-۴ می‌بینید که شامل سه بخش Header، Features و توالی می‌باشد.

۷۵-پایگاه‌های اطلاعات اولیه توالی‌های اسیدآمینه و ساختار فضایی پروتئین‌ها

تصویر ۳-۴: یک نمونه رکورد بانک Protein.

۲-۱-۴ پایگاه اطلاعات پروتئینی SwissProt

پایگاه توالی پروتئینی SwissProt در سال ۱۹۸۹ پایه‌گذاری شده است. این پایگاه حاوی اطلاعات توالی است که با ساختار ویژه به نمایش گذاشته می‌شود. یعنی هر فیلد در یک سطر قرار داده می‌شود. دو حرف اول هر سطر گویای نوع فیلد می‌باشد. درج اطلاعات به این شیوه اجازه تبادل آن‌ها بین نرم‌افزارهای مختلف را می‌دهد.

SwissProt دارای سه ویژگی است:

نام‌گذاری و تفسیر توالی‌های پروتئینی موجود.
کم‌ترین تکرار (Non-redundancy).
ارتباط منسجم (Integration) با بانک‌های داده دیگر (با حداقل ۶۰ پایگاه اطلاعاتی ارتباط دارد).

۷۶-فصل چهارم

تصویر ۴-۴: نمایش ارتباط پایگاه توالی پروتئینی SwissProt با سایر بانک‌ها.

در این پایگاه دو گروه داده وجود دارد:

داده‌های اصلی (Core data) شامل داده‌های توالی، اطلاعات مربوط به citation، داده‌های تاکسونومی.
داده‌های بدست آمده از نام‌گذاری و تفسیر توالی‌ها شامل عملکرد پروتئین، تغییرات پس از ترجمه، دامین‌ها و جایگاه‌های مهم در توالی، ساختار دوم، ساختار سوم، شباهت با پروتئین‌های دیگر، بیماری‌های مرتبط با پروتئین و واریانت‌های آن.

برای جست‌وجو در این پایگاه وارد سایت http://expasy.org شوید و در این صفحه All databases را برای کلید واژه دلخواه مورد جست‌وجو قرار دهید.

تصویر ۵-۴: تصویری از صفحه نخست پایگاه expasy و منوی کشویی آن که بانک‌های فراوانی را در خود جای داده است.

۷۷-پایگاه‌های اطلاعات اولیه توالی‌های اسیدآمینه و ساختار فضایی پروتئین‌ها

در نتیجه جست‌وجو برای کسب اطلاعات در رابطه با پروتئین مورد نظر بر روی لینک uniprotKB کلیک میکنیم تا به این پایگاه منتقل شویم و سایر اطلاعات را در این پایگاه مشاهده خواهید کرد. لازم به ذکر است داده‌های بانک Swiss prot در UniprotKB نمایش داده می‌شود. علت این که ابتدا از طریق پایگاه EXPASY جست‌وجو را شروع کردیم این بوده است که با پایگاه ExPASY آشنا شوید. این پایگاه شامل بانک‌های زیادی می‌باشد که اکثراً در زمینه اطلاعات پروتئینی می‌باشند.

تصویر ۶-۴: لیست نتایج جست‌وجو در پایگاه uniprotKB .

از لیست موجود براساس نام پروتئین و ارگانیسم بر روی نام پروتئین مورد نظر کلیک میکنیم و اطلاعات در صفحه‌ای نسبتا طولانی نمایش داده می‌شود که شامل موارد زیر می‌شود. یعنی برای هر پروتئین تمام اطلاعات سیزده‌گانه زیر را نمایش می‌دهد و توسط لینک‌های فراوان کاربران را به سایر بانک‌ها راهنمایی می‌کند.

۱: Names

۲: Attributes

۳: General annotation·

۴: Ontologies·

۵: Interactions

۶: Alt products

۷: Sequence annotation

۸: Sequences

۹: References

۱۰: Web links

۱۱: Cross-refs

۱۲: Entry info

۱۳: Documents

معرفیUniProt :

منبع عمومی پروتئین (The Universal Protein Resource) جامع ترین کاتالوگ جهانی پروتئین‌هاست. این پایگاه محل ذخیره کلیه توالی‌های پروتئینی و عملکرد آنهاست که از اشتراک داده‌های SWissPort، TrEMBL و PIR به وجود آمده است. داده‌ها به‌طور دستی (با دخالت کارکنان مربوط) نام گذاری می‌شود و داده‌ها در پایگاهی به نام UniPort Knowledgebase یا UniProtKB ذخیره می‌شوند. اگر نتیجه جستجوی شما حاصل یک ترجمه کامپیوتری از روی توالی‌های DNA باشد با علامت یا متن مخصوصی این مورد را به شما تذکر خواهد داد. بخشی از این پایگاه تحت عنوان UniRef (The Uniprot Reference Clusters)
داده‌های توالی‌های پروتئین‌ را براساس شباهت، خوشه‌بندی (Cluster) کرده است. همچنین بخشی دیگر تحت عنوان UniParc (The Uniprot Archive) در UniProt وجود دارد که داده‌های غیرتکراری پروتئین‌ها را ارائه می‌دهد.

پایگاه اطلاعات پروتئینی PIR(protein information resource):

۷۸-فصل چهارم

مخزن اطلاعات پروتئینی (The protein Information Resource) در بنیاد ملی تحقیقات بیوشیمی (NBRF) دانشگاه جورج تاون قرار دارد و مرکزیتی برای بانک‌های اطلاعات پژوهش‌های ژنومیک و پروتئومیک می‌باشد.

پایگاه داده‌های زیر در جایگاه PIR وجود دارد:

iProClass

PIRSF

PIR-PSD

PIR-NRF

UniProt

۳-۱-۴ معرفی iProClass

این پایگاه اطلاعات ارزشمندی را برای uniProtKB و بخش پروتئینی NCBI فراهم می‌‌کند. در این پایگاه توالی‌های غیرتکراری (non-redundan) پروتئینی ساماندهی شده و با بیش از ۹۰ پایگاه داده‌های دیگر ارتباط متقابل دارد.

کاربرد‌های پایگاه iProClass به قرار زیر است:

نام گذاری توالی پروتئین
تهیه اطلاعات به روز با تفسیر برای هر پروتئین
تهیه نقشه تشخیص هویت پروتئین (protein ID maping)

تصویر ۷-۴: نمایش ارتباط بانک iProClass با سایر بانک‌ها و پایگاه‌ها.

از منوی databases بر روی iProClass کلیک کنید .وارد صفحه زیر می‌شوید.

۷۹-پایگاه‌های اطلاعات اولیه توالی‌های اسیدآمینه و ساختار فضایی پروتئین‌ها

تصویر ۸-۴: نمایش لینک دسترسی به iProClass و سه بانک اصلی دیگر در پایگاهPIR.

در سمت راست صفحه بر روی text search کلیک کنید.

تصویر ۹-۴: نمایش نحوه‌های مختلف جست‌وجو در iProClass .

در صفحه‌ای که باز می‌شود پروتئین مورد نظر را جست‌وجو کنید.

۸۰-فصل چهارم

تصویر ۱۰-۴: نحوی جست‌وجوی Text در iProClass.

نتیجه به صورت زیر نمایش داده می‌شود.

تصویر ۱۱-۴: لیست نتایج جست‌وجوی iProClass.

اگر بر روی uniport کلیک کنید به بانک uniport منتقل می‌شوید و اگر بر روی iProClass کلیک کنید اطلاعات مربوط به این بانک نمایش داده می‌شود که در تصویر ۱۲-۴ یک نمونه رکورد iProClass را مشاهده می‌کنید.

۸۱-پایگاه‌های اطلاعات اولیه توالی‌های اسیدآمینه و ساختار فضایی پروتئین‌ها

تصویر ۱۲-۴: یک نمونه رکورد iProClass.

۴-۱-۴ معرفی OWL

OWL یک بانک اطلاعات پروتئینی غیرتکرای است براساس SWISS-PROT به اضافه‌ی توالی‌های مربوط به
NBRF /PIR، GenPept و پایگاه ساختار سه‌بعدی PDB (NRL3D) است. OWL در دانشگاه لیدز (انگلستان) و با همکاری Bleasby از HGMRRC (مرکز مرجع پروژه‌ی نقشه‌یابی ژنوم انسان) نگهداری می‌شود. متاسفانه این پایگاه تقریبا هر سه ماه یک‌بار گزارش می‌دهد و به صورت منظم به‌روز رسانی نمی‌شود.

۲-۴ پایگاه داده‌های ساختار فضایی پروتئین‌ها

یکی از کارهای جالب بشری به تصویر کشیدن مفاهیم علمی است. تصاویر، مفاهیم علمی را گویاتر و جذاب‌تر می‌کنند. زیست‌شناسان و محققین علم ژنتیک نیز از این ابزار به خوبی بهره برده و از آن در کارهای تحقیقاتی و انتقال مفاهیم به دانش‌اندوزان استفاده کرده‌اند. دستاوردهای زیادی در همکاری مهندسین کامپیوتر با دانشمندان زیست‌شناس حاصل شده است که این تلاشها در خور تقدیر است.

تجسم پیچ‌و خم‌های DNA و ماکرومولکولهای مرموزی چون پروتئین‌ها و درک ویژگی‌های وابسته به این ساختارها، برای انسان بسیار مشکل است. در این زمینه تصاویر سه بعدی بسیار راه‌گشا و پر فایده هستند. تصاویر و انیمیشن‌های زیادی به همراه نرم‌افزارهای باارزشی که این تصاویر را نمایش دهند به وجود آمده‌اند که در این فصل به نمونه‌ای از آنها توجه خواهیم کرد. پژوهشگران به روش‌های مختلفی از جمله تابش اشعه ایکس ساختار سه بعدی پروتئین‌ها را مورد بررسی قرار می‌دهند. نتایج حاصل از این پرتونگاری‌ها، اطلاعاتی است که در به تصویر کشیدن این ساختارها مورد نیاز است.

۸۲-فصل چهارم

۱-۲-۴ :(Protein Data Bank) PDB

در این پایگاه اطلاعات مربوط به ساختار سه بعدی ماکروملکول‌های زیستی ذخیره شده است. در این پایگاه هم اکنون چند هزار ساختمان DNA، پروتئین یا هردو ذخیره شده است که همگی با روش‌های آزمایشگاهی نظیر
NMR, X-ray diffraction, electron microscopy و مانند آن به دست آمده‌اند.

بانک داده پروتئین PDB در سال ۱۹۷۱ در آزمایشگاه‌ ملی بروک‌هَوِن ^[۱]BNL به عنوان پایگاهی، ساختارهای سه‌بعدی درشت‌مولکول‌های زیستی که به‌طور تجربی تعیین شده‌اند ایجاد شد. در ۱۹۹۹ فعالیت PDB به ^[۲]RCSB منتقل شد. PDB هم‌چنین حاوی داده‌های ساختاری مربوط به پروتئین‌ها، RNAها، قطعات کوتاه DNA، کربوهیدرات‌ها، کمپلکس‌های مولکولی و نیز ویروس‌ها را دربرمی‌گیرد. PDB هر مدخل شامل مختصات اتمی، فهرست‌های کتاب‌شناسی، اطلاعات ساختار اولیه و ثانویه، همراه با فاکتورهای ساختاریابی بلورنگاری و داده‌های تجربی NMR است. داده‌های این پایگاه به‌صورت روزافزون در حال افزایش می‌باشد که در تصویر ۱۳-۴ این رشد اطلاعاتی را مشاهده می‌کنید.

تصویر ۱۳-۴: نمایش نمودار رشد اطلاعات پایگاه PDB (March 2010)

برای ورود به این پایگاه به آدرس www.rcsb.orgمراجعه کنید.

[۱] Brookhaven National Laboratory

[۱] Research Collaboraory for Structural Bioinformatics

۸۳-پایگاه‌های اطلاعات اولیه توالی‌های اسیدآمینه و ساختار فضایی پروتئین‌ها

تصویر ۱۴-۴: صفحه اصلی پایگاه PDB.

هنگام جست‌وجو در PDB همچون سایر بانک‌های اطلاعاتی می‌توانید نام پروتئین مورد نظرتان را در باکس مخصوص جست‌وجو تایپ کنید. ما در این‌جا پروتئین P53 را مورد جست‌وجو قرار دهیم.

تصویر ۱۵-۴: لیست نتایج جست‌وجوی پایگاه PDB.

هر رکورد PDB شامل اطلاعات شناسنامه‌ای (مانند عنوان، نام نویسندگان و …)، اطلاعات آزمایش انجام شده (نام روش، میزان تمایز و…) و بالاخره تصویر ثابت (still image) و ساختمان سه بعدی قابل دست‌ورزی پروتئین (۳D-Structure) است.

۸۴-فصل چهارم

تصویر ۱۶-۴: یک نمونه رکورد PDB.

برای دست‌یابی به توالی اسید آمینه با فرمت FASTA و همچنین مشاهده ساختار دوم پروتئین می‌توان وارد سربرگ Seqence شد.

تصویر ۱۷-۴: نمایش ساختار دوم در رکوردهای PDB.

برای مشاهده ساختمان سه بعدی و چرخش آن نیاز به نرم افزارهای نمایشگر(PDB viewer) است. برخی از آن‌ها مانند Chime MICE, Rasmol و VRML به طور مستقیم از همین پایگاه قابل دریافت است. از طریق ابزار Jmol که به صورت آنلاین در دسترس است، می‌توان ساختار سوم را به‌طور دقیق مشاهده کرد. برای مشاهده توسط Jmol شما نیاز دارید که JAVA بر روی سیستم شما نصب باشد.

۸۵-پایگاه‌های اطلاعات اولیه توالی‌های اسیدآمینه و ساختار فضایی پروتئین‌ها

تصویر ۱۸-۴: دسترسی به نر افزار نمایش سه بعدی ساختار پروتئین به صورت آنلاین.

در صورتی که نرم‌افزار java بر روی کامپیوتر شما نصب باشد، ساختار سه بعدی پروتئین نمایش داده می‌شود که نمونه‌ای از آن را در تصویر ۱۹-۴ می‌بینید.

تصویر ۱۹-۴: نمایش ساختار سوم پروتئین توسط Jmol.

۲-۲-۴ ساختار سه بعدی پروتئین‌ها در NCBI

یک گروه از پایگاه داده‌ها به نام Structure توسط NCBI تدارک دیده شده است که اطلاعات مربوط به ساختار سه بعدی پروتئین‌ها را در خود نگه می‌دارد. این گروه شامل موارد زیر است:

MMDB: پایگاه داده‌ای شامل ساختار سه بعدی ماکرومولکول‌ها (The Molecular Modeling DataBase) به همراه ابزارهایی برای نمایش و مقایسه این ساختارها است. ساختار سه بعدی این پروتئین‌ها به روش‌های تجربی و از پروتئین‌های موجود در پایگاه داده PDB (پایگاه داده پروتئین‌ها) حاصل شده است. نرم‌افزاری به نام Cn3d توسط NCBI تدارک دیده شده است که به وسیله آن می‌توان این ساختار‌های سه بعدی را مشاهده کرد. شما می‌توانید با توالی یک پروتئین‌ شروع نمایید و با استفاده از BLAST تمام پروتئین‌هایی که با آن توالی شباهت دارند را مشخص نمایید و سپس ساختار سه بعدی هر یک را که تاکنون شناخته شده‌ است را توسط ابزارهای نمایشگر مشاهده نمایید.

PubVats: پایگاه داده‌ای حاوی نتایج مقایسهStructure-Structure در مورد پروتئین‌ها است. هر زنجیره پروتئینی به همراه دامین سه بعدی موجود در پایگاه MMDB با تمام پروتئین‌های دیگر به وسیله الگوریتم VAST مقایسه می‌شود. لیستی از پروتئین‌های مشابه حاصل از این مقایسه، از طریق لینک‌های موجود در صفحات اینترنتی پایگاه داده MMDB بخش Summary موجود است که در این فصل در مورد آن‌ها و نحوه استفاده از آن توضیح خواهیم داد.

PubChem: پایگاه داده‌ای حاوی اطلاعاتی در مورد فعالیت‌های بیولوژی مولکول‌های کوچک می‌باشد.

:CDD پایگاه داده دامین‌های حفظ شده (Conserved Domain Database) می‌باشد.

آیا می‌توان عملکرد یا ساختار پروتئین‌های ناشناخته را پیش‌بینی کرد؟ آیا پروتئین‌های ناشناخته عملکرد مشابه آنچه که در مورد پروتئین‌های دیگر می‌دانیم دارند؟ آیا پروتئین‌های با ساختار‌های مشابه، عملکرد مشابهی دارند؟ و برعکس. این‌ها

۸۶-فصل چهارم

سوال‌هایی است که در ذهن بسیاری از محققین وجود دارد. نمایش سه بعدی پروتئین‌ها از اهمیت خاصی برخوردار است. از این پایگاه داده می‌توان جهت مقایسه پروتئین‌ها با یکدیگر استفاده کرد. با مقایسه ساختار پروتئین‌ها و یافتن الگوهای مشابه، می‌توان در مورد عملکرد آن‌ها پیش‌بینی کرد یا با عملکرد‌های مشابه پی به ساختارهای مشابه برد. این‌جا با نحوه استفاده از این پایگاه داده‌ها آشنا می‌شوید.

پایگاه داده Structure

برای دسترسی به پایگاه داده Structure وارد سایت NCBI شوید و از طریق منوی کشویی وارد پایگاه داده Structure شوید. در جلوی عبارت Structure کادر سفیدی را مشاهده می‌نمایید که محل تایپ نام پروتئینی است که در نظر دارید آن را جست‌وجو نمایید. نمونه‌ای را به عنوان جست‌وجو برای شما در نظر گرفته‌ایم تا روش استفاده از این پایگاه داده را فرابگیرید. ما هموگلوبین (hemoglobin) را به عنوان پروتئین مورد جست‌و‌جو انتخاب کرده‌ایم و نام آن را در کادر اول تایپ کرده و بر روی کلمه Search کلیک نموده‌ایم تا صفحه زیر باز گردد.

تصویر ۲۰-۴: نمایش لیست جست‌وجو در پایگاه Structure.

همچنان که در تصویر مشاهده می‌‌نمایید تعداد ۷۵۶ رکورد در مورد این پروتئین یافت شده است. در این صفحه تعداد ۲۰ رکورد از ۷۵۶ رکورد نمایش داده شده است. این ۲۰ رکورد با شماره از یکدیگر جدا شده‌اند. در کنار هر شماره کدی را مشاهده می‌نمایید که کد این پروتئین در پایگاه داده PDB است. مثلا در مورد رکورد اول، کد این پروتئین ۳UBV است.

در انتهای هر رکورد کد این پروتئین در پایگاه داده MMDB است که مثلا در مورد رکورد اول به صورت
MMDB ID : 98348 نمایش داده شده است. اکنون آماده‌ایم تا اطلاعات بیش‌تری در مورد هر رکورد کسب نماییم. برای این منظور بر روی نام پروتئین که به صورت لینک و آبی‌رنگ است کلیک نمایید. به عنوان نمونه بر روی اولین رکورد که کد آن ۳UBV است، کلیک می‌کنیم که نتیجه را در تصویر بعد مشاهده خواهید کرد. این صفحه به‌علت طولانی بودن در دوتصویر تقسیم شده است.

۸۷-پایگاه‌های اطلاعات اولیه توالی‌های اسیدآمینه و ساختار فضایی پروتئین‌ها

تصویر ۲۱-۴:یک نمونه رکورد پایگاه Structure. (قسمت اول)

عنوان پایگاه داده MMDB را در بالای صفحه مشاهده می‌نمایید. به این صفحه اینترنتی در مورد ساختار هر پروتئین، صفحه Summary گفته می‌شود که در زیر عنوان نام این پایگاه داده به صورت Summary مشاهده می‌کنید. در این صفحه خلاصه‌ای از ساختار این پروتئین را می‌بینید که در ادامه جزییات هر بخش را شرح می‌دهیم:

Reference: لینک به مقاله‌ای در پایگاه داده PubMed

Description: نام و توصیف خلاصه‌ای از پروتئین، تاریخ ثبت اطلاعات این پروتئین درون PDB و لیست افرادی که ساختار پروتئین را تعیین کرده‌اند در این قسمت آمده است.

Source Organism: تاکسانومی‌های مربوط به هر زنجیر پروتئین را لیست می‌کند.

MMDB ID: کد یکتای ساختار این پروتئین در پایگاه داده MMDB تنها با داشتن این کد می‌توانید اختصاصا به اطلاعات و ساختار این پروتئین دست یابید. هرگاه پروتئین جدیدی وارد این پایگاه می‌شود، کد منحصر به فرد و جدیدی را دریافت می‌کند.

PDB ID: کد چهار حرفی این پروتئین در پایگاه داده پروتئین‌ها. اگر بر روی این کد کلیک نمایید اطلاعات مربوط به این پروتئین را در پایگاه داده پروتئین‌ها مشاهده خواهید کرد.

در قسمت بعد که با دکمهView 3D Structure مشخص شده است. می‌توانید فایل مربوط به ساختار سه بعدی پروتئین را که در نمایش آن به وسیله نرم‌افزار Cn3D مورد نیاز است دانلود کنید.

جزییات بیش‌تر پروتئین در پایین‌ صفحه اینترنتی به صورت گرافیکی نمایش داده شده است که به نام
Molecules and interactions مشخص شده است. در قسمتی که پروتئین را به صورت نوارهای قرمز و صورتی مشخص شده است روی Show annotation کلیک کنید با تصویر زیر مواجه می‌شوید.

۸۸-فصل چهارم

تصویر ۲۲-۴: بخش Molecules and interactions در یک رکورد پایگاه Structure. (قسمت دوم)

همان‌طور که در تصویر ۲۲-۴ مشاهده می‌کنید نوارها با جزئیات بیش‌تر مشخص شده‌اند و یک خط کش به تصویر اضافه شده است و اگر بر روی این نوار درجه‌بندی شده کلیک نمایید شما را به پایگاه داده PubVast متصل می‌کند و در تصویر میبینید که تمام پروتئین‌هایی را که از نظر ساختاری شباهتی به هموگلوبین دارند را لیست کرده است.

تصویر ۲۳-۴: پایگاه داده PubVast.

۸۹-پایگاه‌های اطلاعات اولیه توالی‌های اسیدآمینه و ساختار فضایی پروتئین‌ها

در بالای تصویر ۲۳-۴ لوگوی پایگاه داده VAST را مشاهده می‌نمایید که عبارت simllar Structure در این قسمت اشاره به محتوای این پایگاه داده دارد. وظیفه این پایگاه یافتن پروتئین‌های مشابه از نظر ساختاری با استفاده از الگوریتم VAST است. محققینی که بر روی ارتباط پروتئین‌ها با یکدیگر از نظر ساختاری کار می‌کنند این صفحه برای آن‌ها حایز اهمیت است.

در بالای این تصویر با عنوان VAST related structures for: MMDB ۹۸۳۴۸, ۳UBV sequence A. نشان داده شده است. یعنی این که در این صفحه، پروتئین‌های مشابه (از نظر ساختاری) با این کد را لیست کرده است. در این قسمت از صفحه کنترل‌های لازم برای مقایسه ساختار یا توالی پروتئین‌ها با یکدیگر قرار داده شده است. برای استفاده از این کنترل‌ها باید با مفاهیم و الگوریتم‌های BLAST کردن آشنا باشید. در پایین صفحه پروتئین‌های مشابه به صورت نوارهای قرمزی وجود دارند که اگر بر روی نام هر یک از پروتئین‌ها‌ کلیک نمایید صفحه ای باز می‌شود(تصویر ۷-۴) و زنجیرها و دیگر اطلاعات این پروتئین را نمایش می‌دهد.

تصویر ۲۴-۴:بخشی از رکورد پایگاه داده PubVast.

۳-۲-۴ CSD

CSD (پایگاه داده‌ی ساختاری کمبریج[۱]) شامل داده‌های ساختار سه‌بعدی ترکیبات آلی و آلی – فلزی است که بعضی‌ از آن‌ها از لحاظ زیست‌شناختی اهمیت دارند. CSD به‌وسیله‌ی مرکز داده‌های بلورنگاری کمبریج (CCDC) که در سال ۱۹۶۵ در دانشگاه کمبریج آغاز به کار کرده و در سال ۱۹۸۹ یک موسسه‌ی غیرانتفاعی شده، تهیه شده است. ساختارهای سه‌بعدی موجود در CSD توسط پراش اشعه x و پراش نوترون مشخص شده‌اند. بانک CSD با سرعت ۱۵۰۰۰ ساختار در سال افزایش می‌یابد.

۳-۴ بانک‌های اطلاعاتی خودکار

[۱] Cambridge Structural Database

۹۰-فصل چهارم

این بانک‌ها به‌وسیله‌ی رایانه تولید شده و حاوی ترجمه‌ی توالی‌های رمزکننده (CoDing Sequence = CDS) از یک بانک خاص حاوی داده‌های DNA است:

TrEMBL: مجموعه‌ای از CDSها از EMBL، به استثنای توالی‌هایی که قبلا در SWISS-PROT بوده‌اند، که در
EMBL-EBI با همکاری دانشگاه جنوا و موسسه‌ی سوییسی بیوانفورماتیک نگهداری می‌شود. هر سه ماه گزارش داده و هفتگی به‌روز رسانی می‌شود. دو قسمت در این بانک داده وجود دارد:

SP-TrEMBL: توالی‌هایی که برای وارد شدن به گزارش بعدی SWISS-PROT انتخاب شده‌اند.

REM-TrEMBL: توالی‌هایی که وارد SWISS-PROT نمی‌شوند (مانند واریانت‌های فرعی توالی‌های یکسان، قطعات کوچک، توالی‌هایی مشکوک، توالی‌های مصنوعی).

GenPept: مجموعه‌ای از CDSها از GenBank، که در NCI-FCRDC (موسسه‌ی ملی سرطان؛ مرکز توسعه و تحقیق سرطان فردریک؛ مریلند، آمریکا) نگهداری می‌شود. هر دو ماه گزارش می‌دهد و هر روز به‌روز رسانی می‌شود.

تفاوت‌هایی در هدف و کیفیت میان این بانک‌های داده وجود دارد برای نمونه SWISS-PROT بانک اطلاعاتی با مراقبت‌های بالا است که حاوی مستندهای بسیار خوبی است. به‌طور سیستماتیک واریانت‌ها و قطعات را در یک ورودی (entry) منفرد ادغام می‌کند اما بعد از رشد بانک‌های داده‌ای DNA، روند آن کند شده است. PIR حاوی توالی‌های بیش‌تری است که شامل الیگوپپتیدهای توالی‌یابی شده‌ی واقعی مختلفی است اما به خوبی کنترل نمی‌شود. بانک‌های داده‌ای خودکار مانند TrEMBL و GenPept حتی بزرگ‌تر هستند اما مستندهای کمی دارند و گاهی اوقات شامل ترجمه‌های خیالی هستند که به‌طور واقعی در طبیعت وجود ندارند.

» فصل چهارم-پایگاه‌های اطلاعات اولیه توالی‌های اسیدآمینه و ساختار فضایی پروتئین‌ها کتاب بیونفورماتیک سلولی و مولکولی

۷۳-پایگاه‌های اطلاعات اولیه توالی‌های اسیدآمینه و ساختار فضایی پروتئین‌ها

۷۴-فصل چهارم

۷۵-پایگاه‌های اطلاعات اولیه توالی‌های اسیدآمینه و ساختار فضایی پروتئین‌ها

۷۶-فصل چهارم

۷۷-پایگاه‌های اطلاعات اولیه توالی‌های اسیدآمینه و ساختار فضایی پروتئین‌ها

۷۸-فصل چهارم

۷۹-پایگاه‌های اطلاعات اولیه توالی‌های اسیدآمینه و ساختار فضایی پروتئین‌ها

۸۰-فصل چهارم

۸۱-پایگاه‌های اطلاعات اولیه توالی‌های اسیدآمینه و ساختار فضایی پروتئین‌ها

۸۲-فصل چهارم

۸۳-پایگاه‌های اطلاعات اولیه توالی‌های اسیدآمینه و ساختار فضایی پروتئین‌ها

۸۴-فصل چهارم

۸۵-پایگاه‌های اطلاعات اولیه توالی‌های اسیدآمینه و ساختار فضایی پروتئین‌ها

۸۶-فصل چهارم

۸۷-پایگاه‌های اطلاعات اولیه توالی‌های اسیدآمینه و ساختار فضایی پروتئین‌ها

۸۸-فصل چهارم

۹۰-فصل چهارم

پر بیننده ترین

فصل ششم-هم‌ردیفی توالی‌ها کتاب بیونفورماتیک سلولی و مولکولی

فصل اول-مقدمه‌ای بر تکنولوژی‌های اُمیکس، بیوانفورماتیک و کلینیکال بیوانفورماتیک کتاب بیونفورماتیک سلولی و مولکولی

فصل سیزدهم-تنوع ژنتیکی کتاب بیونفورماتیک سلولی و مولکولی

فصل دوازدهم-پیشگویی ساختار دوم و سوم پروتئین کتاب بیونفورماتیک سلولی و مولکولی

فصل دوم-ژنومیکس کتاب بیونفورماتیک سلولی و مولکولی

بیوانفورماتیک سلولی و مولکولی کتاب بیونفورماتیک سلولی و مولکولی

فصل چهاردهم-فناوری انفورماتیک کتاب بیونفورماتیک سلولی و مولکولی

فصل هشتم-پروتئومیکس و ایمیونومیکس کتاب بیونفورماتیک سلولی و مولکولی

فصل چهارم-پایگاه‌های اطلاعات اولیه توالی‌های اسیدآمینه و ساختار فضایی پروتئین‌ها کتاب بیونفورماتیک سلولی و مولکولی

فصل هفتم-بانک‌های اطلاعاتی ثانویه (کلاسیفیکیشن دمین‌های پروتئینی) کتاب بیونفورماتیک سلولی و مولکولی

آخرین مطالب

فصل چهاردهم-فناوری انفورماتیک کتاب بیونفورماتیک سلولی و مولکولی

فصل سیزدهم-تنوع ژنتیکی کتاب بیونفورماتیک سلولی و مولکولی

فصل دوازدهم-پیشگویی ساختار دوم و سوم پروتئین کتاب بیونفورماتیک سلولی و مولکولی

فصل یازدهم-کار با RNA و پیشگویی ساختار آن و معرفی بانک‌های miRNA کتاب بیونفورماتیک سلولی و مولکولی

فصل دهم-متابولومیکس کتاب بیونفورماتیک سلولی و مولکولی

فصل نهم-ترنسکریپتومیکس کتاب بیونفورماتیک سلولی و مولکولی

فصل هشتم-پروتئومیکس و ایمیونومیکس کتاب بیونفورماتیک سلولی و مولکولی

فصل هفتم-بانک‌های اطلاعاتی ثانویه (کلاسیفیکیشن دمین‌های پروتئینی) کتاب بیونفورماتیک سلولی و مولکولی

فصل ششم-هم‌ردیفی توالی‌ها کتاب بیونفورماتیک سلولی و مولکولی

فصل پنجم-Genome Warehouseها و بانک‌های اطلاعاتی منابع کتاب بیونفورماتیک سلولی و مولکولی

دیدگاهتان را بنویسید لغو پاسخ