- 793
- ۱۴۰۲/۰۲/۰۷ - ۰۲:۱۴
- 32 بازدید
شرح فصل و نکات ویژه: در این فصل به مبحث کلاسیفیکشن دمینهای پروتئینی و کلاسبندی پروتئینها میپردازیم. بانکهای اطلاعاتی ثانویه از اطلاعات بانکهای اطلاعاتی اولیه استفاده میکنند. کلاسیفیکیشن دمینهای پروتئین مبحث جذاب و پرکاربردی میباشد. در پروژههای ژنوم به منظور تجزیه و تحلیلدادههای NGS از مباحث این فصل استفاده میشود. ۱۴۵-بانکهای اطلاعاتی ثانویه (کلاسیفیکیشن دمینهای پروتئینی) براساس تعریف عمومی دمین بخشی از پروتئین است که وقتی از پروتئین جدا شود شکل خود را حفظ میکند. دمین الگوی[…]
شرح فصل و نکات ویژه:
- در این فصل به مبحث کلاسیفیکشن دمینهای پروتئینی و کلاسبندی پروتئینها میپردازیم.
- بانکهای اطلاعاتی ثانویه از اطلاعات بانکهای اطلاعاتی اولیه استفاده میکنند.
- کلاسیفیکیشن دمینهای پروتئین مبحث جذاب و پرکاربردی میباشد.
- در پروژههای ژنوم به منظور تجزیه و تحلیلدادههای NGS از مباحث این فصل استفاده میشود.
۱۴۵-بانکهای اطلاعاتی ثانویه (کلاسیفیکیشن دمینهای پروتئینی)
براساس تعریف عمومی دمین بخشی از پروتئین است که وقتی از پروتئین جدا شود شکل خود را حفظ میکند. دمین الگوی توالی حفاظت شده است که به صورت یک واحد ساختاری و عملکردی مستقل تعریف میشود. معمولا دمینها بلندتر از موتیفها هستند و دارای بیش از ۴۰ رزیدو و حد اکثر ۷۰۰ رزیدو، با طول متوسط ۱۰۰ رزیدو هستند. دمین ممکن است در محدوده خود حاوی موتیف و یا بدون موتیف باشد. موتیف اغلب به جایگاه ساختاری متمایز مربوط بوده که کار خاصی را انجام میدهد. موتیفها کوتاه هستند و مربوط به عملکردهای متمایز پروتئین و یا DNA است. معمولا موتیفها را به دو دسته sequence motif و structural motif تقسیم میکنند. N-glycosylation site motif یک نمونه sequence motif میباشد و همچنین از معروفترین structural motifها میتوان به موتیف انگشت – روی و یا زیپ لوسین اشاره کرد.در زیست شناسی مولکولی نوعی موتیف به نام SLiMs نام برده میشود که مخفف Short Linear Motifs میباشد و در اینترکشن بین پروتئینها نقش دارد.
پروتئینها به طور متوسط از دو یا سه دمین تشکیل شدهاند. یک دمین ممکن است با دیگر پروتئینها تداخل کند و ممکن است به یونی مانند کلسیم و یا روی متصل شود یا دارای یک جایگاه فعال باشد. داشتن یک دمین کاتالیزوری همراه با یک دمین اتصالی و یک دمین تنظیمی در پروتئینها معمول است. دمینها آنقدر در زیست شناسی مهم هستند که زیست شناسان از زمانهای دور کوشش کردهاند مجموعههای جامع ای از آنها بسازند. با توجه به این که تعریف مشخص و واضح یک دمین دشوار است و متخصصان به ندرت با یکدیگر در این باره توافق دارند همپوشانی زیادی بین چند مجموعه (پایگاه) عمده دمینهای موجود امروزی وجود دارد که در جدول زیر به آنها اشاره شده است.
جدول ۱-۷: تعدادی از پایگاههای اصلی دمینهای پروتئینی
دمینها به دلیل اهمیت عملکردی و ساختمانی در طی تکامل حفاظت میشوند. به عبارت دیگر، جهش در این توالیها کشنده است و در صورت اتفاق جهشهای تصادفی در این توالیها، موجود حامل آن جهشها حذف شده و بنابراین در زمان کنونی وجود ندارند. این گونه توالیها، توالیهای حفاظت شده Conserved sequences نامیده میشوند. در مقابل، تنها موجوداتی ماندهاند که حامل جهشهای قابل تحمل هستند. در یک همردیفی چندگانه، این مفهوم به خوبی نشان داده میشود.
اگر به طریقی توالیهای مهم برای ساختمان و عملکرد اعضای یک خانواده را شناسایی کنیم، میتوانیم آن توالیها را معیاری برای تشخیص اعضای آن خانواده پروتئینی به کار برده و عملکرد احتمالی پروتئین مجهول را پیشگویی کنیم. اساس این کار، همردیفی چندگانه (Multiple Alignment ) توالیهای شناخته شده و پیدا کردن توالیهای مشترک بین آنهاست. در عمل کار بدین سادگی نیست. زیرا در خلال همان توالیهای مهم، یک یا هر دوی اسید آمینه که با سوبسترا و یا لیگاند خود واکنش میکند اهمیت ویژه دارند. علاوه بر آن، به طرق مختلفی میتوان میزان حفاظت شدن یک توالی در موجودات مختلف را نشان داد. این موضوع، سبب وضع الگوریتمها و به تبع آن تهیه نرمافزارهای متفاوتی برای استخراج توالیهای حفاظت شده (Conserved sequence ) یا توالیهای مشترک (Consensus sequence) گردیده است. که به ترتیب پیچیدگی و قابلیت اعتماد تشریح شدهاند.
در ادامه مبحث این فصل یک توالی اسید آمینه را در چند بانک مختلف وارد میکنیم تا دمینهای موجود در این توالی برای ما مشخص شود. این بانکها و ابزارها با الگوریتمهای مختلف کار میکنند که در ادامه فصل به شرح آنها خواهیم پرداخت. با توجه به جدولی که در ابتدای فصل مشاهده کردید هرکدام از این بانکها اطلاعات متفاوتی از دمینها دارندو همچنین الگوریتمهای متفاوتی را به کار میگیرند که باعث میشود نتایج متفاوتی به دست بیاید. یک محقق باید برای به دست آوردن یک نتیجه قابل اعتماد توالی خود را در تمام این بانکها مورد بررسی قرار دهد. در جدول ۲-۷ به صورت خلاصه منابع اولیه و الگوریتم تعدادی از بانکهای مهم معرفی شدهاند.
۱۴۶-فصل هفتم
۱-۷ مدلها و ابزارهای مقایسه توالیها:
یکی از کاربردهای انطباق چندگانه توالی در توالیهای مرتبط در یک پایگاه داده، ساخت ماتریسهای نمره دهی اختصاصی جایگاه یا PSSM، پروفایلها و مدل مارکوف مخفی (HMM) است. اینها مدلهای آماری هستند که منعکس کننده اطلاعاتی راجع به بسامد اسیدهای آمینه یا نوکلئوتیدها در یک انطباق چند گانه میباشند. از جمله ابزارهای مقایسه توالیها استفاده از ماتریکسهای HMM و PSSM است.در این مدلها توالی مشترک دقیقا توالی منفرد نیست و هدف از ایجاد این مدلها آن است که اجازه دهیم جورشدگی نسبی با توالی مورد نظر ایجاد گردد به طوری که اینها بتوانند جهت یافتن اعضای دورتر خانواده، مورد استفاده قرار گرفته و باعث افزایش حساسیت جستوجویهای بانک اطلاعاتی گردد.
۱-۱-۷ PSSM
PSSMs (Position-specific scoring matrix) جدولی است که حاوی اطلاعات احتمالی آمینو اسیدها و نوکلئوتیدها در هر موقعیت از یک مقایسه توالی چند تایی بدون شکاف است. در چنین جدولی ستونها نشان دهنده موقعیت ریشهها و ردیفها اسامی ریشهها و یا بالعکس میباشد (تصویر ۱-۷). برای ایجاد یک ماتریکس در ابتدا فراوانی هر ریشه در هر موقعیت در مقایسه چند توالی محاسبه میگردد. سپس با تقسیم کردن فراوانی هر ریشه بر تعداد کل ریشهها، نرمالسازی میگردند به طوری که نمرات مستقل از موقعیت و طول میباشند. مقادیر سپس با لگاریتمگیری بر پایه ۲ به مقادیر احتمال تبدیل میگردند. با این روش،مقادیر ماتریکس به نمرات Log odds ریشههایی که در موقعیت واقع شدهاند تبدیل میگردد. در این ماتریکس،نمره مثبت بیانگر جور شدن ریشههای همانند یا مشابه است و نمره منفی بیانگر جور شدن توالی غیر محافظت شده است.
مدل میتواند به عنوان یک توالی منفرد برای جستوجو ی بانک اطلاعاتی و یا برای آزمودن اینکه یک توالی تا چه حد در یک گروه جور میشود به کار رود. برای مثال توالی جدید AACTCG تا چه حدی در ماتریکس تصویر ۲-۷ جور میشود؟ برای پاسخ به این سوال مقادیر احتمال توالی در موقعیتهای مورد نظر ماتریکس میتوانند با همدیگر جمع شوند (تصویر ۲-۷). نمره جور شدگی کل برای توالی ۶.۳۳ است. چون مقادیر ماتریکس به لگاریتم در پایه ۲ تبدیل شده اند لذا توالی با احتمال ۲ به توان ۶.۳۳ و یا ۸۰ برابر بیشتر از حالت تصادفی در ماتریکس جای میگیرد. در نتیجه توالی جدید میتواند با اطمینان بالایی به عنوان یک عضو از خانواده توالی طبقه بندی شود.
۲-۱-۷ پروفایلها
پروفایل، یک PSSM است که اطلاعات جریمه را با ملاحظه حذفها و اضافات برای یک خانواده در نظر میگیرد.
۱۴۷-بانکهای اطلاعاتی ثانویه (کلاسیفیکیشن دمینهای پروتئینی)
۳-۱-۷ PSI-BLAST
پروفایلها میتوانند جهت یافتن هومولوگهای توالی واگرا استفاده گردند. به هر حال، ایجاد یک پروفایل از مقایسه چند تایی و محاسبه نمرات برای جور کردن توالیها از یک بانک اطلاعاتی بزرگ نیاز به تجربه زیادی دارد.PSI-BLAST برنامه ای برای ایجاد پروفایلها و استفاده از آنها برای جستوجوی خودگار در بانک اطلاعاتی است که به وسیله NCBI به وجود آمده است.
PSI-BLAST پروفایلهایی را میسازد و جستوجوی بانک اطلاعاتی را با یک مدل تکراری انجام میدهد. ویژگی اصلی این روش این است که پروفایلها به صورت خودکار تولید میشوند و در مرحله پیشرونده بهتر میشوند. برنامه در هر تکرار برای افزایش حساسیت از یک الگوی وزندهی استفاده میکند از اعمال دیگر این برنامه برای افزایش حساسیت استفاده از رقم کاذب برای وزن دادن به ریشههای مشاهده شده است تا پروفایل اعضای بیشتری را بپذیرد.
بهینه سازی پارامترهای پروفایل، PSI-BLAST را به یک ابزار جستوجوی بسیار حساس تبدیل میکند تا بتوانیم مشابهتهای ضعیفتر بین توالیها را کشف کنیم. حساسیت بالای PSI-BLAST با ایجاد مثبت کاذب در فرایند تولید خود به خودی پروفایل سبب کاهش اختصاصیت میگردد. به طور معمول سه تا پنج تکرار در PSI-BLAST کافی است تا بتوانیم دورترین هومولوگ را در سطح توالی بیابیم.
۱۴۸-فصل هفتم
تصویر ۳-۷: PSI-BLAST.یک فرایند تکراری جهت یافتن هومولوگهای دورتر.
ابزار PSI-BLAST در ابتدا از یک توالی پروتئینی جستوجو شونده منفرد جهت انجام یک جستوجوی BLASTP معمولی استفاده مینماید تا توالی مشابه اولیه را تولید نماید. سپس توالیهای با نمره بالا برای ایجاد یک جدول ماتریکس چند تایی یا پروفایل استفاده میگردد. پروفایل سپس در مرحله دوم جستوجو برای تشخیص اعضای بیشتری از یک خانواده مشابه که ممکن است با پروفایل جور گردند به کار میرود. زمانی که توالیهای جدیدی مشخص شدند اینها با مقایسه چند تایی قبلی تلفیق میگردند تا پروفایل جدیدی را ایجاد نمایند، که سپس در چرخههای بعدی بانک اطلاعاتی استفاده میگردند. این فرایند میتواند تا زمانی که دیگر هیچ توالی جدیدی پیدا نشود ادامه پیدا کند. Reverse PSI-BLAST بانک اطلاعتی شامل پروفایلهایی است که جستوجوی آن معکوس با PSI-BLAST است.یعنی این عملیات جستوجو در مقابل پروفایلهای ساخته شده از
PSI-BLAST انجام میگیرد.
۴-۱-۷ مدل مارکوف
یک ابزار مناسب برای تعیین جور شدگی بین یک توالی و یک پروفایل، استفاده از HMM است. مدل مارکوف یا زنجیره مارکوف توالی رخدادهایی را توصیف مینماید که یکی پس از دیگری در یک زنجیره اتفاق می افتد. هر رخداد احتمال رخداد بعدی را تعیین مینماید (تصویر ۴-۷). توالیهای بیولوژیک که به صورت رشته هستند را میتوان زنجیره مارکوف در نظر گرفت که هر حرف نماینده یک مرحله است که با مقدار احتمال گذار به یکدیگر متصل شده اند. مدل مارکوف درجه صفر احتمال مرحله کنونی را مستقل از مرحله قبل توصیف مینماید. مدل مارکوف درجه اول احتمال مرحله کنونی را که به وسیله مرحله قبل توصیف شده است را توصیف مینماید. مدل مارکوف درجه دوم موقعیتی را که در آن احتمال مرحله کنونی به وسیله دو مرحله قبل تعیین میگردد را توصیف مینماید که این بستگی به تکرارهای سه تایی دارد.
۱۴۹-بانکهای اطلاعاتی ثانویه (کلاسیفیکیشن دمینهای پروتئینی)
تصویر ۴-۷:یک HMM ساده برای توالی DNA با مقادیر احتمال گذار و نشر. هر دو مقادیر احتمال محاسبه احتمال کل یک مسیر خاص در مدل استفاده میگردند.
۵-۱-۷ مدلهایدن مارکوف
در مدل مارکوف تمام مراحل در یک توالی خطی انجام پذیر هستند. برخی فاکتورهای مشاهده نشده قادرند محاسبات مرحله گذار را تحت تاثیر قرار دهند. برای دخالت دادن این فاکتورها در محاسبات به مدلهای پیچیده تری چون HMM نیاز است. یک HMM شامل دو یا تعداد بیشتری زنجیره مارکوف است که در آن تنها یک زنجیره حاوی مراحل مشاهده شده و زنجیرههای دیگر از مراحل مشاهده نشده (مخفی) که نتیجه مرحله مشاهده شده را تحت تاثیر قرار میدهند تشکیل شده است.
در HMM همچون یک زنجیره مارکوف، احتمالی که از یک مرحله به مرحله بعد به دست میآید را احتمال گذار مینامند. هر مرحله ممکن است حاوی تعدادی عناصر باشد. برای توالیهای نوکلئوتیدی چهار عنصر و برای توالیهای آمینو اسیدی ۲۰ عنصر وجود دارد.مقدار احتمال مربوط به هر عنصر در هر مرحله را احتمال نشر می نامند. برای محاسبه احتمال کلی یک مسیر احتمال گذار و نشر تمام مراحل مخفی و مشاهده شده را به حساب میآورند (شکل ۵-۷). برای این که یک مسیر بهینه را در HMM برای یک توالی مورد نظر با بالاترین احتمال بیابیم نیاز است که یک ماتریکس با مقادیر احتمال برای هر مرحله در موقعیت هر کدام از ریشهها ایجاد گردد. چندین الگوریتم برای تعیین مسیر با بالاترین احتمال برای این ماتریکس وجود دارد یکی از این الگوریتمها، الگوریتم Viterbi است که با مدلی مشابه با برنامه ریزی دینامیک در مقایسه توالی کار میکند.
شکل ۵-۷: ساختار معمولی HMM: لوزیها بیانگر مراحل جورشدگی و دایرهها مراحل اضافه شدگی میباشند. مراحل نیز از طریق فلشهایی که مقادیر احتمال گذار هستند به هم متصل میگردند (مراحل اضافه شدگی بیانگر اضافه شدن ریشهها در مدل است بعلاوه یک مرحله شروع و پایان نیز وجود دارد.در مدل، هر مسیر شامل توالی خاصی با حذفها و اضافاتی هستند).
۱۵۰-فصل هفتم
۲-۷ پایگاههایی با مدل توالی توافقی:
در همردیفی چندگانه توالیهای پروتئینی و یا نوکلئوتیدی، مناطقی یافت میشوند که توالیهایی در موجودات مختلف به خوبی حفاظت شده و تغییر کمتری کردهاند. به مثال زیر توجه فرمایید:
تصویر ۶-۷: اساس همردیفی با مدل توالی توافقی.
در همردیفی تصویر ۶-۷ منطقهای از توالیهای با تغییر کمتر دیده می شود که توالی توافقی بین ۵ توالی مزبور در قسمت Consensus Seq آورده شده است. پایگاه ProDom بر اساس این گونه توالیهای توافقی تشکیل شده است.
پایگاه ProDom
این پایگاه اطلاعات خانوادههای پروتئینی را که بر اساس اطلاعات توالی توافقی که به صورت اتوماتیک با استفاده از همردیفی چند گانه با الگوریتم PSI-BLAST به دست میایند را دارا میباشد که لزوما عملکرد شناخته شده ای ندارند. این همردیفی چندگانه به وسیله توالیهای موجود در پایگاههای اولیه پروتئینی SWISS-PROT و TrEMBL انجام میشود. این پایگاه برای بررسی نحوه آرایش موتیفهای خانوادههای پروتئینی پیچیده و کمک به بررسی مشابهت در Modular proteinها مفید می باشد.
جستوجو در ProDom
برای جستوجو در این پایگاه وارد لینک prodom.prabi.fr شوید،در این صفحه بر اساس نوع جستوجو می توانید بانک مربوطه را که در تصویر زیر نیز به ترتیبThe whole database، Complete genome وStructural genomics آمده است را انتخاب کنید.
تصویر ۷-۷: نمایی از صفحه اصلی پایگاه ProDom.
برای جستوجوی ساده در این پایگاه مورد اول (the whole database ) را انتخاب کنید. در صفحه مربوط به این نوع جستوجو به دو طریق با استفاده از توالی پروتئینی و نیز کلید واژه و شماره دسترسی موتیف مورد نظر می توانید جستوجو را انجام دهید. برای مثال اگر بخواهیم موتیفهای موجود در یک توالی پروتئینی را یافته و به این ترتیب عمل پروتئین مورد جستوجو و نام آن را بیابیم، باید توالی را در باکس مربوطه کپی کنید و کلید submit query را انتخاب کنید.
۱۵۱-بانکهای اطلاعاتی ثانویه (کلاسیفیکیشن دمینهای پروتئینی)
پروتئین مورد جستوجو و نام آن را بیابیم، باید توالی را در باکس مربوطه کپی کنید و کلید submit query را انتخاب کنید.
تصویر ۸-۷: تنظیمات و محل قرار دادن توالی اسید آمینهها در پایگاه ProDom.
در تصویر فوق سه قسمت مشخص شده اند که به ترتیب از بالا به پایین مربوط به مشخص کردن نوع برنامه جستوجو، مشخص کردن روش یافتن دمین و در پایین تصویر محل قرار دادن توالی مشخص شده است.
پس از وارد کردن توالی و درخواست جستوجو برای یافتن دمین و یا موتیفهای توالی صفحه زیر در نتیجه جستوجو مشاهده می شودکه نمایشی از دمینهای موجود در توالی میباشد که با کلیک بر روی هر کدام از قسمتها اطلاعات مربوط به آن دمین یا موتیف را نمایش میدهد.
تصویر ۹-۷: نتیجه جستوجوی دمین در پایگاه ProDom.
در ادامه صفحه، دمینهای موجود در توالی با شماره دسترسی و موقعیت آنها در توالی نمایش داده میشوند.
۱۵۲-فصل هفتم
تصویر ۱۰-۷: دسترسی به اطلاعات و آنالیز دمینهای یافته شده توسط ProDom.
اگر روی Submit Query در جلوی هر موتیف یا دمین کلیک کنید، اطلاعات مربوط به آن جایگاه توالی مورد نظر نشان داده می شود. به طور مثال، همردیفی توالیهای مشابه و توالی مورد نظر در محدوده جایگاه ویا درخت فیلوژنی نیز نمایان خواهد شد. این پایگاه اطلاعات متنوعی را در اختیار قرار میدهد که میتوان با کلیک روی قسمتهای مختلف اطلاعات بیشتری را به دست آورد. همانطور که در تصویرهای قبل دیدید این پایگاه چندین دمین برای توالیها پیشنهاد داد که با کلیک روی یکی از آنها اطلاعات آن را توانستیم ببینیم و متوجه شدیم در سمت راست توالی ما (طبق قسمتی که پایگاه نمایش داده بود) یک دمین MAP/ERK Kinase وجود دارد. و حال این توالی را در سایر پایگاهها نیز مورد بررسی قرار خواهیم داد.
در ادامه صفحه موتیفها و دمینهای موجود در ساختمان سوم پروتئین براساس دو برنامه Swiss-Model و Geno3D پیدا میشوند و در نتیجه جستوجو نمایش داده میشوند.
تصویر ۱۱-۷: دسترسی به ساختار سوم دمین در پایگاه ProDom.
در قسمت فوق اگر روی Submit Query در جلوی هر موتیف کلیک کنید صفحه ای باز میشود که با دادن آدرس ایمیل به نرم افزار ساختار سه بعدی آن قسمت را برایتان ارسال میکند.
۱۵۳-بانکهای اطلاعاتی ثانویه (کلاسیفیکیشن دمینهای پروتئینی)
۳-۷ پایگاههایی با مدل توالیهای الگو:
بدیهی است اگر بخواهیم به توالیهای توافقی که پیش تر توضیح داده شد تکیه کنیم و به عنوان معیار تشخیص خانواده ژنی و یا ساختمان و عمل خاص به کار بریم، بسیاری از توالیهای مربوط را شناسایی خواهیم کرد. به طور مثال، توالی توافقی زیر همردیفی مناسبی با توالی ۲ (seq 2 ) نشان نمیدهد و در جستوجوی توالیهای موتیف موجود در یک توالی مجهول نتیجه منفی مجازی(False negative ) خواهیم داشت.
تصویر ۱۲-۷: اساس همردیفی با مدل توالیهای الگو.
یک راه حل استفاده ازتوالیهای الگو به جای توالی توافقی است. به توالی الگوی زیر که بر مبنای مثال فوق تهیه شده است توجه فرمایید:
[AS] –D-[TVL]-G-X4-{PG}-C
در این توالی، در موقعیت ۱ میتوان آلانین (A ) و یا سرین (S ) داشت، در موقعیت ۲ آسپاریک اسید (D )، در موقعیت ۵ تا ۸ هر اسید آمینه (X ) و در موقعیت ۹ هر اسید آمینه بجز پرولین (P ) یا گلاسین (G) میتواند باشد. این روش، اساس کار پایگاه اطلاعات PROSITE Patterns بوده است.
توالیهای پروفایل (Profiles)
استفاده از توالیهای الگو نیز میتواند مستعد اشتباه باشد. زیرا اگر توالی الگو خیلی کوتاه، و متغیر باشد، توالیهای غیرمربوط نیز به عنوان یک توالی خاص شناسایی میشوند که اصطلاحا False Positives نامیده میشوند. اگر هم توالی ثابت و یا طولانی به عنوان الگو در نظر گرفته شود، ممکن است از یک توالی با ویژگیهای ساختمانی و عملکردی خاص غفلت شود که اصطلاحا False Negative نامیده میشود. در مثال فوق، نمیتوان بین توالی SDVGQPRSEC و ADLGAVFALC تفاوتی قائل شد.
PROSITE اولین پایگاه اطلاعات دمینهای خانوادههای پروتئینی است و به صورت همزمان با ارائه توالیهای الگو، رکوردهای پروفایل را تعریف نمود. در این پروفایلها فراوانی حضور یک اسید آمینه در یک موقعیت به علاوه خصوصیات بیوشیمیایی و بیوفیزیکی هر اسید آمینه و حفاظت تکاملی آن مبنای محاسبه امتیاز برای حضور اسید آمینههای مختلف در آن موقعیت قرارمیگیرد. اطلاعات الگوها اساسا از مقالات منتشر شده می باشد. برای جستوجو در بانک اطلاعاتی PROSITE از جور شدن قطعی استفاده میکند. به علاوه بانک اطلاعاتی پروفایلهایی را ایجاد مینماید تا برخی الگوها را برای موتیفها ارائه نماید. نقص الگوهای این پایگاه این است که برخی از الگوها آنقدر کوتاه هستند که اختصاصیتی در مورد آنها دیده نمیشود و موارد منفی کاذب دیده میشود.
۱۵۴-فصل هفتم
تصویر ۱۳-۷:پایگاه PROSITE.
برای ورود به این پایگاه به آدرس http://www.expasy.ch/PROSITE مراجعه کنید. در صفحه جستوجو نحوه دسترسی به اطلاعات موجود در این پایگاه با استفاده از کلید واژه شماره دسترسی توالیهای الگو و پروفایلها گنجانده شده است. ابزارهای جستوجو در این جایگاه نیز در تصویر ۱۳-۷ قابل مشاهده است.
برای جستوجو در این پایگاه توالی در باکس مربوطه کپی شده و نرم افزار Scan PROSITE برای یافتن توالیهای الگو و پروفایلها اسکن استفاده می شود. در این باکس علاوه بر توالی میتوان شماره دسترسی و یا شماره معرفی یک پروتئین در پایگاه UniProtKB (Swiss-Prot or TrEMBL) را نیز مورد جستوجو قرار داد. ابزارهای جستوجوی دیگر مانند، PRATT (بدست آوردن توالی الگو از توالیهای پروتئینی مورد نظر) و MyDomain image creator (ایجاد یک شکل مناسب برای موتیفهای موجود در توالی مورد نظر) نیز وجود دارد. توالی با مشخصات زیر را توسط این پایگاه مورد بررسی قرار دادیم:
P00533|EGFR_HUMAN Epidermal growth factor receptor Homo sapiens
شما نیز میتوانید برای کار کردن با این پایگاه یک توالی پروتئینی را انتخاب کنید و تمام مراحل را چه در این پایگاه و یا هر پایگاه دیگر که شرح داده میشود مورد استفاده قرار بدهید. توالی که ما مورد بررسی قرار دادیم به آدرس www.uniprot.org/uniprot/P00533 قابل دسترس میباشد، میتوانید وارد این صفحه بشوید و توالی پروتئین را با فرمت FASTA دریافت کنید.
در صفحه نتایج، تعداد دمینهای یافت شده از نوع توالی الگو یا پروفایل مشاهده می شوند. در مثال تصویر ۱۴-۷، یک پروفایل و دو توالی الگو مشخص شده است، بنابراین توجه داشته باشید همانطورکه در تصویر مشخص شده است الگو بخشی از پروفایل است. با کلیک بر روی پروفایل یافت شده اطلاعات دمین را مشاهده میکنیم. در ادامه صفحه اطلاعات بیشتر در رابطه با پروفایلها و الگوهای یافت شده ارائه میشود.
۱۵۵-بانکهای اطلاعاتی ثانویه (کلاسیفیکیشن دمینهای پروتئینی)
تصویر ۱۴-۷: نتیجه جستوجو در پایگاه PROSITE.
با کلیک بر روی هر کدام از پروفایلها ویا توالیهای الگو صفحه ای باز میشود و قطعه نمایش داده شده را شرح میدهد. PROSITE روی هم رفته خطای بیش از ۲۰ درصد داشته و باید در مورد نتایج تطبیق و یا عدم تطبیق PROSITE با احتیاط برخورد شود. Enotif یک پایگاه داده موتیف است و از انطباق چندگانه توالیهای دو پایگاه PRINT وBlocks که مجموعه انطباقهای بسیار بزرگتری در مقایسه با PROSITE دارند، استفاده میکند و در نتیجه این پایگاه منفی کاذب کمتری تولید میکند.
۴-۷ پایگاههایی با مدلهای مارکوف نهفته:
در سالهای اخیر روشی خودکار برای یافتن توالیهای مشترک بین اعضای خانوادههای پروتئینی و استفاده از آنها ابداع شده است. این روش بر مبنای احتمال اتفاق افتادن اسیدهای آمینه در یک بلوک توالی حفاظت شده است که پس از همردیفی چندگانه شناسایی و محاسبه میشود. در این آنالیز، پروفایل تبدیل به فلوچارتی از احتمال جایگزینی توالیها در هر موقعیت و همچنین احتمال حذف یا اضافه شدن توالیها میشود. در واقع، مزیت این روش در استفاده از احتمال حذف و اضافه شدن توالی از طریق محاسبه احتمال انتقال (transition ) در هر موقعیت است. در عمل، ضمن خودکار شدن، سرعت جستوجو و آنالیز تا حد زیادی افزایش مییابد. استفاده از نرم افزارهای HMMER منجر به ایجاد پایگاههای اطلاعاتی متعددی شده است که Pfam و SMART از جمله بهترین پایگاهها میباشند.
پایگاههای ثانویه Pfam و SMART:
پایگاه Pfam حاوی اطلاعات مربوط به مدلهای خانواده پروتئینی به طور عام است. ولی پایگاه SMART حاوی مدلهای مربوط به خانوادههای پروتئینی که درانتقال سیگنال، تنظیم ابزار ژنها و تنظیم فعالیت فاکتورهای رونویسی اختصاص دارد.
جستوجو در پایگاه اطلاعاتی Pfam
پایگاه دادهای است که از انطباق دمینهای پروتئینی موجود در پایگاههای داده SwissProt و TrEMBL بوجود آمده است. هر موتیف یا دمین با پروفایل HMMی که از طریق انطباق تعدادی از پروتئینهای همولوگ حفاظت شده تولید شده است نمایش داده میشود. برای جستوجو در این پایگاه به آدرس http://pfam.sanger.ac.uk وارد شوید و sequence search را انتخاب کنید. توالی پروتئینی مورد جستوجو را در باکس مربوطه کپی کنید. امکان جستوجو بر اساس کلید واژه نیز در این پایگاه وجو دارد.
۱۵۶-فصل هفتم
تصویر ۱۵-۷: پایگاه Pfam.
در صفحه نتیجه جستوجو (تصویر ۱۶-۷) در پایگاه Pfam موارد زیر نشان داده میشود:
موتیفها و دمینهای پروتئین مورد جستوجو نمایش داده میشود و همچنین نام دومین، منطقه موتیف در توالی،HMM ، امتیاز همردیفی، Evalue هر همردیفی و روش همردیفی global) یا( local نمایش داده میشود. اگر روی هر کدام از دمینهای یافته شده کلیک کنید در صفحه ای با فرمت ”ویکی” آن دمین خاص شرح داده میشود.
تصویر ۱۶-۷: نتیجه جستوجو در پایگاه Pfam.
جستوجو در پایگاه اطلاعاتی SMART
به طور مشابهی می توان با رجوع به آدرس http://smart.embl-heidelberg.de/smart/ به جستوجوی مدلهای درون توالی مورد نظر در پایگاه SMART پرداخت.SMART حاوی پروفایلهای HMM است که از مقایسه دومینهای پروتئینی و به طور دستی ایجاد شده است. مقایسه در بانک اطلاعاتی بر اساس ساختار سوم در صورتی که موجود باشد و یا بر اساس پروفایلهای PSI-BLAST ساخته میشوند.
۱۵۷-بانکهای اطلاعاتی ثانویه (کلاسیفیکیشن دمینهای پروتئینی)
تصویر ۱۷-۷: پایگاه SMART.
SMART حاوی پروفایلهای HMMی است که از انطباقهای دمین پروتئینها بدست آمده و به صورت دستی، ساخته شدهاند. انطباق در این پایگاه داده بر اساس ساختارهای سوم موجود یا پروفایلهای PSI-BLAST انجام میپذیرد. قبل از ساخت HMM انطباقها بررسی شده و توسط افراد مفسر صحیح میشوند. عملکرد پروتئین به صورت دستی تصحیح میگردد. بنابراین احتمالا کیفیت این پایگاه داده به دلیل تفسیرهای عملکردی گسترده تر در مقایسه با Pfam بیشتر است.
نمونه ای از نتیجه جستوجو برای اثر انگشتها در پایگاه SMART:
جستوجوی توالی در این پایگاه داده یک خروجی گرافیکی از دمینها را با اطلاعات تفسیر شده مناسب بسته به محل سلول، جایگاه عملکردی، ابر خانواده و ساختار سوم تولید میکند (تصویر ۱۸-۷).
تصویر ۱۸-۷ نتیجه جستوجو در پایگاه SMART.
با جستوجو در این پایگاه همانطور که میبینید یک دمین ترنسمنبرین یافت شد.
۱۵۸-فصل هفتم
تصویر ۱۹-۷: نمایش اطلاعات بیشتر با کلیک روی دمین یافت شده.
با توجه به این که توالی مورد بررسی یک توالی شناخته شده میباشد و مطالعات زیادی روی آن انجام شده این پایگاه سایر پروتئینهایی را که با پروتئین مورد نظر ما اینترکشن دارند را به صورت یک شبکه برهمکنش به نمایش میگذارد.
تصویر ۲۰-۷: شبکه برهمکنش پروتئینها.
۵-۷ پایگاههایی با مدل ماتریکس امتیازی بر اساس موقعیت (PSSM)
ماتریکس امتیازی بر مبنای موقعیت یا PSSM شکل دیگری از پروفایل است که در آن بجای توالی یک موتیف، احتمال وقوع یا فراوانی هر آمینو اسید در هرموقعیت به شکل ماتریکس آورده میشود. دادههای این ماتریکس از یک همردیفی چندگانه به دست میآید.
پایگاه اطلاعاتی CDD
پایگاه Conserved Domain Database یا CDDدر واقع حاوی همان اطلاعات پایگاه Pfam به اضافه اطلاعاتی است که توسط کارمندان NCBI از اطلاعات تسلیم شده به آن مرکز استخراج میشود. نکته این است که پس از جستوجو در CDD و مشاهده نتایج آن میتوان با استفاده از نرمافزار CDART اقدام به نمایش گرافیکی پروتئینهای شناخته شده واجد مدل مورد نظر نمود. بدین وسیله مقایسه پروتئینهای واجد یک موتیف از نوع PSSM و موتیفهای مجاور آنها را فراهم میآید. به عبارت دیگر، میتوان فهمید که چه پروتئینهایی واجد یک توالی حفاظت شده هستند و معمولا چه توالیهای حفاظت شده دیگر در مجاورت آنها دیده میشود. به این ترتیب پروتئینهایی با عملکردهای متفاوت که دارای توالی حفاظت شده مشابه هستند شناسایی میشوند.
جستوجو در پایگاه اطلاعاتی CDD
برای جستوجو در این پایگاه به آدرس زیر مراجعه کنید و توالی مورد نظر خود را به منظور جستوجو در کادری که در صفحه موجود میباشد وارد کند (تصویر ۲۱-۷).
http://www.ncbi.nlm.nih.gov/Structure/cdd/cdd.shtml
۱۵۹-بانکهای اطلاعاتی ثانویه (کلاسیفیکیشن دمینهای پروتئینی)
تصویر ۲۱-۷: پایگاه CDD.
نمونهای از صفحه نتیجه جستوجو در پایگاه CDD در تصویر ۲۲-۷ آمده است و مشاهده میکنید که دمینهای حفاظت شده در توالیهایی که کاربر مورد جستوجو قرار داده است را به همراه توضیحات نمایش میدهد.
تصویر ۲۲-۷: نتیجه جستوجو در پایگاه CDD.
پس از کلیک بر روی گزینه Search for similar domain architectures که در تصویر ۲۲-۷ مشخص شده است نرم افزار CDART شروع به کار میکند و پروتئینهایی که واجد دمین یافت شده توسط CDD هستند را به نمایش میگذارد که یک نمونه رکورد CDART را در تصویر ۲۳-۷ میتوانید مشاهده کنید.
۱۶۰-فصل هفتم
تصویر ۲۳-۷: نمایش دادهای بخش CDART در پایگاه CDD.
۶-۷ پایگاههایی با مدلهای بلوکهای توالی (Blocks) و اثر انگشتها (Fingerprint)
با افزایش حجم اطلاعات مربوط به ژنها و پروتئینها، یافتن توالیهای مشترک بین اعضای خانوادههای ژنی ممکنتر میشود. به طوری که امروزه برای هر خانواده ژنی معمولا توالیهای مشترک متعددی را میتوان تعیین نمود و آنها را به عنوان مشخصههای آن خانواده تحت عنوان بلوکهای چندگانه (Multiple Blocks )، اثر انگشت (Fingerprint) و یا امضا (Signature) به کار برد. پایگاه Blocks گردآورنده مجموعه توالیهای کوتاه حفاظت شده خانوادههای پروتئینی است. اطلاعات مفیدی همچون امتیاز و E-value مربوط به جفت شدن بلوک با توالی مورد جستوجو کاربر، تعداد بلوکهای یک خانواده پروتئینی با توالی مورد جستوجو، نحوه قرار گرفتن بلوکها درخانواده پروتئین، و همچنین حداقل و حداکثر فاصلههای مشاهده شده بین بلوکها در سایر اعضای خانواده پروتئینی نمایش داده میشوند. این اطلاعات مقایسهای میتواند تا حد زیادی راهنمای پژوهشگر برای تشخیص شباهت یا عدم شباهت توالی مورد نظر وی با خانوادههای پروتئینی یافت شده باشد. پایگاه PRINTS نیز مشابه پایگاه Blocks است با این تفاوت که به جای روش امتیازدهی بر مبنای جایگزینی اسیدهایامینه، از فراوانی یک اسید آمینه در هر موقعیت استفاده میکند.
جستوجو در پایگاه Blocks:
در این پایگاه توالی پروتئینی و یا نوکلئوتیدی بر علیه بلوکهای پروتئینی موجود مورد جستوجو قرار می گیرد. بلوکهای محافظت شده در یک توالی را با ورود به جایگاه http://blocks.fhcrc.org و استفاده از برنامه Block searcher یافت میشوند. بعلاوه با استفاده از برنامه Block maker می توانید برای یک توالی بلوک ایجاد کنید.
۱۶۱-بانکهای اطلاعاتی ثانویه (کلاسیفیکیشن دمینهای پروتئینی)
تصویر ۲۴-۷: پایگاه Blocks.
اگر روی برنامه Block searcher کلیک کنیم صفحهای باز می شود که می توان توالی مورد نظر خود را اعم از پروتئین یا توالی نوکلئوتیدی وارد کنیم. همانطور که در تصویر ۲۴-۷ مشاهده میکنید متاسفانه این بانک به فعالیت خود ادامه نداده و یک پیغام برای کاربران به این شرح قرار داده است که این پایگاه مدت زیادی است که آپدیت نشده است و پایگاه Interpro را به کاربران پیشنهاد داده است. InterPro نرم افزاری است که توسط EBI ایجاد و نگه داری میشود و نرم افزاری مفیدی در رابطه با کلاسیفیکیشن توالیهای پروتئینی میباشدکه در ادامه آن را شرح خواهیم داد.
جستوجو در پایگاه Prints:
برای ورود به این پایگاه میتوان از آدرس اینترنتی زیر استفاده کرد:
http://www.bioinf.manchester.ac.uk/dbbrowser/PRINTS
در این صفحه به منظور جستوجوی fingerprintهای موجود در توالی پروتئینی کاربر میتواند وارد قسمت FPscan شود.
۱۶۲-فصل هفتم
تصویر ۲۵-۷:پایگاه Prints.
همانطورکه در تصویر (۲۶-۷) میبینید پس از وارد کردن توالی مورد جستوجو در باکس مربوطه و کلیک کردن روی دکمه submit query جستوجو انجام میشود.
تصویر ۲۶-۷: نرم افزار FPScan پایگاه Prints.
۱۶۳-بانکهای اطلاعاتی ثانویه (کلاسیفیکیشن دمینهای پروتئینی)
نتیجه جستوجو به نحوی که در تصویر ۲۷-۷ نمایش داده شده است به کاربر ارائه میشود. این شکل نشان میدهد که توالی مورد جستوجوی ما دارای دو اثر انگشت مربوط به خانواده Zincfinger است. در جدول زیر همچنین امتیاز جستوجو و نیز طول و توالی هر اثر انگشت مشاهده می شود. با کلیک روی قسمتی که در تصویر ۲۷-۷ مشخص شده است شرحی در رابطه با عملکرد دمین یافت شده نمایان میشود.
تصویر ۲۷-۷: نتیجه جستوجو توسط نرم افزار FPScan پایگاه Prints.
۷-۷ جستوجوی همزمان در پایگاههای اطلاعاتی ثانویه پروتئینی
با وجودی که توصیه اکید بر جستوجوی کلیه پایگاهها برای به دست آوردن اطلاعات در مورد بخشهای ساختمانی و عملکردی یک پروتئین است، تلاش میشود تا امکان جستوجوی همزمان فراهم آید. CDART برنامه جستوجوی دمین است که نتایج حاصل از SMART، Pfam، RPS-BLAST را با هم ترکیب میکند. ساختار دمین بدست آمده در توالی مورد بررسی میتواند به صورت گرافیکی در کنار سایر توالیهای مرتبط نمایش داده شود.همانند IntrPro، CDART جانشینی برای جستوجوهای جداگانه در پایگاه داده نیست، چرا که بسیاری از ویژگیهای خاصی که در SMART و Pfam یافت میشود را از دست میدهد.
در دهه اخیر پایگاهی به نام IntrPro ایجاد شده است که با جمعآوری اطلاعات از پایگاههای Pfam، PROSITE، PRINTS،SMART، ProDom و… اقدام به تهیه رکوردهایی از جمعبندی این اطلاعات نموده است. دراین رکوردها توالیهای مشترک مربوط به ابرخانوادهها، خانوادهها و زیرخانوادهها نشان داده میشود. لذا چنانچه از این پایگاه برای جستوجوی توالیهای حفاظت شده استفاده شود، اطلاعات ارزشمندی ازموقعیتهای یافت شده و طبقهبندی خانوادههای پروتئینی مربوط و همچنین منبع اطلاعاتی مفیدی دریافت میشود.
جستوجو در پایگاه اطلاعاتی InterPro
برای جستوجو در این پایگاه به آدرس http://www.ebi.ac.uk/Tools/InterProScan وارد شوید. نرم افزار Interproscan به منظور اسکن توالی پروتئینی به منظور یافتن مناطق فعال پروتئین مورد استفاده قرار می گیرد.
۱۶۴-فصل هفتم
تصویر ۲۸-۷:پایگاه InterPro.
در نتیجه جستوجوی این پایگاه، نمایی از مناطق مشترک موجود در پروتئین با شماره دسترسی و لینک با پایگاههای دیگر پروتئینی مربوط وجود دارد. به علاوه، شماره دسترسی مربوط به پایگاه InterPro نیز قابل دسترسی است.
تصویر ۲۹-۷: نتیجه جستوجو در پایگاه InterPro.
۸-۷ موقعیتیابی پروتئینها در سلول
در سلول یوکاریوتی، پروتئینها پس از ترجمه، دستهبندی شده و به جایگاه مربوطه انتقال مییابند. اطلاعات آزمایشگاهی نشان میدهند دستهبندیها و هدفگیریها با ساختمانهای اولیه (توالی) و یا ساختمانهای ثانویه موجود در پروتئینها مربوط میباشند. لذا محققین سعی در تهیه نرمافزارهایی داشته اند که بتوانند ساختارهای اولیه و ثانوی تعیین
۱۶۵-بانکهای اطلاعاتی ثانویه (کلاسیفیکیشن دمینهای پروتئینی)
کننده برای موقعیت پروتئینها در سلولها را شناسایی کنند. مجموعهای از این گونه برنامهها در پایگاهایی مثل PSORT و TargetP قرار دارند که هر یک با روشی خاص اقدام به انجام محاسبات تحلیلی مینماید تا کاربر بتواند محل استقرار پروتئین در سلول را با تقریبی معین پیشگویی کند. مجموعه برنامههای موجود در پایگاه PSORT به سه دسته کلی تقسیمبندی میشوند.
PSORT برای توالیهای باکتریایی و گیاهی.
PSORT II برای توالیهای جانوری و مخمری.
iPSORT برای شناسایی سیگنالهای دستهبندی در ناحیه N-terminal.
WoLF PSORT شاخهای از PSORT II محسوب میشود که علاوه بر استفاده از موتیفهای توالی و تکیه بر خواص فیزیکو شیمیایی و بار الکتریکی بخشهایی از پروتئین، از جستوجو بر اساس شباهت نیز برای تعیین مکان پروتئین بهره میگیرد.
برای استفاده از این نرمافزارها کافی است، فرم مربوط را تکمیل نموده و توالی خود را تسلیم نمائید. برای ورود به این پایگاه پروتئینی به آدرس http://psort.nibb.ac.jp وارد شوید. در اولین صفحه این پایگاه محتویات و نرم افزارهای جستوجوی موجود در این پایگاه بر اساس نوع موجود زنده قابل دسترسی می باشد.
تصویر ۳۰-۷:پایگاه PSORT.
با کلیک بر روی لینک PSORT Prediction و انجام جستوجو نتیجه نمایش داده میشود و احتمال وجود پروتئین در اندامکهای مختلف ارائه میشود.
۱۶۶-فصل هفتم
با توجه به تصویر ۳۱-۷ این نتیجه نشان میدهد که پروتئین مورد نظر ما به احتمال ۶۰ درصد یک پروتئین غشا گذر است.
۹-۷ پایگاه داده خانواده پروتئین
بانکهای اطلاعتی قبلی که در این فصل شرح داده شدهاند پروتئینها را بر اساس حضور موتیفها و دومینها طبقهبندی مینمایند. راه دیگر برای طبقهبندی پروتئینها مقایسه طول تقریبا کامل پروتئینها می باشد که از ارزش آماری در مقایسه توالیها یا ارتباطات بین گونهها بهرهمند میشوند. این روش دستهبندی نیازمند طبقهبندی پروتئینها براساس شباهتهای کلی توالی پروتئینی است. معیار خوشهبندی، شامل نمرههای آماری در انطباق توالی یا روابط ارتولوگی میباشد. پایگاههای داده خانواده پروتئین مشتق شده از این روش وابسته به حضور الگوی توالی خاصی نبوده و بنابراین جامعترند اما ابهام بیشتری دارند. این بانکها اختصاصیت بالاتری اما حساسیت کمتری دارند. بانک COG و بانکProtoNet دو بانکی هستند که پروتئینها بر اساس فلوژنتیک در آنها ذخیره شدهاند.
COG پایگاه داده خانواده پروتئین براساس طبقهبندی فیلوژنی است و از طریق مقایسه توالیهای پروتئینی ۴۳ ژنوم کامل توالییابی شده که عمدتاً مربوط به پروکاریوتها بوده ساخته شده است و ۳۰ دودمان فیلوژنی را نمایش میدهد. از طریق مقایسه کامل همه ژنومها، پروتئینهای ارتولوگ ۳ دودمان مشترک یا بیشتر تعیین و با هم به عنوان گروههای ارتولوگ خوشهبندی میشوند. هر گروه باید حداقل یک نماینده از آرکیها، باکتریها و یوکاریوتها داشته باشد. ارتولوگها زمانی در یک خوشه قرار میگیرند که ملاک بودن در بهترین پاسخ در جستوجوهای BLAST میان ژنومها را به صورت دوطرفه برآورده کنند.
از آنجایی که پروتئینهای ارتولوگ که توسط ۳ دودمان یا بیشتر به اشتراک گذاشته میشوند، به عنوان سناریوی تکاملی عمودی در نظر گرفته میشوند، اگر عملکرد یکی از اعضاء شناخته شده باشد، عملکرد سایر اعضاء نیز قابل تعیین است. به شکل مشابه، تعیین عملکرد یک توالی مورد بررسی اگر دارای تشابه معناداری در تطبیق با هریک از اعضاء خوشه باشد، امکانپذیر خواهد بود. هماکنون ۴۸۷۳ خوشه در پایگاه داده COG وجود دارد که از ارگانیسمهای تکسلولی منشاء گرفتهاند. وجه مشترک جستوجوی توالی در پایگاه COG برنامه COGnitor است که براساس BLAST شکافدار عمل میکند. قسمت یوکاریوتی برنامه هماکنون در دسترس است که به نام KOG شناخته میشود.
ProtoNet پایگاه دادهای از خوشههای پروتئینی هومولوگ مشابه COG است. توالیهای پروتئینی ارتولوگ در پایگاه داده SWISSPROT براساس مقایسههای دوتایی توالی میان همه جفت پروتئینهای ممکن، با استفاده از BLAST خوشهبندی میشوند. ارتباط پروتئینها به وسیلهی E-valueهای به دست آمده از انطباق BLAST تعیین میشود. این پایگاه سطوح متفاوتی از تشابه پروتئینی تولید کرده و گروههای پروتئینی را به صورت سلسله مراتبی سامان میدهد. توالیهای بسیار نزدیک و مرتبط در پایینترین سطح خوشهها گروهبندی میشوند در حالی که گروههای پروتئینی دورتر در بالاترین سطح خوشهها قرار میگیرند. با اتصال این خوشهها، ساختار درختی از دستههای عملکردی به وجود میآید. توالی
۱۶۷-بانکهای اطلاعاتی ثانویه (کلاسیفیکیشن دمینهای پروتئینی)
پروتئینی مورد بررسی را میتوان به منظور تعیین خوشه و تفسیر عملکرد به سرور فرستاد. پایگاه داده اطلاعات هستیشناختی ژن را در رابطه با خوشه پروتئینی در هر سطح (فصل شانزدهم را ببینید) و همچنین کلمات کلیدی را از دمینها در Inter Pro برای پیشگویی عملکرد را فراهم میکند.
۱۰-۷ کشف موتیفها در توالیهای تطابق نیافته
برای یک مجموعه از توالیهای بسیار مرتبط موتیفهای مشترک رایج میتوانند با استفاده از روشهای مبتنی بر مقایسه چند توالی (MSA) تعیین شوند. به هر حال اغلب توالیهای با ارتباط دور ولی با موتیف مشترک،به آسانی نمیتوانند مقایسه گردند. برای پیدا کردن موتیفهای ظریف الگوریتمهای پیچیده تری مانند EM و نمونهگیری Gibbs استفاده میشوند.
روش EM
روش EM میتواند جهت یافتن موتیفهای مخفی با استفاده از روشی که تا حدودی متفاوت با پروفایلها و PSSM است به کار رود. این روش ابتدا یک تطابق تصادفی انجام داده و یک Trial PSSM ایجاد میکند. Trial PSSM سپس به طور منفرد برای مقایسه هر توالی به کار میرود. نمرات log odds حاصل از PSSM در هر مرحله تکرار تغییر مییابد تا مقایسه ماتریکس را برای هر توالی به حداکثر برساند. در طول تکرارها الگوی توالی برای موتیفهای محافظت شده به تدریج در PSSM استفاده میگردد. از مشکلات روش EM این است که اگر نمرات به جایی برسند که روند افزایشی آن به یکباره کاهش یابد روند به طور دائمی متوقف میشود. به این مشکل Local optimum میگویند. برنامه MEME از این الگوریتم استفاده میکند.
روش Gibbs
همانند روش EM، الگوریتمهای نمونه گیری گیبس یک مقایسه فرضی اولیه برای تشکیل Trial PSSM با همه سکانسها بجز یک مورد انجام میدهند. ماتریکس سپس با سکانس فوق مقایسه و نمرات ماتریکس منظم سازی میشوند.این روند به دفعات تکرار میشود تا بهبود بیشتری در نمرات ماتریکس اتفاق نیفتد. بعد از تعدادی تکرار محتمل ترین الگو میتواند در یک PSSM نهایی جایگزین شود.برنامه Gibbs sampler برنامه ای است که از راهکار نمونه گیری Gibbs برای جستوجوی قطعات کوتاه و نسبتا محافظت شده بدون شکاف در توالی پروتئینی یا DNA استفاده میکند.
۱۱-۷ مروری بر برخی از بانکهای اطلاعاتی ثانویه
پایگاههای اطلاعاتی متعددی با پروتئینهای گروهبندی شده به خانوادهها یا زیرخانوادهها وجود دارد که از پیش همردیف شدهاند. همردیفی با استفاده از الگوریتمهای مختلف ایجاد میشود و بنابراین حاوی همردیفهایی با طولهای مختلف و تعداد پروتئینهای متفاوت است. مهمترین آنها به شرح زیرند:
Blocks: حاوی همردیفی موضعی بدون گپ است که از توالیهای پروتئینی در SWISS-PROT به اضافهی SP-TrEMBL تشکیل شده است و در مرکز تحقیقات سرطان Fred Hutchinson (سیاتل، واشنگتن) نگهداری میشود.
Blocks+: بانک اطلاعات غیرتکراری، Blocks به اضافهی PRINTS به اضافهی پروتئینهای گروهبندی شده به عنوان خانوادههای همسان (ProDom + Pfarm + Domo) که با نرمافزار Block Maker همردیف شدهاند.
DOMO (بانک اطلاعاتی دمینهای پروتئینی): پایگاهی از اطلات خانوادههای دمینهای همسان. موضوع اصلی آن تامین اطلاعات دربارهی پروتئینهای مشابه، خانوادههای عملکردی آنها، تجزیهی دمین، همردیفی چند توالی، باقیماندههای حفاظت شده و درخت تکاملی است.
PRINTS (پایگاه اطلاعات اثر انگشت موتیفهای پروتئینی): حاوی همردیفی موضعی بدون گپ است و از توالیهای پروتئینی در SWISS-PROT + SP-TrEMBL و با استفاده از بستهی نرمافزاری ADPS تشکیل شده و با همردیفی به اصطلاح بذرپاشی دستی (handmade seed) شروع میشود و به دنبال آن با جستوجوی پایگاههای تکراری ادامه مییابد. PRINT توسط دانشگاه منچستر (انگلستان) حمایت میشود.
۱۶۸-فصل هفتم
ProDom: حاوی همردیفی موضعی با گپ است که از توالیهای پروتئینی در SWISS-PROT + SP-TrEMBL و با استفاده از PSI-BIAST تشکیل میشود. بخشی با همردیفی بذری از Pfam-A شروع میشود و در INRA (موسسهی فرانسوی تحقیقات کشاورزی؛ تولوز، فرانسه) با همکاری مرکز Sanger (هینگستون، انگلستان) حمایت میشود.
Pfam: حاوی همردیفی موضعی با گپ است و از توالیهای پروتئینی در SWISS-PROT + SP-TrEMBL تشکیل شده و در مرکز Sanger نگهداری میشود.
HSSP (همسانی حاصل از ساختار ثانویهی پروتئینها): حاوی همردیفی کلی و با جستوجوی پروتئینها از PDB (با ساختار سهبعدی شناخته شده) در برابر SWISS-PROT + SP-TrEMBL و با استفاده از BLAST تشکیل شده که با انتخاب توالیهای مشابه مطابق معیار Schneider-Sander و همردیفی با نرمافزار MaxHom انجام میشود و در EMBL-EBI نگهداری میشود.
FSSP (پروتئینهای مشابه از نظر ساختار حاصل از تاخوردگی): حاوی همردیفی کلی پروتئینهای PDB که با نرمافزار مقایسهی ساختار Dali ایجاد شده و در EMBL-EBI نگهداری میشود.
Web Logo برنامه ای تعاملی برای تولید لوگوهای توالی است. انطباق چندگانه توالی یا موتیف را غالبا به شکل گرافیکی که لوگو نامیده میشود نمایش میدهند. همانطور که در تصویر زیر میبینید در هر جایگاه شامل حروف روی هم است که نماینده باقیماندههای اسیدآمینه در ستون خاصی از انطباق چندگانه است.
تصویر ۳۲-۷: یک نمونه لوگوی توالی حاصل انطباق چند گانه توالیها.