کتاب بیونفورماتیک سلولی و مولکولی » فصل سوم-پایگاه‌های اطلاعات اولیه توالی‌های اسید نوکلئیک کتاب بیونفورماتیک سلولی و مولکولی

فصل سوم-پایگاه‌های اطلاعات اولیه توالی‌های اسید نوکلئیک کتاب بیونفورماتیک سلولی و مولکولی

شرح فصل و نکات ویژه: * در این فصل با بانک‌های اطلاعاتی اولیه که عموما حاوی داده‌های آزمایشگاهی شامل توالی‌های اسید نوکلئیک می‌باشند آشنا می‌شوید. * در این فصل به بانک‌های حاوی توالی اسید نوکلئیک میپردازیم و در فصل بعدی به بانک‌هایی که داده‌های اسیدآمینه را ارائه می‌دهند خواهیم پرداخت. * به بانک‌هایی که در این فصل معرفی شده‌اند مراجعه کنید و در آن‌ها جست‌وجو انجام دهید. ۵۳-پایگاه‌های اطلاعات اولیه توالی‌های اسید نوکلئیک یکی از کاربردهای بیوانفورماتیک[…]

شرح فصل و نکات ویژه:

* در این فصل با بانک‌های اطلاعاتی اولیه که عموما حاوی داده‌های آزمایشگاهی شامل توالی‌های اسید نوکلئیک می‌باشند آشنا می‌شوید.

* در این فصل به بانک‌های حاوی توالی اسید نوکلئیک میپردازیم و در فصل بعدی به بانک‌هایی که داده‌های اسیدآمینه را ارائه می‌دهند خواهیم پرداخت.

* به بانک‌هایی که در این فصل معرفی شده‌اند مراجعه کنید و در آن‌ها جست‌وجو انجام دهید.

۵۳-پایگاه‌های اطلاعات اولیه توالی‌های اسید نوکلئیک

یکی از کاربردهای بیوانفورماتیک تحلیل داده‌ها جهت پی‌بردن به معمای تکامل هستی است. حل این معما در میلیاردها نوکلئوتید درون ژنوم موجودات زنده نهفته است. مشهورترین کاربرد بیوانفورماتیک در تحلیل توالی‌هاست. توالی‌های DNA مربوط به ارگانیزم‌های مختلف جهت دستیابی سریع و مقایسه آن‌ها با یکدیگر، در پایگاه‌های داده ذخیره می‌شوند. پروژه ژنوم انسان که از سال ۱۹۹۰ تا سال ۲۰۰۳ به طول انجامید نمونه‌ای از تحلیل توالی‌هاست. در این پروژه با استفاده از کامپیوترهای بزرگ و روش‌های مختلف به دست آوردن توالی‌ها، همه ژنوم انسان تعیین توالی گردید و درون یک پایگاه داده قرار گرفت. با کامل شدن نقشه ژنوم انسان، بیوانفورماتیک در تحقیقات سرطان‌ به امید رسیدن به یک درمان موفق و نهایی بسیار با اهمیت شده است.

پایگاه‌های داده به دو دسته اصلی و فرعی تقسیم می‌شوند. نتایج تجربی حاصل از تحقیقات علمی مانند توالی‌های نوکلئوتیدی یک ژن خاص، که در یک آزمایش تجربی به دست آمده است درون پایگاه‌های داده‌ی اصلی قرار می‌گیرند. این داده‌ها خام و بدون تحلیل هستند. نمونه‌ای از این نوع پایگاه‌ها GenBank است که توالی‌های نوکلئوتیدی را نگهداری می‌کند. این پایگاه توسط NCBI مدیریت می‌شود. جدول ۲-۱ در فصل اول تعدادی از مهم‌ترین پایگاه‌های بیوانفورماتیک را معرفی کرده است، یک ستون به نام Pri در این جدول پایگاه‌های اطلاعاتی اولیه را مشخص کرده است.

۱-۳ پایگاه داده‌ی توالی نوکلئوتیدی

در ۱۹۸۲ پایگاه داده‌ی GenBank در آزمایشگاه ملی لوس‌آلاموس و پایگاه داده EMBL در آزمایشگاه زیست‌مولکولی اروپا به‌طوری رسمی کار خود را شروع کردند. بانک داده‌ی DNA ژاپن DDBJ در سال ۱۹۸۴ به آن‌ها پیوست. در سال ۱۹۹۲ GenBank نقش خود را به NCBI واگذار کرد و فعالیت EMBL در ۱۹۹۴ به موسسه EBI منتقل شد.

– با آشکار شدن پروژه‌های ژنوم، پایگاه‌های داده‌ نقش جدیدی برعهده گرفتند که کمک به کارهای آزمایشگاهی در حال اجرا بود.

– سامان‌دهی داده‌ها در پایگاه‌های داده ژنوم به جای این‌که کتاب‌شناختی باشد، زیست‌شناختی است.

– درواقع پایگاه‌های داده ژنوم نشان‌دهنده‌ی ساختارهای ژنوم با وضوح مختلف و کارکردهای ژنوم در سطوح مختلف است.

– نقشه‌ای که بالاترین وضوح ساختار ژنوم را نشان می‌دهد، همان توالی نوکلئوتیدی ژنوم کامل است.

– در بسیاری از پایگاه‌های داده ژنوم، ژن‌ها براساس سلسله مراتب عملکردیشان طبقه‌بندی شده‌اند.

۲-۳ NCBI

در نوامبر ۱۹۸۸ بخش جدیدی به کتابخانه پزشکی ملی آمریکا (NLM) افزوده شد تا روش‌های کامپیوتری پردازش اطلاعات جهت هدایت تحقیقات Biomedical ایجاد شود. این بخش مهم، مرکز ملی اطلاعات بیوتکنولوژی یا NCBI نام گرفت. کتابخانه ملی پزشکی آمریکا در سازمان ملی بهداشت آمریکا (NIH) قرار گرفته است. تجربه‌های موفق این کتابخانه در ایجاد و نگهداری پایگاه‌های داده در زمینه Biomedical و به عنوان بخشی از NIH باعث ایجاد یک برنامه تحقیقاتی در زمینه بیولوژی مولکولی کامپیوتری، شده است. امروزه NCBI به عنوان بزرگ‌ترین مرکز تحقیقات Biomedical در دنیا شناخته شده است. انستیتوی NCBI جهت رسیدن به اهداف خود فعالیت های زیر را دنبال می‌کند:

هدایت تحقیقاتی در زمینه مسایل اصولی Biomedical در سطح مولکولی با بهره‌گیری از روش های ریاضی و کامپیوتری.
همکاری با انستیتوهای دیگر NIH، دانشگاه‌ها، صنعت و دیگر سازمان‌های دولتی.
ایجاد ارتباط های علمی به وسیله برگزار کردن همایش‌ها، کارگاه‌های آموزشی و سلسله سخنرانی‌ها.
برنامه های تحصیلاتی برای دانشجویان در زمینه های بیولوژی کامپیوتری.
توسعه و انتشار نرم افزارها و پایگاه‌های داده مختلف.

سازمان NIH علاوه‌بر کتابخانه NLM از ۲۷ انستیتو و مرکز تحقیقاتی دیگر تشکیل شده است که از جمله این انستیتوها می‌توان به موارد زیر اشاره کرد:

انستیتوی ملی سرطان
انستیتوی ملی تحقیقات ژنوم انسان
انستیتوی ملی دیابت و بیماری های کلیه و گوارش
انستیتوی ملی کودکان

۱-۲-۳ موتور جست‌وجوی Entrez

یکی از پر استفاده‌ترین ابزارهای جست‌وجوی اطلاعات بیولوژی، موتور جست‌وجوی Entrez است که NCBI آن را ایجاد کرده است. این موتور جست‌وجو قادر است به‌طور هم‌زمان، بانک‌های اطلاعاتی PubMed، توالی‌های نوکلئوتیدی (GenBank)، توالی‌های پروتئینی (protein)، ساختمان پروتئین‌ها (Structure)، ژنوم کامل انسان و بعضی حیوانات، تاکسونومی، پایگاه داده بیماری‌های ژنتیکی (OMIM) و بسیاری موارد دیگر را جست‌وجو کند.

۵۴-فصل سوم

موتور جست‌وجوی Entrez از ارتباط تنگاتنگ رکوردها در بانک‌های مختلف استفاده می‌کند تا اطلاعات بیولوژی در مورد یک موضوع خاص را از پایگاه داده‌های مختلف بازیابی کرده و در اختیار کاربر قرار دهد. بنابراین Entrez یک پایگاه داده نیست بلکه یک سیستم یکپارچه بازیابی اطلاعات است. محققین می‌توانند از این موتور جست‌وجو بخواهند همه بانک های اطلاعاتی را هم‌زمان جست‌وجو نماید یا این که جست‌وجوی خود را محدود به بانک اطلاعاتی خاصی نمایند. در این فصل نحوه استفاده از این موتور جست‌وجو را برای شما شرح می‌دهیم. جهت استفاده از این موتور جست‌وجو، وب سایت NCBI را با آدرس www.ncbi.nlm.nih.gov باز کنید. صفحه اصلی این سایت به صورت زیر است: (تصویر ۱-۳).

تصویر۱-۳: تصویری از پایگاه NCBI.

در بالا و سمت چپ این صفحه اینترنتی، لوگوی سایت NCBI را مشاهده می کنید. در سمت راست این لوگو دو جعبه وجود دارد که اولی مخصوص انتخاب پایگاه داده و دومی برای وارد کردن کلمات یا عبارت جست‌وجو است. بخش اول که به صورت یک منوی کشویی می‌باشد لیست پایگاه‌های اطلاعاتی NCBI را در اختیار شما قرار می‌دهد. گزینه All Databases به صورت پیش فرض برای شما انتخاب گردیده است تا همه بانک‌های اطلاعاتی را جست‌وجو نماید. با کلیک بر روی فلش رو به پایین این منو آن را باز نمایید. بانک‌های مهمی چون PubMed، Protein، Structrue و Books را در این منو مطابق تصویر ۱-۳ مشاهده می‌نمایید. در صورتی که بخواهید بانک خاصی را به تنهایی جست‌وجو نمایید بر روی نام آن بانک کلیک کنید.

برای جست‌وجوی همزمان در همه بانک‌ها به وسیله موتور جست‌وجو Entrez با انتخاب گزینه All Database از منوی کشویی و تایپ موضوع جست‌وجو و کلیک بر روی گزینه Search به صفحه جدید وارد می‌شوید که در این صفحه نام پایگاه‌های داده‌ای که موتور جست‌وجوی Enterz به‌صورت هم‌زمان همه آن‌ها را جست‌وجو کرده است، به چشم می‌خورد (تصویر ۲-۳). در کنار نام هر بانک عددی درج شده است که نشان دهنده موارد یافت شده از موضوع جست‌وجو در آن بانک می‌باشد.

۵۵-پایگاه‌های اطلاعات اولیه توالی‌های اسید نوکلئیک

تصویر ۲-۳: نتیجه جستجوی موتور Entrez در تمام بانک‌های پایگاه NCBI

۲-۲-۳ جست‌وجو در یک بانک اطلاعاتی خاص

علاوه بر جست‌وجوی هم‌زمان همه بانک‌ها می‌توان یک بانک اطلاعاتی خاص را مورد جست‌وجو قرار داد. در صفحه اصلی NCBI از منوی کشویی بالای صفحه، بانک اطلاعاتی مورد نظر خود را انتخاب، و سپس عبارت جست‌وجوی خود را در کادر روبروی آن تایپ کنید و بر روی دکمه Search کلیک نمایید.برخی از مهم‌ترین بانک‌های اطلاعاتی که در NCBI در دسترس هستند را در این فصل به صورت کامل شرح خواهیم داد. و کمی در مورد تکنیک‌های جست‌وجو صحبت خواهیم کرد. این تکنیک‌ها به شما کمک خواهند کرد تا جست‌وجو‌های موفق‌تری داشته باشید. لازم به ذکر است که این عبارات و تکنیک‌های ارایه شده تنها در مورد این موتور جست‌وجو کاربرد دارد و در موتورهای جست‌وجوی عمومی مانند Google عمل نخواهد کرد.

۳-۲-۳ پایگاه توالی های نوکلئوتیدی:

توالی‌های نوکلئوتیدی در سه پایگاه داده EMBL/DDBJ/Genbank نگهداری می‌شوند. داده‌های جدید هر ۲۴ ساعت بین این سه پایگاه به اشتراک گذاشته می‌شود و داده‌ها را بین هم انتقال می‌دهند. همکاری بین‌المللی پایگاه‌های توالی‌های نوکلئوتیدی (INSDC) یک همکاری دیرین و بنیادین بین سه پایگاه داده ذکر شده در فوق می‌باشد.

۵۶-فصل سوم

تصویر ۳-۳: ارتباط بین سه پایگاه داده EMBL/DDBJ/Genbank.

بنابراین داده‌های هر سه بانک یکسان است و جهت امنیت و حفاظت از این داده‌ها، این سه بانک در سه گوشه دنیا قرار گرفته‌اند. سازمان NCBI بانک نوکلئوتیدی بزرگ GenBank را مدیریت می‌کند. همچنان که گفته شد این سازمان در ایالت متحده قرار دارد. بانک نوکلئوتیدی DDBJ در ژاپن و EMBL نیز در اروپا استقرار یافته‌اند. در این بخش چگونگی دستیابی به توالی‌های نوکلئوتیدی موجود در پایگاه GenBank را شرح می‌دهیم. همانند بانک‌های دیگر چندین راه برای دستیابی به این بانک نوکلئوتیدی وجود دارد. یک راه این که در صفحه اصلی NCBI جهت جست‌وجو، از منوی Search گزینه
All Database را انتخاب نمایید و جست‌وجویی را انجام دهید تا Entrez تمام بانک‌ها را برای شما جست‌وجو نماید. سپس در صفحه نتیجه، لینک Nucleotide را انتخاب نمایید. راه ساده‌تر این که در صفحه اصلی NCBI منوی کشویی را باز و گزینهNucleotide را انتخاب نمایید در باکس روبه‌روی منوی کشویی چیزی تایپ نکنید و دکمه Search را کلیک نمایید تا صفحه اینترنتی مطابق تصویر۴-۳ با لوگوی Nucleotide را مشاهده کنید. در این صفحه توضیحاتی در رابطه با این بانک و همچنین لینک‌های مفیدی برای دریافت اطلاعات بیش‌تر وجود دارد.

تصویر ۴-۳: صفحه اصلی پایگاه Nucleotide.

۱-۳-۲-۳ جست‌وجو در بانک نوکلئوتید‌ها

۵۷-پایگاه‌های اطلاعات اولیه توالی‌های اسید نوکلئیک

به صفحه اینترنتی مطابق تصویر۴-۳ بروید و عبارت جست‌وجوی خود را در قسمت Search Box وارد و دکمه Search را کلیک کنید. هدف ما یافتن توالی نوکلئوتیدی ژن DCC می‌باشد. بعد از جست‌وجو نتیجه را در تصویر ۵-۳ مشاهده می‌نمایید. همان‌طور که ملاحظه می‌کنید تعداد ۴۴۰۸ رکورد یافت شده است که با شماره از هم جدا شده‌اند. و در هر صفحه تعداد ۲۰ نتیجه جست‌وجو نمایش داده می‌شود.

تصویر۵-۳:جستجو در پایگاه Nucleotide.

درباره هر رکورد اطلاعات زیر وجود دارد:

در سطر دوم در کنار هر شماره عبارتی به نام Accession را می‌بینید که با حروفی مثل NM، NR و … شروع شده است. این عبارت کد یکتای رکورد است که به آن Accession Number گفته می‌شود. در مراجعات بعدی تنها با این کد می‌توانید به این رکورد دست یابید بدین ترتیب که این کد را به عنوان عبارت جست‌وجوی خود در Search Box وارد نمایید. بنابراین اگر در جست‌وجوها، رکوردی را مناسب تحقیقات خود دانستید کافی است که این شماره را یادداشت نمایید. برای درکAccession Numberها به سه جدول زیر که کدهای مربوط به GenBank را شرح داده اند توجه کنید.

جدول ۱-۳: Accession Numberها در GenBank.

جدول ۲-۳: Accession Numberها در فرمت Refseq.

۵۸-فصل سوم

در سطر دوم عدد دیگری را بعد از GI می‌بینید که کد این رکورد در بانک GenBank است. اگر بر روی لینک هر رکورد کلیک کنید جزییات هر رکورد همراه با توالی نوکلئوتیدی آن مطابق تصویر۶-۳ نمایش داده می‌شود که ما در ادامه محتویات این رکورد را کاملا شرح می‌دهیم.

تصویر ۶-۳: یک نمونه رکورد بانک Nucleotide

۲-۳-۲-۳ بررسی یک رکورد نمونه

محتوای این صفحه (تصویر ۶-۳) بسیار طولانی است، برای شرح جزییات این صفحه، نمونه‌ای کوچک‌تر را ارایه کرده‌ایم و در پایان این رکورد نیز توضیحات کاملی درباره آن آمده است. در نگاه اول، این اطلاعات بغرنج و نامفهوم به نظر می‌رسند. جزء جزء این اطلاعات را مورد بررسی قرار داده و مفهوم آن‌ها را شرح می‌دهیم. به این ساختار ارایه شده falt file گفته می‌شود. اطلاعات درون falt fileها به صورت Line type ارایه می‌شود. بدین معنا که در اول هر سطر، یک کلمه یا یک کد قرار گرفته است و بیان می‌کند در آن سطر چه اطلاعاتی گنجانده شده است. برای مثال در سطر اول کلمه LOCUS در ابتدای سطر، بیان می کند که در این سطر کد یکتای رکورد (SCU49845) یا ID Locus قرار دارد. یا در سطری که در ابتدای آن کلمه ORGANISM آمده، بیان کننده درخت تاکسونومی است که این ژن از آن گرفته شده است.

۵۹-پایگاه‌های اطلاعات اولیه توالی‌های اسید نوکلئیک

نظر می‌رسند. جزء جزء این اطلاعات را مورد بررسی قرار داده و مفهوم آن‌ها را شرح می‌دهیم. به این ساختار ارایه شده falt file گفته می‌شود. اطلاعات درون falt fileها به صورت Line type ارایه می‌شود. بدین معنا که در اول هر سطر، یک کلمه یا یک کد قرار گرفته است و بیان می‌کند در آن سطر چه اطلاعاتی گنجانده شده است. برای مثال در سطر اول کلمه LOCUS در ابتدای سطر، بیان می کند که در این سطر کد یکتای رکورد (SCU49845) یا ID Locus قرار دارد. یا در سطری که در ابتدای آن کلمه ORGANISM آمده، بیان کننده درخت تاکسونومی است که این ژن از آن گرفته شده است.

کالبدشکافی Flat Fileهای توالی‌های نوکلئوتیدی

file Flatها به سه بخش اصلی تقسیم می‌شوند:

۱- Header حاوی اطلاعاتی است در مورد کل رکورد.

۲- Features (ویژگی‌ها) که یادداشت‌ها و توضیحات رکورد است.

۳- توالی نوکلئوتیدی.

همه file flatهای پایگاه‌های نوکلئوتیدی دارای علامت // در انتهای هر رکورد هستند. اکنون هر سه بخش بالا را مفصل شرح می‌دهیم.

۶۰-فصل سوم

The header

بخش header بخشی است که بیش ترین وابستگی را به پایگاه داده دارد. یعنی این که در پایگاه داده‌های نوکلئوتیدی مختلف تفاوت‌هایی مشاهده می‌شود. سطر اول همه flat fileها در بانک GenBank سطر LOCUS است که در زیر نمونه‌ای از آن را می‌بینید:

LOCUS SCU49845 ۵۰۲۸ bp DNA PLN 23 MAR ۲۰۱۰

این المان (نام) باید با یک حرف شروع شود و کاراکتر بعدی می‌تواند حرف یا عدد باشد. در این مثال سه کاراکتر اول، حرف و بقیه عدد است. همه حروف نام همگی حرف بزرگ هستند. طول این المان باید از ۱۰ کاراکتر بیش‌تر نشود. در گذشته افرادی که توالی‌های درون بانک را کنترل می کردند، می‌کوشیدند تا نام مفید و با معنی انتخاب کنند در ضمن این که این نام می‌بایست در کل بانک یکتا باشد، از آن جا که تمام نام‌های با معنا تاکنون استفاده شده است، نام‌های جدید معنای خاصی ندارند. امروزه این نام، تنها از این نظر در بانک حضور دارند که نرم افزارهای قدیمی زیادی وابسته به این فیلد هستند. بنابراین این نام‌ها حاوی اطلاعات مفیدی نیستند.

دومین المان در خط LOCUS، طول توالی است. در این مثال طول توالی ۵۰۲۸ bp است.

سومین المان در این سطر نشان دهنده ماهیت بیولوژی مولکول است که معمولا DNA یا RNA است.

المان چهارم در این سطر (PLN)، کد تقسیم‌بندی (division code) است. این کد سه حرفی، کد تقسیم‌بندی تاکسانومی بوده یا برای دسته‌بندی‌های دیگری به کار می‌رفته است، NCBI کد تقسیم‌بندی تاکسانومی ارگانیزم‌ها را به روز نکرده است، چرا که فکر می کرد این کد ۳ حرفی مناسب نمایش گونه‌های متنوع بیولوژی موجود روی کره زمین نیست. این نوع کدگذاری امروزه منسوخ شده است. جدیدا این تقسیم‌بندی بر پایه عملکرد (functuion) ژن‌ها صورت می‌گیرد. ممکن است به جای این کدها با عباراتی نظیر EST یا STS برخورد نمایید. توضیح مختصری از این دو کد در زیر آورده شده است:

۶۱-پایگاه‌های اطلاعات اولیه توالی‌های اسید نوکلئیک

EST

این کلمه مخفف Expressed Sequence Tag است. این تقسیم‌بندی در سال۱۹۹۳ معرفی شده است. رکوردهایی که دارای این کد سه حرفی هستند، حاوی توالی‌های کوتاه از cDNA هستند. معمولا به تعداد زیادی از روی این نوع ژن رونویسی صورت می‌گیرد. ESTها نمایش یک تصویر فوری از آنچه در یک بافت خاص یا در یک مرحله خاصی از رشد موجود (development) بیان می‌شود. این‌ها tagهایی از بین یک ژن خاص موجود در یک کتابخانه خاص cDNA هستند. (در فصل ترنسکریپتومیکسESTها به تفصیل شرح داده شده‌اند)

STS

این کلمه مخفف “Sequence Tagged Site” است. STSها توالی‌های کوتاه (بین ۲۰۰ الی ۵۰۰ جفت باز) و روی ژنوم یکتا هستند. جایگاه و توالی آن‌ها کاملا مشخص است. این توالی‌ها قابل آشکار شدن به وسیله PCR هستند. توالی‌های STS، به دلیل یکتا بودن روی ژنوم، از آن‌ها جهت تهیه نقشه‌های ژنتیکی استفاده می‌شود.

المان پنجم در خط اول تاریخ اضافه شدن این رکورد به GenBank است. در این مثال: ۲۳-MAR-2010. اگر هر یک از ویژگی‌های رکورد به روز شده باشد و سپس رکورد انتشار یابد، این تاریخ، آخرین تاریخ انتشار است.

بخش بعدی header، سطر definition به فرمت زیر است:

DEFINITION Saccharomyces cereviiae TCP1-beta gane , partial cds, and Ax12p(AXL2) and Rev7p (REV7) genes, completed cds.

در این سطر، اطلاعاتی ارایه می‌شود که نشان دهد این رکورد راجع به چه موضوعی است. در ایجاد این خطوط دقت فراوانی صورت گرفته است. گرچه بسیاری از این اطلاعات را می توان از بخش های دیگر رکورد به دست آورد ولی این اطلاعات چنان انتخاب شده‌اند تا دارای ارزش باشند. بنابراین در مراجعه به این رکورد سری به این سطر بزنید تا مطمئن شوید که اطلاعات رکورد مناسب تحقیقات شما است یا خیر. به هر حال همیشه امکان ندارد که تمام اطلاعات بیولوژیک رکورد را بتوان در یک سطر جمع‌آوری کرد. کاربران باید تنها به این سطر اکتفا نکنند.

کمی‌ پایین‌تر، کد دسترسی (ACCESSION)، کلید اصلی برای ارجاع به رکورد در پایگاه داده را وجود دارد. کد دسترسی همیشه با رکورد خواهد بود و اگر رکورد تغییر کند (مثلا با تغییر یک نوکلئوتید) کد دسترسی تغیر نخواهد کرد. هم اکنون کد دسترسی به یکی از شکل‌های روبه‌رو است: “۵+۱” و “۶+۲”

“۵ +۱” یعنی یک حرف بزرگ انگلیسی در اول و پنج رقم به دنبال آن، در مثال بالا کد دسترسی U49845 است که از این قانون پیروی می‌کند.
“۶+۲” یعنی دو حرف بزرگ انگلیسی در ابتدا و شش رقم به دنبال آن، اکثر رکوردهای جدیدی که امروزه وارد بانک می‌شوند کدی به صورت این فرمت دوم دارند.

سطر بعدی در این رکورد به VERSION تعلق دارد:

VERSION U49845.1 GI: 1293613

قالب version به صورت accession.version”” است (U49845.1). شماره accession ثابت بوده ولی version هر گاه که توالی تغییر کند یک واحد به آن افزوده می‌شود. سطر VERSION در GenBank همچنین دارای عدد
GI (the geninfo identifier) است. که در این مثال GI: 1293613 است. اگر توالی تغییر کند GI به عدد صحیح موجود بعدی تغییر می کند. عدد GI فقط مخصوص GenBank است. عدد accession.version به عنوان نام اصلی رکورد (identifier) است که تنها و تنها به یک رکورد در هر بانک اشاره می کند.

سطر بعدی حاوی کلمات کلیدی (keywords) رکورد است. این خطوط به دلایل تاریخی وجود دارند و در بسیاری از موارد متاسفانه بی‌استفاده‌اند.

اطلاعات Taxonomy در سطرهایی با عنوان SOURCE و ORGANISM در GenBank وجود دارد. این کلاس‌بندی از بالا به پایین است. مطابق درخت taxonomic عمومی‌ترین و بزرگ‌ترین گروه، اول آورده می‌شود.

هر رکورد GenBank باید حداقل یک مرجع (reference یا citation) داشته باشد. این مرجع‌ها مقالاتی هستند که به توالی اعتبار می دهند که چرا این ژن خاص تعیین توالی شده است. در بسیاری از موارد رکوردها دو یا چند مرجع دارند.

اگر به رکورد اصلی مراجعه نمایید متوجه می‌شوید که سه مرجع با ساختار بالا وجود دارد. مرجع‌ها با شماره‌ای که دقیقا جلوی کلمه REFERENCEقرار گرفته است از هم جدا شده‌اند. افزودن یک رکورد به بانک برای فرد اعتبار علمی ایجاد می‌کند. هر مرجع از بخش‌های زیر تشکیل شده است.

نویسندگان مقاله (AUTHORS)

عنوان مقاله (TITLE)

نام ژورنال و سال انتشار آن (JOURNAL)

کد PMID این مقاله (PUBMED)

۶۲-فصل سوم

از طریق این مراجع بین دو بانک نوکلئوتیدها و بانک PubMed ارتباط برقرار می‌شود. بدین ترتیب می‌توانید با استفاده از PMID این مرجع‌ها به مقالات مرتبط با این رکورد دست یابید.

The Feature Table

بخش میانی رکورد، FEATURES نام دارد. در قسمت FEATURES، اطلاعات ژنتیکی توالی قرار دارد. اطلاعات موجود در این قسمت دسته‌بندی شده است. دسته‌ای از این اطلاعات در قسمت source قرار دارد که به کل ژن اشاره دارد و دسته‌ای دیگر در قسمت CDS و بخشی نیز در قسمت gene قرار دارد.

تفسیر این اطلاعات به صورت زیر است:

طول این ژن ۵۰۲۸ نوکلئوتید است که در جلوی source به صورت ۱…۵۰۲۸ نشان داده شده است.

این ژن مربوط به ” ساکارومایسس سروسیه” است که در سطر /organism در بخش source قرار گرفته است.

کد تاکسانومی این موجود در سطر db_xref، عدد ۴۹۳۲ را نشان می دهد.

این ژن روی کروموزوم IX این موجود قرار دارد که در بخش /chromosome در زیر source مشاهده می کنید.

توالی این ژن از سه exon تشکیل شده است که اطلاعات هر کدام در یک CDS جداگانه گذاشته شده است. همچنان که در قسمت اولین CDS می بینید اولین اگزون از باز ۱ شروع و به باز ۲۰۶ ختم می‌شود. کدون شروع آن باز شماره ۳ است (codon_start=3/). نام این پروتئین TCP1-beta، شناسه آن AAA98665 در سطرهای بعدی آمده است. ترجمه این exon نیز در سطر translation مشاهده می نمایید این ترجمه توسط نرم‌افزار انجام شده است نام این ژن AXL2، در سطر gene قرار دارد.

توالی ژن‌ها

در آخر رکورد نیز در بخش ORIGIN توالی کامل این ژن وجود دارد. در بسیاری از نرم‌افزارهای کامپیوتری از این توالی نوکلئوتیدی به عنوان ورودی نرم افزار استفاده می‌شود مانند نرم افزار BLAST که توالی‌های نوکلئوتیدی را با یکدیگر مقایسه می‌نماید.

۴-۲-۳ معرفی GenBank

GenBank مشهورترین پایگاه داده‌های توالی نوکلئوتیدی NCBI و مستندات مربوط است که به عنوان بخشی از کتابخانه ملی پزشکی (National Library of Medicine) در سال ۱۹۸۲ پایه‌گذاری شد. ابزارهای موجود برای دسترسی به داده‌های این پایگاه عبارتند از BLAST (1990)، Entrez (1992)، GenBank (1992) و PubMed (1997). به دلیل تسلیم انواع داده‌های ژنومی، رشد اطلاعات در این بانک بسیار سریع بوده است. به‌طور میانگین، ماهانه سه میلیون توالی و ۱۴۰۰ گونه جدید به این بانک اطلاعاتی افزوده می‌گردد به طوری که تقریبا هر ۱۰ ماه حجم اطلاعات آن دو برابر می‌شود.

همان طور که پیش‌تر گفته شد، داده‌های این پایگاه با بانک داده‌های DNA ژاپن (DDBJ) و موسسه زیست‌شناسی مولکولی اروپا (EMBL) در حال تبادل بوده و هر سه پایگاه، اطلاعات خود را روزانه رد و بدل می‌کنند. GenBank حاوی داده‌های تکراری و اضافی (مانند توالی‌های وکتوری) است که بخشی از آن به دلیل تسهیل در ورود اطلاعات بوده است. اما دلیل عمده آن امکان تسلیم توالی‌های مشابه تکراری از سوی آزمایشگاه‌های مختلف بوده است تا بتوان ذخیره‌ای از گوناگونی ژنتیکی (polymorphism) ایجاد نمود.

بخش‌های عمومی GenBank که به بخش‌های تاکسونومیک مشهورند، بر حسب نوع موجود عبارتند از:

BCT (Bacterial and Archea)

MAM (Mammalian)

Inv (Invertebrate)

PHG (Phage)

PLN (Plant and fungi)

PRI (Primate)

ROD (Rodent)

SYN (synthetic= cloning vectors)

VRL (Viral)

VRT (other vertebrate)

GenBank همچنین به دلایل فنی (ماهیت حجیم و با کیفیت پایین داده‌ها) بخشی از اطلاعات خود را در قسمت‌های اختصاصی اطلاعات حجیم ذخیره می‌کند.

PAT (Patents)

۶۳-پایگاه‌های اطلاعات اولیه توالی‌های اسید نوکلئیک

EST (Expressed Sequence Tag)

STS (Sequence Tagged Site)

GSS (Genome Survey Sequence)

HTG (High Throghput Genome)

CON (Contig)

بانک ژن با آدرس www.ncbi.nlm.nih.gov/genbank شناخته می‌شود اما در این آدرس امکان جستجو وجود ندارد و فقط اطلاعاتی در مورد بانک و شیوه ارائه داده ها به بانک شرح داده شده است. بانک ژن برای فراهم کردن و تقویت دسترسی جامعه علمی به اطلاعات جامع و به روز رسانی شده توالی‌ها طراحی شده است.

روش‌های تسلیم داده به بانک‌های اطلاعاتی اولیه و توالی نوکلئوتیدی

داده‌های موجود در GenBank و بانک‌های مشابه از دو طریق تامین می‌شود:

۱:از تحقیقات پژوهشگران در دنیا

۲:از مراکز توالی‌یابی ژنوم‌ها در دنیا به شکل‌های مختلف EST، STS، GSS، HTC و توالی‌های بلند موجود در کاسمیدها و BAC کلون‌ها.

داده‌های کم حجم و معمولا مشتمل بر یک توالی با استفاده از نرم افزار Bankit و داده‌های ژنومی حجیم با استفاده از نرم افزار Sequin تسلیم می‌شوند. تسلیم اطلاعات از طریق On-line، email و یا حتی ارسال بسته اطلاعاتی مانند، فلاپی، سی دی، دی وی دی و غیره امکان‌پذیر است. بدیهی است که داده‌ها اکثرا از طریق WWW تسلیم می‌شوند. تسلیم توالی‌های کوتاه cDNA مانند نتایج آزمایش‌های نمایش بیان ژن‌ها (Differential display) و یا ESTها از طریق بانک ESTها و روال مربوط انجام می‌شود. از اول ژانویه ۲۰۰۰، توالی‌های غیر ژنومی بلند GSS از طریق Bankit پذیرفته نمی‌شوند و باید در dbGSS فرستاده شوند.

پایگاه داده‌های Refseq

Refseq به مجموعه توالی‌های مرجع استخراج شده از GenBank را گویند که تصحیح شده و غیر تکراری هستند. یعنی بر خلاف GenBank، در پایگاه Refseq هر رکورد مربوط به یک ژن یا فرم پیرایش شده از یک ژن می‌باشد. در بانک داده‌های Refqseq شماره دسترسی هر مولکول با دستوری ویژه تعیین می‌شود که در جدول زیر مشخص شده است.

۶۴-فصل سوم

۵-۲-۳ تفاوت سه بانک Gene، Nucleotide، Genome

تصویر ۷-۳: نمایش لینک برخی از بانک‌ها در منوی کشویی پایگاه NCBI.

شاید در نگاه اول گیج‌کننده باشد و نتوانیم راحت بفهمیم توالی مورد نظرمان را در کدام بانک جستجو کنیم اما با توضیحاتی که در ادامه آمده‌اند مسئله روشن می‌شود.

بانک Gene

این بانک داده اطلاعات مربوط به یک ژن خاص(نه اطلاعات مربوط به کل ژنوم) را در اختیار کاربر قرار می‌دهد. این بانک اطلاعات مربوط به همه ژن‌ها شناخته شده را ندارد و روی ژنوم‌هایی که به طور کامل توالی‌یابی شده‌اند متمرکز می‌باشد. Entrez Gene بخشی در NCBI می‌باشد که اطلاعات مفیدی در مورد نقشه، توالی،بیان ژن،ساختار،عملکرد و هومولوژی را در اختیار همگان قرار می‌دهد. اطلاعات فراوانی از طیف گسترده‌ای از گونه‌ها موجود می‌باشد که سابقه نامگذاری، نقشه‌ها، مسیرها، تغییرات، و لینک‌هایی به ژنوم، فنوتیپ، و لوکوس به بانک‌های دیگر را دارا می‌باشد. همچنین این بانک حاوی داده‌های RefSeqs می‌باشد. دامنه وسیعی از اطلاعات درباره‌ی ژن‌ها و موجودات را در بر دارد. این اطلاعات شامل نتایج تجزیه و تحلیل‌هایی است که روی داده‌های توالی صورت گرفته است. مقدار و نوع اطلاعات ارائه شده وابسته به این است که چه اطلاعاتی راجع به یک ژن و یا موجود مشخص در دسترس است و می‌تواند شامل ۱) خلاصه گرافیکی محتوی ژنومی، ساختار اگزون/ اینترون، ۲) تصویر گرافیکی توالی mRNA ، ۳) انتولوژی ژنی و اطلاعات مربوط به فنوتیپ، ۴) داده‌های توالی پروتئینی و دمین‌های حفظ شده ، ۵) پایگاه‌های اطلاعات مربوط به جهش می‌باشد.

بانک Genome

این پایگاه داده امکان دستیابی به اطلاعات ژنومی بیش از هزار گونه که به طور کامل توالی یابی و نقشه‌یابی شده‌اند و یا این که توالی‌یابی آن‌ها در حال انجام است را فراهم می‌آورد. نمایش گرافیکی نتایج اطلاعات مفیدی را در سه سطح، ژنوم، یک کروموزوم و یک ژن در اختیار پژوهشگران قرار می‌دهد.

بانک Nucleotide

همان‌طور که پیش‌تر توضیح داده شد Gen bank پایگاه داده توالی‌های نوکلئوتیدی ارگانیسم‌های مختلف است و قابلیت جستجو در این بانک از طریق بخش Nucleotide فراهم می‌باشد. این مجموعه شامل توالی‌های نوکلئوتیدی شامل mRNA، قطعات DNA ژنومی، ژن‌های منفرد، ژن‌های چند گانه و ژن‌های دسته‌ای rRNA می‌باشد که در دسترس عموم قرار دارد. پایگاه داده‌های Nucleotide مجموعه‌ای از منابع مختلف، از جمله GenBank، RefSeq، TPA و PDB است. این بانک حاوی داده‌های بسیار گسترده‌ای می‌باشد و اغلب جستجو در آن بسیار گیج کننده می‌باشد. معمولا محققین ابتدا از بانک Gene استفاده می‌کنند و در صورتی که نتوانند اطلاعات مناسبی پیدا کنند از این بانک استفاده می‌کنند.

۶۵-پایگاه‌های اطلاعات اولیه توالی‌های اسید نوکلئیک

۶-۲-۳ بانک‌های اطلاعاتی توالی‌های غیرتکراری

هیچ‌کدام از بانک‌های اطلاعاتی موجود واقعا کامل نیستند. برای این کار تلاش‌هایی برای ایجاد بانک‌های اطلاعاتی مرکب صورت گرفت. با مقایسه‌ی توالی‌ها و با حذف توالی‌های تکراری و توالی‌هایی که به‌طور جزیی با هم متفاوت‌اند، از تکراری بودن آن‌ها ممانعت می‌شود. معیار دقیق برای تکراری بودن، این پایگاه‌های مرکب را نسبتا کوچک می‌کند و بنابراین در جستجوی بانک‌های اطلاعاتی کارایی بهتری دارد.

۷-۲-۳ بانک‌های اطلاعاتی حاوی توالی‌های اختصاصی

علاوه بر بانک‌های اطلاعاتی عمومی، چندین بانک اطلاعاتی اختصاصی وجود دارد. برخی از این بانک‌ها از پایگاه‌های عمومی منشا گرفته‌اند، به‌طوری که برخی از آن‌ها عضویت مولفان را پذیرفته و می‌تواننند حاوی توالی‌هایی باشند که هنوز در پایگاه‌های عمومی یافت نمی‌شود. آن‌ها یک یا چند مزیت زیر را دارند:

* بانک اطلاعاتی تشکیل یک مجموعه‌ی بسیار مشخص از توالی‌ها را می‌دهد که پیدا کردن آن‌ها در پایگاه‌های عمومی مشکل است. جستجوی پایگاه اختصاصی به جای پایگاه عمومی لیستی از توالی‌هایی را تهیه می‌کند که ناخالصی و توالی‌های مزاحم و ناخواسته را کم می‌کند و در زمان کم‌تری مورد استفاده قرار می‌گیرد.

بانک اطلاعات اختصاصی شده معمولا غیرتکراری است و حاوی توالی‌های یکسان نیست.

* گاهی تعریف موضوع داده‌ها یا کلمات کلیدی بهتر استانداردسازی می‌شود که به کاربر امکان یافتن توالی‌های مورد نظر را با یک جستجوی تک‌کلمه‌ای می‌دهد. در یک بانک اطلاعاتی بدون استانداردسازی، جستجو باید با کلمات کلیدی متفاوت تکرار شود.

* مستندات نیز بیش‌تر و بهتر از بانک اطلاعات عمومی است.

چند مثال از بانک‌های اطلاعاتی اختصاصی به شرح زیر است:

پایگاه اطلاعات HIV: توالی‌های DNAی HIV و SIV که در LANL (آزمایشگاه ملی لوس‌آنجلس؛ نیومکزیکو، آمریکا) نگهداری می‌شود و سالیانه گزارش می‌دهد.

HPVSD: توالی‌های پروتئینی و DNAیی از papillomavirusهای انسانی و حیوانی و پروتئین‌های سلولی که به وسیله‌ی آلودگی این ویروس‌ها تحت تاثیر قرار می‌گیرند؛ این پایگاه اطلاعاتی در LANL نگهداری می‌شود و سالیانه گزارش می‌دهد.

IMGT (ایمنوژنتیک): مجموعه‌ای از بانک‌های اطلاعاتی در زمینه‌ی ایمنی‌شناسی.

IMGT /LIGM (آزمایشگاه ایمنوژنتیک مولکولی): ژن‌های ایمنوگلوبولین‌ها و گیرنده‌های سلول‌های T که از EMBL گرفته شده و مستندات آن بهبود یافته و در دانشگاه مونت‌پولیر (فرانسه) نگهداری می‌شود.

IMGT /HLA (سازگاری بافتی جایگاه ژنی A در انسان): ژن‌هایی برای جایگاه‌های اصلی سازگاری بافتی در انسان که در موسسه‌ی تحقیقاتی Anthony Nolan (لندن) نگهداری می‌شود.

NRL-3D: زیرمجموعه‌ای از PIR، حاوی توالی‌های پروتئینی برای آن پروتئین‌هایی که ساختار سه‌بعدی شناخته شده دارند و در PDB ثبت شده‌اند، که در NBRF نگهداری شده و هر سه ماه گزارش می‌دهد.

۸-۲-۳ دیتابیس‌های NCBI

با توجه به تعداد زیاد بانک‌های موجود در سایت NCBI و اهمیت بالای آن‌ها اکثر بانک‌های این سایت با شرحی مختصر که برگرفته از کتاب راهنمای NCBI می‌باشد در ادامه آمده است. بسیاری از این بانک‌ها در بخش‌های مختلف این کتاب شرح داده شده‌اند.

Mitelman

در این بانک داده ناهنجاری‌های کروموزومی با ویژگی‌های تومور بررسی می‌شود و با توجه به ارائه اطلاعات زیست‌شناسی مولکولی و کلینیکی قادر است ناهنجاری‌های کروموزومی و بافت‌شناسی تومور را با توالی‌های ژنومی مقایسه کند. لازم به ذکر است که اطلاعات این بانک داده به صورت دستی از مجلات توسط Fredrik Mitelman و همکارانش جمع‌آوری شده است.

۶۶-فصل سوم

بانک داده Recurrent Chromosome Aberrations Cancer از بانک Mitelman مشتق شده است و شامل تمامی تغییرات سیتوژنتیکی است که حد اقل در دو مورد مورفولوزی یکسان داشته باشند و در هر زمان تومورهای ثابت در مکان یکسان قابل اجرا می‌باشد.

Cancer Chromosome

به منظور فهرست کردن اطلاعات مربوط به ناهنجاری‌های کروموزومی در سرطان که از تکنیک‌های سیتوژنتیک مولکولی به دست آمده‌اند و نیز برای ادغام کردن این اطلاعات با نقشه‌های ژنومی دو منبع تاسیس شده است.

۱: بانک داده SKY/M-FISH&CGH

۲: بانک داده Cancer Chromosome

هدف از تشکیل این بانک داده این است که به محقق این امکان را بدهد تا اطلاعات سیتوژنتیکی و کلینیکی حاصل از تحقیق را آنالیز کند و یا برای این بانک بفرستد. در بانک داده SKY/M-FISH&CGH امکان مقایسه اطلاعات سیتوژنتیکی و مولکولی فراهم شده است و می‌توان به‌طور هم‌زمان کروموزوم‌های موجوداتی مثل موش و انسان را با توجه به رنگ‌های متفاوت مشخص شده در آن‌ها بررسی کرده و ناهنجاری‌ها را به سادگی نشان داد.

Protein Cluster

در این پایگاه داده کل پروتئین‌های موجود در بانک refseq که از ژنوم کامل پروکاریوت‌ها ،پلاسمیدها و فاژها بیان شده‌اند بر اساس تشابه در توالی و عملکرد پروتئین گروه‌بندی می‌شوند.پروتئین‌ها به صورت کامپیوتری در گروه‌هایی بر مبنای امتیاز مربوط به هم‌ترازی آن‌ها دسته‌بندی شده و هر دسته مربوط به یک شناسه منحصر به فرد می‌باشد.

Pop set

این پایگاه داده شامل توالی‌های نوکلئوتیدی و پروتئینی است که به منظور بررسی خویشاوندی و سیر تکاملی یک جمعیت در این پایگاه گردآوری شده است.در این پایگاه با توجه به هم‌ترازی انجام شده بین توالی‌ها کاربر قادر به توصیف وقایع سیر تکاملی و تنوع جمعیت توالی‌ها می‌باشد. نتایج موجود در این پایگاه داده برای مطالعه و بررسی جهش‌ها،روابط تکاملی در جمعیت‌ها ،مورد استفاده قرار می‌گیرد.

Probe

در این پایگاه داده می‌توان به روش‌های مختلف در یک توالی ژن خاص،کاوشگر مورد نظر را جستجو کرد. انواع کاوشگرهای مورد جستجو در توالی شامل STS، RNAi ، RFLP و… می‌باشد.

dbGap

این پایگاه داده، نتایج مطالعات و بررسی‌های انجام شده در مورد ارتباط بین ژنوتیپ و فنوتیپ را جمع‌آوری می‌کند. این مطالعات شامل مطالعات وسیع ژنومی، توالی‌یابی، تست‌های تشخیص مولکولی و نیز ارتباط بین ژنوتیپ و ویژگی‌های غیر کلینیکی می‌باشد. این پایگاه داده شامل سه قسمت است. بخش اول Studyنام دارد و مقالاتی با موضوعات فوق در این بخش دیده می‌شود. بخش دوم Disease نام دارد و نام چند بیماری مهم ژنتیکی همراه با خصوصیت فنوتیپی آن در این قسمت آورده شده است. بخش سوم Advanced search نام دارد که جهت جستجوی پیشرفته و اختصاصی از این گزینه استفاده می‌گردد.

۶۷-پایگاه‌های اطلاعات اولیه توالی‌های اسید نوکلئیک

BioSystems

The BioSystems database collects information on interacting sets of biomolecules involved in metabolic and signaling pathways, disease states, and other biological processes. BioSystems currently contains biological pathways from the Kyoto Encyclopedia of Genes and Genomes (KEGG) and the EcoCyc (Escherichia coli K-12 MG1655) subset of the BioCyc databases and is designed to accommodate other data in the future. BioSystems records link to related literature, genes, protein sequences, structures, chemical data, to related BioSystems. When available each record links to detailed diagrams and annotations for individual pathways on the Web sites of the source databases.

Bookshelf

The NCBI Bookshelf contains a collection of full-text books that can be searched online and that are linked to PubMed records through research paper citations within the text. The collection includes biomedical textbooks, other scientific titles, the NCBI News, and NCBI help manuals.

Conserved Domains

Conserved Domains is a database of protein domains represented by sequence alignments and profiles for protein domains conserved in molecular evolution. It also includes alignments of the domains to known three-dimensional protein structures in the MMDB database. The source databases for Conserved Domains are Pfam, Smart, and COG.

dbGaP

dbGaP (Database of Genotypes and Phenotypes) provides the results of studies that have investigated the interaction of genotype and phenotype including genome-wide association studies, medical sequencing, molecular diagnostic assays, as well as association between genotype and non-clinical traits.

dbVAR

dbVAR (Database of Genomic Structural Variation) contains information about large-scale genomic variation, including large insertions, deletions, translocations and inversions. dbVar also provides associations of defined variants with phenotype information.

Epigenomics

The Epigenomics database contains results of genome-wide studies on modifications of chromatin (histone modification, DNA methylation, DNAase footprinting) in various cell types that assay programmable changes that affect gene expression (epigenetics). Data from these studies may be displayed graphically on the genome sequence using the NCBI graphical sequence viewer.

EST

The EST database contains sequence records from the bulk EST (Expressed Sequence Tag) division of GenBank. These are typically short single-pass reads from cDNA libraries often generated as large survey project. Data from EST can be used to catalog expressed genes for a particular organ, tissue or cell type or general for a species, and compare expression levels of genes in various library sources.

Gene

Gene is a searchable database of genes, focusing on genomes that have been completely sequenced and that have an active research community to contribute gene-specific data. Information in Gene records includes nomenclature, chromosomal localization, gene products and their attributes (e.g., protein interactions), associated markers, phenotypes, interactions, and links to citations, sequences, variation details, maps, expression reports, homologs, protein domain content, and external databases.

Genome

The Genome database contains sequence and map data from the whole genomes of over 1000 species or strains. The genomes represent both completely sequenced genomes and those with sequencing in-progress. All three main domains of life (bacteria, archaea, and eukaryota) are represented, as well as many viruses, phages, viroids, plasmids, and organelles.

۶۸-فصل سوم

Genome Project

Genome Projects collects information on complete and in-progress large-scale sequencing, assembly, annotation, and mapping projects for cellular organisms. The database is organized as a set of organism-specific overviews that allow browsing and retrieving specific projects for that organism.

GEO Datasets

GEO Datasets stores curated gene expression and molecular abundance data sets assembled by NCBI from the Gene Expression Omnibus (GEO) repository of microarray data.

GEO Profiles

GEO Profiles is a database that stores individual gene expression and molecular abundance profiles assembled from the Gene Expression Omnibus (GEO) repository of microarray data.

GSS

The GSS database contains sequence records from the bulk GSS (Genome Survey Sequence) division of GenBank. These are the genomic equivalent of EST records; short single pass reads from gDNA libraries. Insert end and other reads from BAC and other large insert genomic libraries used to identify and assemble candidates for genome sequencing are common examples of GSS records.

HomoloGene

The HomoloGene database contains automatically generated sets of homologous genes and their corresponding mRNA, genomic, and protein sequence data from selected eukaryotic organisms. Potential homologs from other organisms are included through sequence similarity to UniGene clusters.

MeSH

MeSH (Medical Subject Headings) is the National Library of Medicine’s controlled vocabulary and classification system (ontology) used for indexing articles in PubMed. MeSH terminology provides a consistent way to retrieve information that may use different terminology for the same concepts. Searches in the Entrez MeSH database provide synonymous MeSH terms that can provide more useful results in PubMed. The MeSH database records show subheadings access the MeSH browser showing related concepts and hierarchical relationships among MeSH terms.

NCBI Web Site Search

NCBI Site Search is database of static NCBI web pages, documentation, and online tools. Searching this database is a quick way to find specialized online sequence analysis tools, back issues of newsletters, legacy resource description pages, sample code, and other miscellaneous resources.

NLM Catalog

The NLM Catalog contains records for books, journals, audiovisuals, computer software, electronic resources, and other materials in the National Library of Medicine (NLM) collections. The old Journals database was merged into the NLM Catalog database and the information once retrieved via Journals, is provided by the NLM Catalog. This includes data such as journal title, MEDLINE abbreviation, NLM ID, ISO abbreviation, or ISSN.

Nucleotide

Apart from sequence data in the EST (Expressed Sequence Tag) and GSS (Genome Survey Sequence divisions of GenBank, the Nucleotide database contains all the sequence data from GenBank, EMBL, and DDBJ, the members of the International Nucleotide Sequence Databases Collaboration (INSDC). Nucleotide also includes NCBI-curated Reference Sequences (RefSeqs), submitted assemblies and annotations from the Third Party Annotation (TPA) database, and nucleotide sequences extracted from structure records from the Protein Databank (PDB).

OMIA

OMIA (Online Mendelian Inheritance in Animals) is a database of genes, inherited disorders and traits in animal species (other than human and mouse). The database contains textual information and references, as well as links to relevant records from OMIM, PubMed, and Gene.

۶۹-پایگاه‌های اطلاعات اولیه توالی‌های اسید نوکلئیک

OMIM

The OMIM (Online Mendelian Inheritance in Man) database contains review articles human genes, genetic disorders, and other inherited traits. OMIM articles provide links to associated literature references, sequence records, maps, and related databases.

PopSet

The PopSet database contains related nucleotide sequences that originate from comparative studies: phylogenetic, population, environmental (ecosystem), and mutational. Each record in the database is a set of nucleotide sequences representing the same molecule from the same species (population, mutation), different identifiable species (phylogenetic), or anonymous species from the same biological community (ecosystem).

Probe

Probe is a database of nucleic acid reagents designed for use in a wide variety of biomedical research applications including genotyping, gene expression studies, SNP discovery, genome mapping, and gene silencing. Probe records contain information on reagent distributors, probe effectiveness, and computed sequence similarities.

Protein

The Protein database contains amino acid sequences created from the translations of coding regions provided on nucleotide records in GenBank, EMBL, and DDBJ, the members of the International Nucleotide Sequence Databases Collaboration (INSDC) as well as those from coding regions on NCBI Reference Sequences and the Third Party Annotation (TPA) database records. Protein records are also imported from the outside protein-only data sources Protein Information Resource (PIR), SWISS-PROT, Protein Research Foundation (PRF). Protein sequences are also extracted from structure records from the Protein Data Bank (PDB).

Protein Clusters

Protein Clusters is a collection of related protein sequences (clusters) consisting of Reference Sequence proteins that are encoded by complete prokaryotic genomes as well those encoded eukaryotic organelle plasmids and genomes. The database provides easy access to annotation information, publications, domains, structures, external links, and analysis tools.

PubChem BioAssay

PubChem BioAssay is a database that contains bioactivity screens of chemical substances described in PubChem Substance. It provides searchable descriptions of each bioassay, including descriptions of the conditions and readouts specific to that screening procedure.

PubChem Compound

The PubChem Compound database contains unique, validated chemical structures (small molecules) that can be searched using names, synonyms or keywords. The compound records may link to more than one PubChem Substance record if different depositors supplied the same structure. Structures in PubChem Compounds are pre-clustered and cross-referenced by identity and similarity groups. Additionally, calculated properties and descriptors are available for searching and filtering of chemical structures. Compound records are linked to related PubChem Substance Records, PubMed citations, protein 3D structures, and biological screening results that are available in PubChem BioAssay.

PubChem Substance

The PubChem Substance database contains information on chemical substances including mixtures electronically submitted to PubChem by depositors. This includes any chemical structure information submitted, as well as chemical names, comments, and links to the depositor’s web site.

PubMed

PubMed is database of citations and abstracts for biomedical literature from MEDLINE and additional life science journals. Links are provided when full text versions of the articles are available through PubMed Central or other websites.

۷۰-فصل سوم

PubMed Central

PubMed Central (PMC) is the U.S. National Library of Medicine’s digital archive of life sciences journal literature. PMC contains full-text manuscripts deposited by authors or articles provided by the publisher.

SNP

The SNP (Single Nucleotide Polymorphism) database is a central repository for single nucleotide polymorphisms, microsatellites, and small-scale insertions and deletions. Both submitted SNPs and NCBI-produced non-redundant reference records (RefSNPs) that cluster reports of the same polymorphism from different sources are available. SNP also contains population-specific frequency and genotype data, experimental conditions, molecular context, and mapping information for both neutral polymorphisms and clinical mutations.

SRA

The SRA (Sequence Read Archive) contains sequencing data from the next generation sequencing platforms. SRA accepts and presents data from all current next-generation sequencing platforms including 454 (Roche), Illumina, SOLiD (Applied Biosystems), HeliScope, and Complete Genomics. Data can include sequence, quality scores, color values, and intensity graphs depending on the platform involved.

Structure

The Structure or Molecular Modeling Database (MMDB) contains experimental data from crystallographic and NMR structure determinations. The data for MMDB are obtained from the Protein Data Bank (PDB). Structure records link to bibliographic information, the sequence databases, and to the NCBI taxonomy. Cn3D, the NCBI 3D structure viewer, allows for easy interactive visualization of molecular structures from Entrez.

Taxonomy

The Taxonomy database contains the names and phylogenetic lineages of the more than 160,000 organisms that have molecular data in the NCBI databases. New taxa are added to the Taxonomy database as data are deposited for them. The taxonomy records include links to all molecular data for the organism or group as well as links to outside classification resources. The taxonomy provides the major controlled vocabulary for classifying molecular data across the Entrez system.

UniGene

UniGene is a database that provides automatically generated nonredundant sets (clusters) of transcript sequences, each cluster representing a distinct transcription locus (gene or expressed pseudogene). UniGene clusters also provide information on protein similarities, gene expression, cDNA clone reagents, and genomic location.

UniSTS

UniSTS is a comprehensive database of sequence tagged sites (STSs) derived from STS-based maps and other experiments. STSs are defined by PCR primer pairs and are associated with additional information, such as genomic position, genes, and sequences.

» فصل سوم-پایگاه‌های اطلاعات اولیه توالی‌های اسید نوکلئیک کتاب بیونفورماتیک سلولی و مولکولی

۵۳-پایگاه‌های اطلاعات اولیه توالی‌های اسید نوکلئیک

۵۴-فصل سوم

۵۵-پایگاه‌های اطلاعات اولیه توالی‌های اسید نوکلئیک

۵۶-فصل سوم

۵۷-پایگاه‌های اطلاعات اولیه توالی‌های اسید نوکلئیک

۵۸-فصل سوم

۵۹-پایگاه‌های اطلاعات اولیه توالی‌های اسید نوکلئیک

۶۰-فصل سوم

۶۲-فصل سوم

۶۴-فصل سوم

۶۵-پایگاه‌های اطلاعات اولیه توالی‌های اسید نوکلئیک

۶۶-فصل سوم

۶۷-پایگاه‌های اطلاعات اولیه توالی‌های اسید نوکلئیک

۶۸-فصل سوم

۶۹-پایگاه‌های اطلاعات اولیه توالی‌های اسید نوکلئیک

۷۰-فصل سوم

پر بیننده ترین

فصل ششم-هم‌ردیفی توالی‌ها کتاب بیونفورماتیک سلولی و مولکولی

فصل اول-مقدمه‌ای بر تکنولوژی‌های اُمیکس، بیوانفورماتیک و کلینیکال بیوانفورماتیک کتاب بیونفورماتیک سلولی و مولکولی

فصل سیزدهم-تنوع ژنتیکی کتاب بیونفورماتیک سلولی و مولکولی

فصل دوازدهم-پیشگویی ساختار دوم و سوم پروتئین کتاب بیونفورماتیک سلولی و مولکولی

فصل دوم-ژنومیکس کتاب بیونفورماتیک سلولی و مولکولی

بیوانفورماتیک سلولی و مولکولی کتاب بیونفورماتیک سلولی و مولکولی

فصل چهاردهم-فناوری انفورماتیک کتاب بیونفورماتیک سلولی و مولکولی

فصل هشتم-پروتئومیکس و ایمیونومیکس کتاب بیونفورماتیک سلولی و مولکولی

فصل چهارم-پایگاه‌های اطلاعات اولیه توالی‌های اسیدآمینه و ساختار فضایی پروتئین‌ها کتاب بیونفورماتیک سلولی و مولکولی

فصل هفتم-بانک‌های اطلاعاتی ثانویه (کلاسیفیکیشن دمین‌های پروتئینی) کتاب بیونفورماتیک سلولی و مولکولی

آخرین مطالب

فصل چهاردهم-فناوری انفورماتیک کتاب بیونفورماتیک سلولی و مولکولی

فصل سیزدهم-تنوع ژنتیکی کتاب بیونفورماتیک سلولی و مولکولی

فصل دوازدهم-پیشگویی ساختار دوم و سوم پروتئین کتاب بیونفورماتیک سلولی و مولکولی

فصل یازدهم-کار با RNA و پیشگویی ساختار آن و معرفی بانک‌های miRNA کتاب بیونفورماتیک سلولی و مولکولی

فصل دهم-متابولومیکس کتاب بیونفورماتیک سلولی و مولکولی

فصل نهم-ترنسکریپتومیکس کتاب بیونفورماتیک سلولی و مولکولی

فصل هشتم-پروتئومیکس و ایمیونومیکس کتاب بیونفورماتیک سلولی و مولکولی

فصل هفتم-بانک‌های اطلاعاتی ثانویه (کلاسیفیکیشن دمین‌های پروتئینی) کتاب بیونفورماتیک سلولی و مولکولی

فصل ششم-هم‌ردیفی توالی‌ها کتاب بیونفورماتیک سلولی و مولکولی

فصل پنجم-Genome Warehouseها و بانک‌های اطلاعاتی منابع کتاب بیونفورماتیک سلولی و مولکولی

دیدگاهتان را بنویسید لغو پاسخ