目次
Ensemblとは?
Ensemblは、ゲノム解読された真核生物を対象として自動アノテーションを行い、その結果をデータベースとして公開しているプロジェクトです。このプロジェクトは、EMBL-EBIとSanger Centreが共同で進めています[14]。Ensemblは、比較ゲノミクス、進化、配列変異、転写調節の研究を支援するためのゲノムブラウザを提供しており[2]、遺伝子のアノテーション、複数配列のアラインメント、調節機能の予測、疾患データの収集などを行っています。また、BLAST、BLAT、BioMart、Variant Effect Predictor(VEP)などのツールを含む、全てのサポートされている種に対するEnsemblツールも提供しています[2]。
Ensemblは、ゲノムプロジェクトが行われている生物のデータに特化し、ゲノムアノテーションを詳細に行ったデータベースです。このデータベースは、EMBL-EBIとSanger Centreが共同で進めているプロジェクトであり、真核生物のゲノム解読を対象としています[1][4]。
Ensemblの主な特徴は、ゲノム配列上の遺伝子や各種マーカー、SNPなどを簡単に検索し、調べることができる点にあります。また、ゲノム配列のスプライスバリアントやタンパク質レベルのアノテーションを付け、より詳細なゲノム情報を提供しています。Ensemblで公開されているデータは、変異解析や発現量解析などのリファレンスゲノムとして用いることができます[3][5]。
Ensemblは、脊椎動物のゲノムアノテーションを主に提供していますが、植物や原生生物などのアノテーションも、Ensembl Plants、Ensembl Metazoaなどで提供しています。これらのデータは、FTPサイトを通してダウンロードすることができ、GenBank形式とFASTA形式の2種類で提供されています[5]。
Ensemblのウェブサイトを使って、核タンパク質コーディング遺伝子領域のアライメントを作成することができます。また、系統解析に利用可能な相同遺伝子グループを集めるスクリプト集も提供しており、BioMartを使うと、Orthologousな遺伝子を示すテーブルなどを比較的簡単に作成することができます[1]。
Ensemblの情報は、ゲノムに関してはNCBI, UCSCゲノムブラウザと同じですが、アノテーションに関してはEnsembl独自のパイプラインによって予測されているものが多いため、NCBI Mapviewerなどと情報が多少異なります。この予測パイプラインでは、タンパク質コード遺伝子をできる限り精度よく予測することに注力しています[4]。
ensemblを使ったゲノム解読の手順
Ensemblを使用したゲノム解読の手順は、主に以下のステップに分けられます:
1. ゲノムデータの取得: Ensemblのウェブサイトを訪れ、必要なゲノムデータをダウンロードします。Ensemblでは、ヒト、マウス、ゼブラフィッシュなど多くの種のゲノムデータが提供されています。特定の遺伝子や領域のデータを取得するためには、BioMartツールを使用することができます。BioMartでは、スプライシングされていない遺伝子配列(Unspliced (Gene))を選択することで、必要なデータを取得できます[1]。
2. ゲノムアライメントの作成: Ensemblのウェブサイトを利用して、特定の遺伝子領域のアライメントを作成します。これにより、ヒトやその他の哺乳類など、複数種のゲノム配列を比較することが可能になります。ただし、利用できるアライメントは哺乳類を中心に作られたものに限られることがあります[1]。
3. 遺伝子情報の検索と比較: Ensemblでは、特定の遺伝子に関する情報を検索し、その遺伝子周辺のゲノム配列を取得することができます。また、ContigViewやMultiContigViewを使用して、他生物種の遺伝子データを表示し、シンテニー領域に関する情報を比較することができます。これにより、異なる生物種間での遺伝子の相同性や構造の類似性を調べることが可能です[5]。
4. アノテーションの確認と解析: Ensemblでは、ゲノム上にアノテーションされている遺伝子やその他の遺伝情報を閲覧することができます。Ensembl独自のパイプラインによって予測されたタンパク質コード遺伝子などの情報を確認し、その精度を評価することが重要です。また、ホモロジー検索や必要なデータのダウンロードなどの機能も利用できます[5]。
これらの手順を通じて、Ensemblを利用したゲノム解読や遺伝子の比較解析が行えます。Ensemblは、ゲノムデータの取得からアライメントの作成、遺伝子情報の検索と比較、アノテーションの確認まで、ゲノム研究に必要な多くの機能を提供しています。
- 参照・引用
-
[1] fish-evol.org/Ensembl_JI.html
[2] www.jst.go.jp/nbdc/bird/minicourses/UCSC1.html
[3] togotv.dbcls.jp/en/20110413.html
[4] togotv.dbcls.jp/en/20170907.html
[5] www.jst.go.jp/nbdc/bird/minicourses/Ensembl1.pdf
[6] www.youtube.com/watch?v=sGSlj1PiDrw
[7] www.youtube.com/watch?v=RB6BgEFpgps
[8] github.com/AJACS-training/AJACS54/blob/master/bono1/README.md
ensemblを使ったゲノム解読に必要な前提知識は何ですか?
Ensemblを使ったゲノム解読に必要な前提知識には、以下のようなものがあります:
1. ゲノムとは何か: ゲノムは生物の遺伝情報全体を指し、DNA配列から成り立っています。ゲノム解析を行うには、ゲノムがどのように構成され、どのように機能するかの基本的な理解が必要です[1]。
2. ゲノムアノテーションの基礎: ゲノムアノテーションは、ゲノム配列上に遺伝子やその他の機能的要素を同定し、注釈を加えるプロセスです。このプロセスには、遺伝子の位置やエクソンの並び、翻訳領域などの遺伝子構造と、遺伝子の機能情報が含まれます[20]。
3. バイオインフォマティクスの基本: ゲノム解析には、バイオインフォマティクスのツールやデータベースの利用が不可欠です。これには、配列アライメント、遺伝子予測、データベース検索などの技術が含まれます[1][2]。
4. Ensemblの概要と機能: Ensemblは、真核生物のゲノムデータを提供するデータベースであり、ゲノムブラウザやBioMartなどのツールを通じて、ゲノム配列、遺伝子アノテーション、比較ゲノミクスデータなどを閲覧・検索することができます。Ensemblの基本的な使い方や、提供されている情報の種類を理解することが重要です[2][5]。
5. 遺伝子発現とその調節: ゲノム内の遺伝子がどのように発現し、その発現がどのように調節されるかの知識も、ゲノム解析において重要です。これには、プロモーターやエンハンサーなどの調節領域の理解が含まれます[1]。
6. 進化と系統学: 種間でのゲノムの比較を通じて、進化的関係や遺伝子の保存された領域を理解することも、ゲノム解析において有用です。これには、系統樹の構築や進化的保存領域の同定などの知識が必要です[3]。
これらの知識は、Ensemblを使ったゲノム解読において、ゲノムデータの解釈や比較分析を行うための基盤となります。
- 参照・引用
-
[1] www.jstage.jst.go.jp/article/jspho/59/3/59_255/_pdf
[2] fish-evol.org/Ensembl_JI.html
[3] isw3.naist.jp/IS/Kawabata-lab/LECDOC_KINDAI/2008/MultiplePhylogeny_08May20.pdf
[4] www.yodosha.co.jp/jikkenigaku/keyword/186.html
[5] www.jst.go.jp/nbdc/bird/minicourses/Ensembl1.pdf
[6] togotv.dbcls.jp/en/20170607.html
[7] iwasakishuto.github.io/University/3S/%E3%82%B2%E3%83%8E%E3%83%A0%E9%85%8D%E5%88%97%E8%A7%A3%E6%9E%90%E8%AB%96%E2%85%A0-5.html
[8] array.cell-innovator.com/?p=1049
[9] www.ism.ac.jp/coop-math/files/216/%E8%B3%87%E6%96%99_nakaoka.pdf
[10] togotv.dbcls.jp/en/20110413.html
[11] minerva-clinic.or.jp/academic/terminololgyofmedicalgenetics/agyou/alignment/
[12] maintenance.dbcls.jp
[13] www.rhelixa.com/knowledgebase/wgs-basics/
[14] www.airc.aist.go.jp/aitec-icot/ICOT/Museum/SOFTWARE/GIP/gene_alignment.html
[15] www.iu.a.u-tokyo.ac.jp/~kadota/JSLAB_9_kadota.pdf
[16] togotv.dbcls.jp/en/20090129.html
[17] www.dna.bio.keio.ac.jp/lecture/bioinfo/bioinformatics-3.pdf
[18] www.jstage.jst.go.jp/article/jjom/54/1/54_jjom.H24-05/_pdf
[19] www.insilico-biology.com/index.php/annotation-fmn-en
[20] www.naro.go.jp/publicity_report/publication/files/40f6ec588a1b579067ebd49d3b271113.pdf
ensemblを使ったゲノム解読において、どのようなツールが使われるのでしょうか?
Ensemblを使ったゲノム解読においては、以下のようなツールが利用されます[4]:
1. Variant Effect Predictor (VEP): 自身の変異を分析し、既知および未知の変異の機能的影響を予測します。このツールは、変異が遺伝子やタンパク質の機能に与える可能性のある影響を評価するために使用されます。
2. Variant Recoder: 変異識別子、HGVS表記、またはゲノミックSPDI表記を、すべての可能な変異ID、HGVS、VCF形式、およびゲノミックSPDIに変換します。
3. BLAST/BLAT: DNAまたはタンパク質の配列をEnsemblのゲノムデータベース内で検索します。
4. File Chameleon: Ensemblのファイルを他の解析ツールで使用できるように変換します。
5. Assembly Converter: データの座標を現在のアセンブリにマップ(リフトオーバー)します。
6. ID History Converter: 以前のリリースの一連のEnsembl IDを、それらの現在の同等物に変換します。
7. Linkage Disequilibrium Calculator: 選択した集団からの遺伝子型を使用して、変異間の連鎖不均衡を計算します。
8. VCF to PED converter: VCFファイルを解析して、リンケージペディグリーファイル(ped)とマーカー情報ファイルを作成します。これらは、Haploviewのようなld可視化ツールに読み込むことができます。
9. Data Slicer: BAMまたはVCFファイルからデータのサブセットを取得します。
これらのツールは、ゲノムデータの処理やユーザー自身のデータの処理に使用され、ゲノム解読における様々なニーズに対応しています。
ensemblを使ったゲノム解読において、どのようなデータベースが使われるのでしょうか?
Ensemblプロジェクトでは、ゲノム解読や関連する生物学的研究に役立つ複数のデータベースが提供されています。これらのデータベースは、ゲノム配列、遺伝子アノテーション、比較ゲノミクス、変異情報など、様々な種類のデータを含んでいます。主要なデータベースには以下のようなものがあります:
1. Ensembl Core Database: 真核生物のゲノム配列とそのアノテーション(遺伝子、転写産物、タンパク質など)を含む基本的なデータベースです。このデータベースは、ゲノムブラウザを通じてアクセスされ、ゲノム配列の閲覧や遺伝子の詳細情報の取得に使用されます。
2. Ensembl Variation Database: SNPやインデル、コピー数変動(CNV)など、ゲノム配列の変異情報を提供します。このデータベースは、変異が遺伝子機能に与える影響の予測や、疾患関連の変異の研究に役立ちます。
3. Ensembl Regulation Database: ゲノム上の調節領域(プロモーター、エンハンサーなど)やエピジェネティックな修飾(メチル化、ヒストン修飾など)の情報を含みます。このデータベースは、遺伝子発現の調節機構の解析に使用されます。
4. Ensembl Compara Database: 種間比較ゲノミクスのデータを提供します。このデータベースには、複数種のゲノム配列の多重アライメントや、遺伝子の直系相同(オーソログ)と側系相同(パラログ)の情報が含まれています。進化的研究や機能的保存領域の同定に役立ちます。
5. Ensembl Genomes: Ensemblのフレームワークを使用して、非脊椎動物、植物、菌類、原生生物、細菌のゲノムデータを提供するプロジェクトです。Ensembl Genomesは、Ensembl Core Databaseと同様の機能を提供しつつ、これらの生物群に特化したデータを含んでいます。
これらのデータベースは、EnsemblのウェブサイトやAPIを通じてアクセス可能であり、ゲノム解読や関連する生物学的研究に広範な情報を提供しています。
ensemblを使ったゲノム解読において、どのようなアルゴリズムが使われるのでしょうか?
Ensemblを使ったゲノム解読においては、複数のアルゴリズムが使用されます。これらのアルゴリズムは、ゲノム配列のアノテーション、多重アライメントの計算、調節機能の予測、疾患データの収集など、様々な目的のために設計されています[8]。
1. 遺伝子アノテーション: Ensemblでは、ゲノム配列上に遺伝子を同定し、アノテーションを行うために、自動化されたアルゴリズムが使用されます。これには、既知の遺伝子配列やタンパク質配列、他の生物種の遺伝子情報などを基にした予測が含まれます[6]。
2. 多重アライメント: 種間でのゲノム配列の比較を行うために、多重アライメントアルゴリズムが使用されます。これにより、異なる生物種間での遺伝子の保存された領域や進化的関係を解析することができます[8]。
3. 調節機能の予測: ゲノム配列上の調節領域、例えばプロモーターやエンハンサーなどを予測するために、特定のアルゴリズムが使用されます。これにより、遺伝子発現の調節機構を理解する手助けとなります[8]。
4. 疾患データの収集: 疾患関連の遺伝子変異やその他のゲノム変異に関するデータを収集するために、特定のアルゴリズムが使用されます。これにより、疾患の遺伝的要因を解明する研究に貢献します[8]。
5. BLAST/BLAT: 配列検索ツールであるBLASTやBLATは、ユーザーが提供したDNAやタンパク質の配列をEnsemblのゲノムデータベース内で検索するために使用されます。これらのツールは、配列の類似性に基づいて迅速に結果を提供するアルゴリズムを使用しています[8]。
6. Variant Effect Predictor (VEP): VEPは、既知および未知の変異の機能的影響を予測するために使用されるツールです。このツールは、変異が遺伝子やタンパク質の機能に与える可能性のある影響を評価するアルゴリズムを使用しています[8]。
これらのアルゴリズムは、Ensemblが提供する様々なツールやデータベース機能の基盤となっており、ゲノム解読における重要な役割を果たしています。
- 参照・引用
- [8] www.ensembl.org/index.html



