目次
ヒトゲノムを構成するもの
ヒトゲノムの構成を遺伝子に着目してみてみよう
遺伝子の説明で、ゲノムの約2%が遺伝子である、と申しました。
とすると、98%は何をしている部分なのか?!
いらないんじゃね?!って思いますよね。
染色体の部位と遺伝子密度の関係
染色体に含まれるDNAと遺伝子の数を表にします。
染色体 | 遺伝子数 | 塩基対数 |
---|---|---|
番号 | (個) | (Mb 1M=100万) |
1 | 2610 | 279 |
2 | 1748 | 251 |
3 | 1381 | 221 |
4 | 1024 | 197 |
5 | 1190 | 198 |
6 | 1394 | 176 |
7 | 1378 | 163 |
8 | 927 | 148 |
9 | 1076 | 140 |
10 | 983 | 143 |
11 | 1692 | 148 |
12 | 1268 | 142 |
13 | 496 | 118 |
14 | 1173 | 107 |
15 | 906 | 100 |
16 | 1032 | 104 |
17 | 1394 | 88 |
18 | 400 | 86 |
19 | 1592 | 72 |
20 | 710 | 66 |
21 | 337 | 45 |
22 | 701 | 48 |
X | 1098 | 163 |
Y | 78 | 51 |
染色体には大きいもの順に番号が振られています。
遺伝子やその他のDNA配列はランダムに集まっているわけではなく、同じような特徴をもつゲノム領域はクラスター(集合体)を形成しやすくなっています。
ゲノムの塩基配列や構造上の特徴はゲノムの機能上の特徴に影響します。
染色体内には、遺伝子含有量が高い領域と低い領域があり、染色体どうしを比べたときにも、遺伝子の豊富な染色体と乏しい染色体があります。
☞最近、7Mb以上の微細欠失・微細重複を全部の染色体にわたってNIPTで行います、という検査会社がありますが、そのような検査をやったとして、異常があった場合に赤ちゃんにどのような障害が出そうなのか、はたまた問題なさそうな部分なのか?については、このように染色体に遺伝子が均等に分布しているわけではないため、非常に高度な知識が必要になります。遺伝専門医でも難しい領域ですが、大丈夫なのでしょうか?
ゲノム構造の異常が臨床へ及ほす影評は、その異常が発生した部位の個々の遺伝子や配列がどのような特徴をもっているかによります。そのため、同じ規模の異常であっても、遺伝子の豊富な染色体や染色体領域で生じたものは、人体に与える影響は遺伝子の数に一般的には相関するため、遺伝子の乏しい領域で生じたものに比べて臨床的により重篤となる傾向にあります。
ちなみに、光学顕微鏡で染色体を見ることができますが、染色体をギムザ染色液で処理すると、染色体の⾧軸に沿って濃淡の横シマ(Gバンド)が見え、これをG分染法といいます。濃いバンドはDNAレベルでAT(アデニンチミン)が比較的多くて遺伝子密度が低い領域となっています。逆に淡いバンドはGC(グワニンシトシン)に富んだ遺伝子密度が高い領域となっています。
染色体と遺伝子の密度については図も出しておきます。
ヒトゲノムの構成を塩基配列に着目してみてみよう
ゲノム全長の少なくとも半分という大きな領域を占めるのが、いわゆる単ーコピーDNA(single-copy DNA)とよばれる配列です。
その並び方の塩基配列は全ゲノム中で大体1回、せいぜい2~3回なのです。
DNAの塩基が4種類しかないことを考えるとびーっくりするかもしれませんが、それでは、10塩基の配列が幾通りあるかというと、4の10乗なので1,048,576通りあることを考えると理解できると思います。
ゲノム中の塩基の配列は完全にランダムというわけではないのですが、16塩基からなる配列の組み合わせは416=4,294,967,296(約42億9千5百万)となり、人のゲノムのワンセットの塩基数は30億なので、16塩基の配列がゲノム中に偶然現れる回数は、自然派生的にはl回となります。
残りのゲノムは数種類の反復DNA(repetitive DNA)からなり、完全に同じあるいはいくらか変化した塩基配列がゲノム上で数百から数百万回反復されているものです。
ゲノムにある推定2~3万のタンパクをコードする遺伝子はほとんどが単ーコピーDNAです。反復DNA部分の配列は染色体構造を保つことに貢献しておりまた、人間一人一人の多様性の源である点で重要となっています。ゲノムにみられるこの多様性は時に病気にかかりやすい体質と関係している場合があります。
単ーコピーDNA配列(single-copy DNA)
単ーコピーDNAは、ゲノムDNAの少なくとも半分を占めているのですが、機能の多くはよく解明されていません。
単ーコピーDNAの中でタンパクをコードする配列(遺伝子のコード領域)はごくわずかだからです。
ほとんどの単ーコピーDNAは数キロ塩基対以下と短くて、さまざまな反復DNAファミリーの間に点々と配置されています。
反復DNA配列
いくつかの異なる種類に分類されるDNAの反復配列が存在いたします。
分類法の1つとして、繰り返される配列(リピート)がゲノムの1カ所あるいは2~3カ所にクラスター(集合体)を形成しているか、あるいは単一コピーDNA配列とともに染色体上のゲノム全体に散在しているかという観点での分け方があります。
クラスターを形成する反復配列
ゲノムの10~15%を占めると椎定され、さまざまな短い反復配列が同じ向きに直列(タンデム)に並んでいる。このような縦列反復配列はサテライトDNA(satellite DNA)と総称されていて、元来の縦列反復配列ファミリーの多くが、ゲノムDNAの大部分とは異なるサテライトDNA分画にあることが分かっていることに由来しています。
縦列反復配列(タンデムリピート)ファミリーには、ゲノム上の位置や、縦列を構成する配列の種類によってさまざまなものがあります。こういった縦列は数百万塩基対以上の長さに連なっていることがあり多いものでは各ヒト染色体のDNAの数%を占めます。ある種の縦列反復配列は重要な細胞遺伝学的解析手法として利用されています。
短いもの
1,9,16番染色体の遺伝的に不活性な大きな領域やY染色体の半分以上の領域は、ペンタヌクレオチド(5塩基)などの短い配列が反復した長い縦列により構成されています。
長めのもの
aサテライトファミリーは約171塩基対を基本単位とする縦列で、各ヒト染色体のセントロメア(centromere)に存在し、細胞分裂の際に紡錘体形成される際、染色体が微小管に付着するためにきわめて重要な部分となっています。
よく似た配列がゲノム全体に散在する反復配列
このタイプの反復配列の種類は非常に多くなっていますが、ゲノムの相当な部分を占めておりかつ遺伝性疾患と関連しているものに絞って言及します。
Aluファミリー(Alufamily)
約300塩基対の長さで、ゲノム中には合計百万以上のAluファミリー配列があり、ヒトDNAの少なくとも10%を占めるものです。
長い散在性の反復配列(long interspersed nuclear element:LINE)ファミリー
最長6キロ塩基対(6Kbp)。ゲノムあたり約85万コピーが発見されており、ゲノムの約20%に相当します。
Alu, LINEどちらのファミリーも、 ゲノム中には豊富に存在する領域と比較的まばらにしか存在しない領域とがあります。例えばGCが多い領域ではAlu配列が多くLINE配列が少ない傾向があり、ATが多いと逆になります。
DNAの反復配列と疾患AluやLINE配列は、遺伝性疾患における変異を引き起こす原因になると考えられています。
LINEやAluファミリーに属する少なくとも2~3種類の配列は自身のコピーを作ってゲノムの他の部位にそれを挿入することができるため、医学的に重要な遺伝子がこの挿入により不活化されることがあるのです。ヒトにおいてこのような機序が遺伝性疾患の原因になる頻度は不明
ですが、変異のうち一定数はこれで説明できる可能性があります。
さらに、異なるLINE配列間あるいはAlu配列間での異常な組換えがある種の追伝性疾患において変異の原因になっている可能性もあります。
重複配列
しばしば非常に高度に保存されています。つまり、種を超えて同じ配列だという意味です。
染色体のかなりの部分が重複する場合は分節重複(segmental duplication)と呼ばれ、大きさは数十万塩基対におよびゲノムの少なくとも5%を占めるものです。
偽遺伝子
実は。coding(アミノ酸をコードする遺伝子のことをこういいます)とまでは言えないのだけれど、構造的には遺伝子と見做してもいいものがこのその他部分にはあります。しかし、遺伝子とは異なり、翻訳されタンパクができることはありません。これらを、偽遺伝子といい、ヒトでは1万以上も存在しています。進化の過程では、coding遺伝子が重複を繰り返して多様性を拡大するのですが、重複した遺伝子に変異がおこり機能喪失すると偽遺伝子となります。
偽遺伝子が最も多いのは嗅覚受容体で、ヒトでは400のコーディング遺伝子に対して600もの偽遺伝子が存在しています。偽遺伝子に何の役割もないと決め付けることはできず、構造的には遺伝子と同じであり、さらにコーディングなら変異が入ればすかさず修復されるところ、機能していないことから変異が蓄積されやすく、新しい機能を持った遺伝子が生まれる母地としてはこれ以上ない環境です。
タンパク以外のものをコードするDNA
DNAにコード可能な生体機能分子はタンパクだけではないのです。と言ったら、それだけでびっくりされちゃいそうですが。
タンパクに翻訳されるには、mRNAに転写さないといけませんが、DNAがコードする「それ以外の」RNAをノンコーディングRNAといいます。20ヌクレオチドくらいの分子量の小さいものから100 kbにもなる大分子まで様々なノンコーディングRNAがあり、さまざまな生理機能を持っています。
ノンコーディングRNAはしばしば機能性RNA(functional RNA)と同一視されますが、一部のアンチセンスRNAでみられるように、転写産物であるRNA分子それ自体に生理活性はなく、その遺伝子座において転写が起こること自体が重要である場合や、そもそもそのノンコーディングRNA遺伝子が全く必要でない場合もあり、すべてのノンコーディングRNAが機能性RNAであるわけではありません。
最も有名かつ量も多いノンコーディングRNAは翻訳過程で働く転移RNA(tRNA)とリボソームRNA(rRNA)です。それ以外にも、代謝から個体発生や細胞分化まで様々な場面で機能するノンコーディングRNAがたくさんみつかっています。
ヒトゲノムの7%以上はタンパクをコードしないncRNAとして転写されています。
【関連記事】