ゲノム解析とは？

ゲノム解析とは

ゲノム解析とは、生物のゲノムのもつ遺伝情報を総合的に解析することです。ゲノム解析は、ゲノムを構成するDNA分子の塩基配列（GATCのならび）を決めることから始まります。しかし、塩基配列データからだけでは、どこにどのような遺伝子があるのかは簡単にはわかりません。そこで、転写・翻訳によって作られるメッセンジャーRNAやタンパク質などの遺伝子産物の解析、生物種間で塩基配列がどれだけ似ているかなどの比較、さらに大腸菌や出芽酵母などの実験生物で解析された個々の遺伝子に関するデータなどを基に解析を進めます。

ゲノム解析では時に10億以上にもつながった塩基の配列をいろいろな観点から解析する必要がありますのでコンピュータの使用が不可欠です。コンピュータによってゲノムデータをはじめとする生物情報を解析する分野をバイオインフォマティクスと呼びます。

ページトップへ

ゲノム塩基配列決定の流れ

NITEでは、生物の特徴を解析する上で必須となるゲノムの全塩基配列を解析し、得られた配列情報から遺伝子の同定と機能の推定を行って、その情報を一般に公開しています。塩基配列の決定は、大きく分けて（１）ゲノムDNAの切断と断片のクローン化、（２）各クローンの塩基配列（シーケンス）決定、（３）遺伝子領域と機能の推定、（４）論文発表とデータの公開、という手順を経て行われます。

（１）ゲノムDNAの切断と断片のクローン化

ゲノムＤＮＡの抽出

図１－１生物からのDNAの抽出
図１－１

生物の細胞から糖、タンパク質、脂質等を除去し、ゲノムDNAを抽出します（図１－１）。

ショットガンクローンの作製

抽出したゲノムDNAは、そのまま塩基配列を解析するには大きすぎるため、まず以下の手順で適当な大きさに切断し、断片をランダムにクローン化します。

図１－２ＤＮＡ断片のライゲーション
図１－２

生物から取り出したゲノムＤＮＡを制限酵素（※１）（”はさみ”の役割をする酵素）を用いたり、水圧による物理的な力を利用するなどにより切断し、その断片を、リガーゼ（”のり”の役割をする酵素）により、プラスミドなどのベクター（※２）DNAと結合します。この操作をライゲーションと言います（図１－２）。

図１－３ショットガンクローンの増幅
図１－３

それぞれのDNA断片を組み込んだプラスミドは大腸菌で増やすことができます（これを「クローン化する」と言います）。得られるクローンは、いろいろなゲノム断片をランダムに含んだものであることから「ショットガンクローン」と呼ばれます（図１－３）。

（２）各クローンの塩基配列（シーケンス）決定

シーケンス反応と塩基配列の読みとり

　塩基配列の決定は、シーケンサと呼ばれる機械を用いて行います。シーケンサで塩基配列を読みとるために、解析対象のDNAに蛍光物質を付けます。ここでは、その操作をシーケンス反応と呼ぶことにします（図２－１）。

図２－１DNAへの蛍光色素の導入イメージ
図２－１

図２－２ＤＮＡを蛍光物質で標識する方法
図２－２

　まず、第一段階のシーケンス反応は、DNAポリメラーゼを使ってDNAを複製させることによって行います。DNAポリメラーゼは、１本鎖のDNAの「鋳型」のそれぞれのヌクレオチドに相補的なヌクレオチドを取り込んで新しいDNA鎖を作る酵素です。この時、通常のデオキシリボヌクレオチド（Deoxyribonucleic acid; dA、dG、dC、dT）に、それ以上DNA鎖が伸長できないジデオキシリボヌクレオチド（Dideoxyribonucleic acid; ddA、ddG、ddC、ddT）を加え、反応を行います。これらのジデオキシヌクレオチドには、異なる色を発光する蛍光物質が付いています（図２－２）。

　このようにすると、鋳型のそれぞれのヌクレオチドに対応する位置に相補的なジデオキシヌクレオチドがランダムに取り込まれますので、全体としては１塩基ずつ長さの異なる合成鎖のセットができます（図２－３）。

図２－３ １塩基ずつの長さの異なる合成鎖

図２－４シーケンスのイメージ
図２－４

　このようにしてできた合成鎖のセットをDNAシーケンサのキャピラリ中で電気泳動（プラスとマイナスの電極の間でDNA分子を泳動させる）させます（図２－４）。DNAは、負に帯電しているので、合成鎖はすべて陽極へ泳動しますが、短いDNA鎖ほど早く、長いものほど時間がかかって遅く泳動します。そこで、キャピラリにレーザ光を当てて蛍光発色の時間（DNAの鎖の長さ）と蛍光の波長（塩基の種類）を検出するのです。これが塩基配列決定の概略です。

シーケンサの写真
シーケンサ

キャピラリの写真
キャピラリ

塩基配列データの処理

読みとった塩基配列データは数百から1,000塩基程度の長さの断片のデータです。上に述べたように、これらの配列データは、もともとゲノムDNAをランダムに切断して得られたショットガンクローンに由来するものですから、その多くは部分的に重複しています。そこでこれらのデータの重複をコンピュータで検出し、もとのゲノムDNAの塩基配列へと再構成していきます。この操作をアッセンブルと言います（図２－５）。

アッセンブルの過程では、ゲノムに散在するいろいろな種類の繰り返し配列の処理が問題になります。不確実な部分などがあった場合には、再度シーケンスを行うほか、アッセンブルの正しさを確認にするために、より大きな断片をもったクローンをシーケンスしてショットガンクローンのデータを位置づけたり、アッセンブルしたデータ間でPCRを行ったりして確認します。

図２－５アッセンブルの操作（素データの塩基配列が重なる部分を並べて塩基配列を連結させ、編集する）
図２－５

塩基配列データの確認

図２－６再構成されたゲノムの電気泳動による確認（複数の酵素（色違いのハサミで酵素の違いを表現）ごとに処理した断片と目安用DNAを電気泳動）
図２－６

　再構成されたゲノムDNAの塩基配列の正確さを実験により確認する場合もあります。その場合には、塩基配列をデータを利用してゲノム上適当な間隔をおいてプライマーを作成し、ゲノムDNAをPCRによって増幅し、それを適当な制限酵素で切断（図２－６：ハサミの色は、制限酵素が異なることを示す）した後、電気泳動により切断パターンを確認します。　

図２－７再構成されたDNAのコンピュータによる確認（複数の酵素（色違いのハサミで酵素の違いを表現）ごとにデータから切断断片の構成想定を行う）
図２－７

　これを塩基配列データから予想されるパターンと比較し、両者が一致すれば塩基配列データが正しく再構成されているとします（図２－７）。

（３）遺伝子領域と機能の推定

遺伝子領域の推定

図３－１推定遺伝子領域の模式図
図３－１

塩基配列のうち、タンパク質として機能していると予想される領域をＯＲＦ（Open Reading Frame：推定遺伝子領域）と呼びます。

ＯＲＦは、開始コドンと呼ばれる３塩基から始まり、終止コドンと呼ばれる３塩基で終わります。また、アミノ酸に対応するコドンも解読されており、ＯＲＦの推定はコンピュータを用いて行います。

推定遺伝子領域の機能推定

ORFをはじめとする塩基配列上の各種の単位の機能を推定し、意味づけすることを「アノテーション」と言います。NITEでは、主にホモロジー（相同性）検索（※３）やモチーフ検索（※４）等によってＯＲＦの機能を推定しています。この検索方法は、すでに研究された生物の遺伝子やタンパク質の機能に関するデータと、手持ちのデータを比較することにより、ORFの機能を推定する方法です。各ORFに対して「予測される機能」を示すことにより、データベースが研究者にとって使いやすいものとなります。

図３－２NITEにて解析された機能未知のORF配列と、国際的なDNAデータベースに保存されている世界中の研究機関で研究された解析データとのパターンマッチングによりORFの機能推定を行う。
図３－２