Skip to content

restgenomeanalysisjapanese

gaou edited this page Nov 19, 2020 · 19 revisions

はじめに

G-languageゲノム解析WEBサービスの使用例を紹介します。ソフトウエアのインストールは不要です。ウェブブラウザさえあれば誰でも簡単にゲノム解析ができます。

例えば、大腸菌Escherichia coli (ecoli) ゲノムの基本情報を見たい時は、URLに http://useG.jp/ecoli と入力するだけです。

recA遺伝子の情報を取得するには http://useG.jp/ecoli/recA と入力します。

開始コドン周辺の塩基配列の保存度を調べるには http://useG.jp/ecoli/base_entropy と入力します。

コドン使用頻度を計算するには http://useG.jp/ecoli/codon_usage と入力します。

ゲノムの領域毎にG+C含量を計算するには http://useG.jp/ecoli/gcwin と入力します。

ゲノムの領域毎にGC skew (C-G)/(C+G) を計算するには http://useG.jp/ecoli/gcskew と入力します。

手法のヘルプを見るには

http://useG.jp/[method]

と入力します。

例えば、関数 gcskew のヘルプを見るには http://useG.jp/help/gcskew と入力します。

手法の詳細は、Arakawa K et al. (2008)を参照してください。

基本URL
参考URL

以下では、ファイルのロード、ゲノム・遺伝子情報の取得、コンセンサス解析、DNA複製系の解析、塩基組成・アミノ酸組成・コドン使用の解析方法を紹介します。

ファイルのアップロード

手元にあるゲノムファイルをアップロードするには http://rest.g-language.org/upload/ にアクセスします。[ファイルを選択]ボタンを押し、ファイルを選択した後、[送信]ボタンを押してください。アップロードしたファイルに対して、ユニークなID(例えば、A8B10E)が返されます。このIDを使って解析をすすめることができます。

ゲノム情報の取得

利用可能なゲノム一覧 (http://rest.g-language.org/organism_list/) には、NCBIのACCESSION番号と生物のDEFINITIONが記載されています。

ACCESSION  DEFINITION                    
NC_000913  Escherichia coli str. K-12 substr. MG1655 chromosome, complete genome.

ゲノムの基本情報を取得するには

  http://rest.g-language.org/[ACCESSION]

と入力します。 例えば、大腸菌 (NC_000913) のゲノムの基本情報を取得するには http://rest.g-language.org/NC_000913 と入力します。ゲノムサイズ(Length of Sequence)やG+C含量(GC Content)などの情報が出力されます。

ACCESSIONの代わりに略名を入力できるゲノムを以下に列挙します。

  ACCESSION Genome                      (略名)
  NC_000913 Escherichia coli K12 MG1655 (ecoli) 
  NC_000964 Bacillus subtilis           (bsub)
  NC_000908 Mycoplasma genitalium       (mgen) 
  NC_005070 Synechococcus sp.           (cyano)
  NC_003413 Pyrococcus furiosus         (pyro)
  NC_001318 Borrelia burgdorferi B31    (bbur)
  NC_002483 Plasmid F                   (plasmidf)
  NC_001416 Enterobacteria phage lambda (lambda)

大腸菌(ecoli)の分類学的情報を得るには http://rest.g-language.org/ecoli/TAXONOMY と入力します。全階級 (0, all), ドメイン (1, domain), 門 (2, phylum), 綱 (3, class), 目 (4, order), 科 (5, family), 属 (genus), 種 (species) が表示されます。

遺伝子情報の取得

Plasmid F (plasmidf) のrepB遺伝子の情報を取得するには http://rest.g-language.org/plasmidf/repB と入力します。

G-languageはゲノムの各遺伝子にFEATURE番号とCDS番号を与えます。例えば、repB遺伝子のFEATURE番号は110、CDS番号は35です。

  'feature' => 110,
  'cds' => 35,

以下のようなゲノム上の遺伝子コード領域の情報が得られます。

  'start' => '36643'
  'end' => '37620',
  'direction' => 'complement',

repB遺伝子の領域は、ゲノムの座標 36643 (bp) から 37620 (bp) の相補鎖 (complement) に存在することを意味します。

以下のような機能注釈(アノテーション)情報が得られます。

  'product' => 'replication initiator protein',
  'note' => 'binds to repeated iterons in RepFIB',

以下のような遺伝子のIDが得られます。

  'protein_id' => 'NP_061412.1',
  'db_xref' => 'GI:9507746	GeneID:1263561',

G-Linksに遺伝子のIDを与えると、様々なデータベース (GO, KEGG, Pfam, PubMed, UniProtKB など) から情報を取得してくれます。 以下のように入力します。

repBのアミノ酸配列を出力するには http://rest.g-language.org/plasmidf/repB/translation と入力します。

repBの塩基配列を出力するには http://rest.g-language.org/plasmidf/repB/get_geneseq と入力します。

repBの上流200塩基の配列を出力するには http://rest.g-language.org/plasmidf/repB/before_startcodon/200 と入力します。

全タンパク質の機能注釈情報 (product) を出力するには http://rest.g-language.org/plasmidf/*/product と入力します。

"replication"の記載を含む機能注釈情報 (product) を出力するには http://rest.g-language.org/plasmidf/product=replication/product と入力します。

FASTA形式で配列を出力

大腸菌 (NC_000913) の配列をFASTA形式で出力するには以下のようにします。

rRNA遺伝子の情報の取得

大腸菌 (NC_000913) のrRNA配列は以下のように取得できます。

パターン検索

塩基配列のパターン検索を実行する関数群(PatSearch)として、oligomer_search関数やpalindrome関数が用意されています。例えば、inverted repeat (5' TTACGnnnnnnCGTAA 3')とパリンドローム配列 (5' TTACGCGTAA 3')を検索する方法は以下の通りです。

大腸菌ゲノム (ecoli) でオリゴマー TTACGCGTAA が存在する位置を調べるには http://rest.g-language.org/ecoli/oligomer_search/TTACGCGTAA と入力します。出力結果は以下の通りです。

  209570,1164188,1443204,1934579,2167198,2919269,4203297

inverted repeat: TTACGnnnnnnCGTAA を検索して、位置と配列の両方を表示させるには http://rest.g-language.org/ecoli/oligomer_search/TTACGnnnnnnCGTAA/return=both と入力します。出力結果は以下の通りです。

  843936,ttacgaaacagcgtaa,3112312,ttacgcacaggcgtaa

ヘルプページ (http://rest.g-language.org/help/oligomer_search) にあるように、塩基の縮重コード表記("grtggngg")や正規表現("g[ag]tgg[a-z]gg")を使用できます。

プラスミドF (plasmidf) で10bp以上のパリンドローム配列を検索するには http://rest.g-language.org/plasmidf/palindrome/shortest=10 と入力します。

コンセンサス解析

転写開始点やリボソーム結合部位 (原核生物のShine Dalgarno配列や真核生物のKozak配列) といったコンセンサス配列の保存度を解析するのに、情報理論のエントロピー (entropy) が利用されています (Arakawa K et al., 2008)。エントロピーは、4つの塩基 (A, T, G, C) が均等に出現する場合に最大値の2を示し、1つの塩基だけが出現する場合に最小値の0を示します。

大腸菌 (ecoli) で開始コドン周辺のエントロピーを計算するには http://rest.g-language.org/ecoli/base_entropy と入力します。 開始コドンATGとShine Dalgarno配列が保存されているため、position=0とposition=-10付近でエントロピー(不確かさ)が減少しています。

ヘルプ (http://rest.g-language.org/help/base_entropy) にあるようにデフォルトでは開始コドン (position=start) の上流30塩基 (upstream=30) と下流30塩基 (downstream=30) のエントロピーをグラフ出力します (output=show)。

以下の使用例も試してみてください。

DNA複製系の解析

複製鎖間の変異圧や選択圧の違いにより、リーディング鎖はGとTの塩基が過剰に、ラギング鎖はCとAの塩基が過剰になると考えられています (Arakawa K et al., 2008)

大腸菌 (ecoli) ゲノムでGC skew (C-G)/(C+G) を計算するには http://rest.g-language.org/ecoli/gcskew と入力します。GC skewのシフトポイントはDNA複製の開始点と終止点に対応しています。

ヘルプ (http://rest.g-language.org/help/gcskew) にあるようにデフォルトでは10,000bpウインドウ (window=10000) 毎にGC skewを計算してグラフ出力します (output=show)。

CSV形式でファイル出力させるには http://rest.g-language.org/ecoli/gcskew/output=f と入力します。

ウインドウサイズを100,000bpにしてGC skewを計算するには http://rest.g-language.org/ecoli/gcskew/window=100000 と入力します。

AT skew (A-T)/(A+T) を計算するには http://rest.g-language.org/ecoli/gcskew/at=1 と入力します。

累積GC skewを計算するには http://rest.g-language.org/ecoli/gcskew/cumulative=1 と入力します。 ゲノムの座標3.9(Mbp)と1.5(Mbp)は、累積GC skewが最大値と最小値をとり、DNA複製の開始点と終止点に対応しています。

累積GC skewの明瞭さの程度を測るGC Skew Index (GCSI) を計算するには、 http://rest.g-language.org/ecoli/gcsi と入力します。大腸菌ゲノムではGCSI = 0.09666を示します。

累積skewに基づいてDNA複製の開始点 (Origin) と終止点 (Terminus) を予測するには http://rest.g-language.org/ecoli/find_ori_ter と入力します。

大腸菌で実験的に確認されているDNA複製の開始点 (Origin=3924034) と終止点 (Terminus=1588773) を取得するには http://rest.g-language.org/ecoli/rep_ori_ter と入力します。実験データがない場合には、関数rep_ori_terは、関数find_ori_terで予測された座標を返します。

ゲノムの異なる領域(全ゲノム、コード領域、遺伝子間領域、コドン3文字目)のGC skewを計算するには http://rest.g-language.org/ecoli/genomicskew と入力します。

dnaA遺伝子 (http://rest.g-language.org/ecoli/dnaA) が複製開始点の近くにあることを確認しましょう。

DnaAタンパク質が特異的に結合する配列 dnaA box (5'-TT A/T TNCACA-3') を探索するには http://rest.g-language.org/ecoli/find_dnaAbox と入力します。

プラスミドのiteron (5'-TGAGGG G/A C/T-3') を指標に複製開始点を探索するには http://rest.g-language.org/plasmidf/find_iteron と入力します。

塩基組成の解析

ゲノム領域毎のG+C含量の解析

ゲノムのG+C含量 (G+C)/(A+T+G+C) は、様々な因子(ゲノムサイズ、酸素要求性、窒素利用能、生育温度、自由生活性か否か等)と相関を示します (Hildebrand F et al., 2010)。ゲノム内のG+C含量の変動は、外来性遺伝子クラスター (genomic islands) の検出に利用されています (Karlin S., 2001)

Mycoplasma genitalium (mgen) ゲノムで領域毎にG+C含量を計算するには http://rest.g-language.org/mgen/gcwin と入力します。 ウインドウサイズをデフォルトの10,000bpから1,000bpに変更するには http://rest.g-language.org/mgen/gcwin/window=1000 と入力します。

オリゴヌクレオチド組成の解析

Genomic signatureは、オリゴヌクレオチド (2連続塩基や3連続塩基) の観測度数/期待度数と定義されます。Genomic signatureは、生物のDNA複製・修復系に特異的な変異圧により決定されると考えられ、生物の分類やプラスミドの宿主予測に利用されています (Campbell A et al., 1999)(Suzuki H et al., 2008)(Suzuki H et al., 2010)

M. genitalium (mgen) ゲノムの2連続塩基組成を計算するには http://rest.g-language.org/mgen/signature と入力し、 3連続塩基組成を計算するには http://rest.g-language.org/mgen/signature/wordlength=3 と入力します。

遺伝子の塩基組成の統計量

M. genitalium (mgen) の各遺伝子の塩基使用に関する統計量 (Base Usage Indices; bui) を計算するには http://rest.g-language.org/mgen/bui と入力します。以下の統計量が得られます。

  • acgt: A + T + G + C
  • ryr: purine/pyrimidine ratio (A + G)/(T + C)
  • gcc: G+C content (G + C)/(A + T + G + C)
  • gcs: GC skew (C - G)/(C + G)
  • ats: AT skew (A - T)/(A + T)

コドン3文字目の塩基だけ計算に含めるには http://rest.g-language.org/mgen/bui/position=3 と入力します。

ゲノム上の遺伝子の位置を表示させるには http://rest.g-language.org/mgen/bui/tag=start と入力します。tagオプションには、'start', 'end', 'gene', 'product', 'locus_tag', 'protein_id', 'db_xref'などのキーを指定できます。

アミノ酸使用の解析

アミノ酸使用頻度の解析

M. genitalium (mgen) における全タンパク質の累積アミノ酸使用の絶対度数(A0)と相対度数(A1)を計算するには、以下のように入力します。

アミノ酸使用の統計量

各タンパク質のアミノ酸使用に関する統計量 (Amino Acid Usage Indices; aaui) を計算するには http://rest.g-language.org/mgen/aaui と入力します。以下の統計量が得られます。

  • Laa: length in amino acids アミノ酸配列の長さ
  • ndaa: number of different amino acids アミノ酸の種類数(最大20)
  • aroma: relative frequency of aromatic amino acids 芳香族アミノ酸の相対度数
  • gravy: mean hydropathic indices of each amino acid 平均疎水度
  • mmw: mean molecular weight 平均分子量
アミノ酸使用データの多変量解析

タンパク質間のアミノ酸使用の変動要因を同定するために、多変量解析手法 (対応分析や主成分分析) が利用されています(Lobry JR et al., 1994)(Zavala A et al., 2002)。例えば、M.genitalium (mgen) でアミノ酸使用データの対応分析を実行するには http://rest.g-language.org/mgen/codon_mva/method=coa/data=A0  と入力します。第1軸はgravy (平均疎水度) と高い相関(r = 0.8585)を示し、内在性膜タンパク質 (integral membrane protein) と他のタンパク質を分ける軸と解釈できます。

コドン使用の解析

コドン使用は、生物間やゲノム内の遺伝子間で違いが認められ、複合的な要因(G+C含量、複製鎖間の違い、遺伝子発現量の違い)を反映します (Arakawa K et al., 2008)。コドン使用の情報は、水平伝播遺伝子や遺伝子発現量の予測に利用されています。

コドン使用頻度の解析

コドン使用データは以下のように様々な形で表現されます。

標準出力は http://rest.g-language.org/plasmidf/codon_compiler/data=R0/output=stdout で得られます。

repB遺伝子のコドン計数値を計算するには http://rest.g-language.org/plasmidf/repB で得られるFEATURE番号 ('feature' => 110) を次のように入力します。 http://rest.g-language.org/plasmidf/codon_compiler/data=R0/output=stdout/id=FEATURE110

同義コドン使用の多様度

遺伝子間の同義コドン使用の多様度測定に、遺伝子間の平均距離 (Dmean) を計算できます(Suzuki H et al., 2009)。例えば、Plasmid F (plasmidf) のDmeanを計算するには http://rest.g-language.org/plasmidf/Dmean と入力します。

同義コドン使用の均等度

コドン均等使用からの逸脱度を測る測度として、ENC (Effective Number of Codons)、SCS (Scaled Chi-Square)、CBI (Codon Bias Index)、ICDI (Intrinsic Codon Deviation Index)Ew (weighted sum of relative entropy)などが利用できます。例えば、Plasmid F (plasmidf) で各遺伝子のENC、SCS、CBI、ICDI、Ewを計算するには以下のように入力します。

遺伝子発現量の予測

コドン使用に基づいて遺伝子の発現量を予測する手法には、P2 indexFop (Frequency of OPtimal codons)CAI (Codon Adaptation Index)tAI (tRNA adaptation index)PHX (Predicted Highly eXpressed)などがあります。例えば、大腸菌 (ecoli) でP2、Fop、CAI、tAI、PHX解析を行うには以下のように入力します。

遺伝子のlocus_tagの代わりにproduct (機能注釈情報) を表示するには http://rest.g-language.org/ecoli/cai/tag=product と入力します。

P2は、コドン・アンチコドン相互作用の効率の指標となり、高発現遺伝子はP2値が高い (P2 > 0.7) ことが報告されています。

Fopは、全コドンに占める適合コドン (optimal codon) の割合と定義され、0 (適合コドンなし) から1 (適合コドンのみ) までの値をとります。デフォルトでは、翻訳適合コドンが全ての種で同じと考えられる4種類のアミノ酸 (Phe, Tyr, Ile, Asn) (Sharp PM et al., 2005) のみを計算に含めます。

CAIは高発現遺伝子のコドン使用に類似しているほど値が1に近づきます。

PHX解析では、全遺伝子のコドン使用からの差 (BgC) が大きく、高発現遺伝子のコドン使用からの差 (BgH) が小さく、発現量予測値 (E_g = BgC/BgH) が1.05より大きい遺伝子を高発現と予測します (phx = 1) 。高発現遺伝子群は、翻訳伸長因子 (elongation factor) やリボソームタンパク質 (ribosomal protein) をコードする遺伝子群を含みます。また、コドン使用が全遺伝子と高発現遺伝子の何れとも異なる遺伝子を外来性 (Putative Alien; PA) と予測します (pa = 1) 。標準出力させるには http://rest.g-language.org/ecoli/phx/output=stdout と入力します。

CAIやPHX解析で得られた値は、ゲノム毎の高発現遺伝子に基づいているので、ゲノム間で単純に比較できないことに注意してください。

翻訳選択 (Translational selection) の検出

コドン使用に翻訳の効率・正確度を高める自然選択 (Translational selection) が働かなくて、高発現遺伝子群と他の遺伝子群との間でコドン使用に差がないゲノムでは、コドン使用から遺伝子発現量を予測できないことに注意してください (Henry I and Sharp PM, 2006)

翻訳選択の程度を測るのに、S (Strength of selected codon usage bias)を利用できます。Sharp PM et al. (2005)が選んだ40個の高発現遺伝子群 (翻訳伸長因子とリボソームタンパク質; tufA, tsf, fusA, rplA-rplF, rplI-rplT, rpsB-rpsT) に基づいて、S値を計算するには http://rest.g-language.org/ecoli/S_value/sharp=1 と入力します。大腸菌 (ecoli) や枯草菌 (bsub) は高いS値を示す (翻訳選択が強い) のに対して、B.burgdorferi (bbur) や M.genitalium (mgen) は低いS値を示す (翻訳選択が弱い) ことを確認しましょう。増殖の速い菌は、rRNAとtRNAの遺伝子コピー数が多く、高いS値 (S > 1.0) を示す傾向があります(Sharp PM et al., 2005)

多変量解析 (対応分析や主成分分析) により翻訳選択が働いたか否かを判定する方法を次に説明します。

コドン使用データの多変量解析

 遺伝子間の同義コドン使用の変動要因を同定するために、多変量解析手法である対応分析や主成分分析が用いられています。対応分析では、同義コドン使用の変動を覆い隠すバイアス (アミノ酸組成やコドン縮重度) の影響を受けない群内対応分析 (Within-group Correspondence Analysis; WCA) の利用が推奨されます(Suzuki H et al., 2008)

  • 大腸菌 (ecoli) でWCAを実行するには http://rest.g-language.org/ecoli/codon_mva  と入力します。解析結果の散布図が表示されます。WCAで得られる第1軸〜第4軸の値 (Comp1 to Comp4) を縦軸に示し、縦軸との相関が最大の統計量 (gcc3, gtc3) を横軸に示しています。赤○は(リボソームタンパク質や翻訳伸長因子をコードする)高発現遺伝子群を、黒×は他の遺伝子群を示しています。第1軸 (寄与率20.8%) は、gcc3(コドン3文字目のG+C含量)と高い相関 (r = 0.70) を示し、「G+C含量を決定する変異圧の違いを表す軸」あるいは「ゲノムG+C含量の異なる生物種由来の水平伝播遺伝子群と他の遺伝子群を分ける軸」と解釈できます。第2軸 (寄与率9.9%) は、高発現遺伝子群の標準得点の平均値が大きい (z = 3.14) ので、「高発現遺伝子群と他の遺伝子群を分ける軸」と解釈できます。このことは、翻訳選択 (Translational selection) が働いたことを示唆します。なお、対応分析や主成分分析で得られる軸の符号は反転してもかまいません。
  • B. burgdorferi (http://rest.g-language.org/bbur/codon_mva) では、第1軸がgtc3 (コドン3文字目のG+T含量) と高い相関 (r = 0.96) を示し、遺伝子間の同義コドン使用の主たる変動要因は「複製鎖 (リーディング鎖とラギング鎖) 間の変異圧の違い」と解釈できます。G+T含量は、リーディング鎖で高く、ラギング鎖で低いからです。ゲノムのストランドバイアス (塩基組成の複製鎖間差) を GC skew (C-G)/(C+G) (http://rest.g-language.org/bbur/gcskew) と AT skew (A-T)/(A+T) (http://rest.g-language.org/bbur/gcskew/at=1) により確認しましょう。
  • M. genitalium (http://rest.g-language.org/mgen/codon_mva) では、第1軸がgcc3 (コドン3文字目のG+C含量) と高い相関 (r = 0.96) を示し、遺伝子間の同義コドン使用の主たる変動要因は「ゲノム内の変異圧の違い」と解釈できます。ゲノムの領域毎のG+C含量 (http://rest.g-language.org/mgen/gcwin) の違いを確認しましょう。

解析結果を標準出力させるには http://rest.g-language.org/mgen/codon_mva/output=stdout と入力します。 各軸の寄与率 (%) に加え、各軸と各統計量 (Laa, aroma, gravy, mmw, gcc3, gtc3, P2) の相関係数が出力されます。

主成分分析 (Principal Component Analysis; PCA) では、同義コドン使用の変動を覆い隠すバイアス (配列の長さ、アミノ酸組成、コドン縮重度) に影響されないコドン使用データ (R4) の利用が推奨されます(Suzuki H et al., 2005)。 M. genitalium (mgen) でR4データに対してPCAを実行するには http://rest.g-language.org/mgen/codon_mva/method=pca/data=R4 と入力します。

Clone this wiki locally