restauro_ja

Restauro-G version 2

Overview

「このIDの遺伝子ってどんな機能だっけ? 構造は? 相互作用する他の遺伝子ってあったっけ?」なんて思ったこと、ありませんか? 生物学にはたくさんのデータベースがあり、それぞれ持っている情報が違います。そのIDが所属しているデータベースが目的の情報を持っていればいいですが、もし持ってなければ「他のデータベースへのリンク」を目的の情報が見つかるまで辿っていくことに……。

我々の作ったRestauro-G version 2があれば、そんな悩みを一気に解決できます。対応している1億以上のID、その中のどれでもかまいません。IDがわからないならアミノ酸配列や塩基配列を直接でも大丈夫。その遺伝子に関連する情報を2億4000万以上のLODから高速かつ自動的に検索してくれます。ID一つさえわかっていれば、URLにアクセスするだけでその遺伝子に関する情報が自動的に、高速に、網羅的に収集できます。

たとえばUniProt-KBに所属するRECA_ECOLIについての情報を取得するには、こちらのURLへアクセスするだけ！これだけのデータが簡単に取得できます。

http://rest.g-language.org/annotation/RECA_ECOLI

得られた大量のデータから必要な情報を抜き出すフィルタリングや、Tabular/RDF/Notation3など多様なフォーマット指定も簡単。生物学の大規模なLODから必要な情報を効率的に検索できるサービスです。

http://rest.g-language.org/annotation/RECA_ECOLI/filter=GOslim/format=n3/

@prefix rdfs: <http://www.w3.org/2000/01/rdf-schema#>.
@prefix uniprot: <http://purl.uniprot.org/core/>.
<http://purl.uniprot.org/uniprot/RECA_ECOLI>	rdfs:seeAlso	<http://purl.uniprot.org/go/GO:0005737> .
<http://purl.uniprot.org/uniprot/RECA_ECOLI>	rdfs:seeAlso	<http://purl.uniprot.org/go/GO:0006259> .
<http://purl.uniprot.org/uniprot/RECA_ECOLI>	rdfs:seeAlso	<http://purl.uniprot.org/go/GO:0006950> .
<http://purl.uniprot.org/uniprot/RECA_ECOLI>	rdfs:seeAlso	<http://purl.uniprot.org/go/GO:0048870> .

Examples

http://rest.g-language.org/annotation/GeneID:93986
- GeneID:93986についての情報を収集し、Tabular形式で取得する。
http://rest.g-language.org/annotation/eco:b2029/filter=Structure/format=n3
- KEGGのeco:b2029についてStructureの情報を収集し、Notation3フォーマットで取得する。
http://rest.g-language.org/annotation/MMQESATETISNSSMNQNGMSTLSSQLDAGSRDGRSSGDTSSEVSTVELLHLQQQQALQAARQLLLQQQTSGLKSPKSSDKQRPLQVPVSVAMMTPQVITPQQMQQILQQQVLSPQQLQALLQQQQAVMLQQQQLQEFYKKQQEQLHLQLLQQQQQQQQQQQQQQQQQQQQQQQQQQQQQQQQQQQQQQQQHPGKQAKEQQQQQQQQQQLAAQQLVFQQQLLQMQQLQQQQHLLSLQ
- アミノ酸配列に関して、候補となるUniProt IDと、それに関する情報のテーブルを取得する。
https://gist.github.com/1172846
- アミノ酸配列に関して最も配列類似性の高い遺伝子に関する情報をNotation3で取得するPerlスクリプト。

Usage

Input Value

GENE : あなたが知りたい遺伝子を示すIDか配列をいれてください。 * 配列 : 塩基配列でもアミノ酸配列でもOK。 * 遺伝子ID : 使えるIDのデータベースのリストはここから利用できます。

Optional Value

GENEが遺伝子IDでも配列でも有効 =

/format=[Format]
- 出力のフォーマットを指定します
- 指定なしの場合、ブラウザからのアクセスではHTMLによるテーブル、それ以外ならタブ区切りテキストが返ってきます。
  - /format=txt : タブ区切り
  - /format=n3 : Notation3
  - /format=rdf : RDF
  - /format=html : HTML rich table
/filter=[Filters]
- example: /filter=GOslim
- 使用できるフィルタのリストはここから利用できます。
- 指定がない場合はフィルタリングを行わず、取得できるすべての情報を返します。

GENEが配列の場合のみ有効

/evalue=[E-value threshold]
- default: /evalue=1e-70
/identity=[Identity threshold]
- default: /identity=0.98
- "evalue"および"identity"値はBLATによる配列類似性検索の際のスコアの閾値を指定します。
- 配列類似性検索では、上記パラメータを用いてSwiss-Protに対して検索を行います。
/direct=0
- /direct=1の場合、当該するUniProt IDのうちトップヒットの遺伝子に関する情報を表示します。
- I'm feeling luckyモード。

Available Data

入力として受け付けるIDのリスト : http://rest.g-language.org/annotation/input_list
出力として取得できるIDのリスト : http://rest.g-language.org/annotation/output_list
利用できるフィルタのリスト : http://rest.g-language.org/annotation/filter_list

Architecture

本Webサービスでは生物学データベースによる巨大なLODのLinkネットワークを単純に検索するのではなく、1. ユーザから得られたID/配列をUniProt IDに変換。2. そのUniProt IDから辿ることができるLink情報を収集し、3. そのデータを任意のフォーマットに整形しユーザに提供する、という情報の整理を行うことでより効率的で意味のある情報をより高速にユーザに提供することを可能としています。

Linkネットワークの整理

生物学の分野ではたくさんのデータがLODの形で多数のデータベースに登録されており、その膨大なネットワーク全体をそのまま扱うには計算コストの問題など多数のハードルが存在します。Restauro-G version 2ではこの問題に対して、そのLODネットワークを遺伝子に関するIDを中心に整理することで解決しています。生物学で扱われる情報には遺伝子やタンパク質、RNAといった分子情報に加えてパスウェイやGene Ontologyといった機能情報が存在しており、それぞれが複雑な関係性を持っているためそのLinkが複雑な物になります。しかしこれらの情報はすべて遺伝子の情報に結びつけることが可能であるため、遺伝子IDに関するネットワークに再構築することで、すべての情報を効率的に扱うことが可能です。

Restauro-G version 2では、ネットワークの中心となる遺伝子IDにUniProt IDを選択しています。UniProtは遺伝子 (今回はタンパク質をコーディングしている領域をさすことと定義します) を中心としたデータベースで、Linkネットワークのハブとなりうる大量のcross-referenceを保持しています。さらにそれらの情報は定期的にメンテナンスされている上、すべてのLinkが最低一回は人によるキュレーションが行われた上質な情報だという点をふまえ、本サービスの主キーとして採用しました。

価値のあるデータの提供

Restauro-G version 2はユーザが与えた遺伝子IDと等価なUniProt IDを探して、そのUniProt IDが持つcross-referenceを独自に拡張したデータセットを用意。その情報からユーザが必要とする情報を抽出できるFilterを実装しています。世の中に存在するLODはその質や内容がそれぞれ異なっているため、すべてのLinkが高品質であり、ユーザにとって意味があり、妥当なデータが指し示されているのかが保証できません。このデータの品質がまちまちなLODを「Linkが存在する」という理由で単純に繋げるだけでは、ユーザにとって意味のある"情報"を提供することは難しいと考えられます。

そこで我々は現存するすべてのLODを単純に提供するのではなく、ユーザが必要とするであろう情報に基づいて拡張用のデータセットを厳選し、UniProtに存在しない情報や他のデータベースへのLinkを多く持つデータベースの情報を付加。そこから得られる情報群からユーザが必要な情報だけを抜き出してやる機能を提供しています。こうすることでRestauro-G version 2は単純なLODのデータセットではなく、統一的なキュレーターの下で選択された有益なデータセットから、ユーザの目的に沿った価値の高い"情報"だけを提供することができます。

REST API

本サービスで得られる結果は対象となる遺伝子IDを含んだURIとして一意に定義することができるため、この動的に得られる結果自体をLODとして扱うことができます。RDFやNotation3などのフォーマットを指定すればSemantic Webのフレームワークとシームレスに連携することも可能です。このような形態でサービスを提供することで、Restauro-G version 2はLODのネットワークに対してより利用価値のある拡張を行うことができます。

Update Schedule

Restauro-G version 2では内部データベースを、UniProt-KBの定期アップデート後 (4週間ごと)にアップデートいたします。

Reference

Restauro-G version 2について第2回LODチャレンジデー in 東京で発表させていただいた際のスライドです。 (12~16ページが本Webサービスについての内容になります)

LODを用いたバイオインフォマティクスアプリケーション <iframe src="http://www.slideshare.net/slideshow/embed_code/10447451?rel=0&startSlide=12" width="425" height="355" frameborder="0" marginwidth="0" marginheight="0" scrolling="no"></iframe>

View more presentations from Kazuki Oshita

Related Projects

Contact

Kazuharu Arakawa, Ph.D.

G-language Project Leader Associate Professor

Institute for Advanced Biosciences Keio University

997-0017 Japan Tel/Fax: +81-235-29-0800 gaou@sfc.keio.ac.jp

Provide feedback

Saved searches

Use saved searches to filter your results more quickly