そもそもGRCh37とかhg19とかって何なんだろう

 いや、この辺りのお話をご存知の方にはいきなり酷いタイトルなんですが。

 知らない方向けにちょっとだけ話せば、GRCh37だとかhg19だとかいうのは、シーケンサーとかで得られたゲノム配列をマッピングとかするときに、マッピングするソフトが参照する見本の配列みたいなものです、って適当な知識で適当なことを語ろうとするとなんかどつぼにはまりそうですね……。

 まぁ、何にせよ、いわゆるあちこちで良くやっているようなことと同様に、私も、これらのヒトゲノムのデータファイルをレファレンス配列として、bwaとかで、NGSから出力されたfastqファイルをマッピングする、とかいうこともやっております。
 ……ですが、恥ずかしい話なのですが、そもそもこのデータベースがどんな風に「出来上がっている」のか、というのを深く考えたことがありませんでした。
 いや、サンガーシークエンシングから来てるとかその程度は聞いていましたが、それ以上は考えていなかったとか、そもそもGRCとhgとかがなんで分かれてるのかも考えていなかったとか、今更ながら気づいたというか。
 いや、本当にお恥ずかしい。
 
  で、そもそもこれらの正確な由来や現状とかどんな感じなんだろう(比較とかではなくて、そもそも成り立ちとかそういう方向のやつ)、とぐぐって把握しようとしたのですが、なんとなく察したのはちゃんと英文を読まなきゃダメだな、ということで。
 GRCの公式ページとかをちゃんと読み込んだりする方が結局は早い気がします。
 でもまぁ、そういった勉強は後日として、とりあえず日本語で漁れる情報を漁ってみました。

http://detail.chiebukuro.yahoo.co.jp/qa/question_detail/q1029400045

それは、ヒトゲノムのリファレンスシーケンスというものです。
“GRCh37 reference primary assembly”が、遺伝子の名称を表しているわけではありません。
Genome Reference Consortiumの、humanの、バージョン37の、
コンピューターで塩基配列を組み上げた(assembly)データセットという意味です。
研究の基軸となるヒトゲノム配列は、精度を上げるべく何度も補正解析が行われています。

 なるほど、わかりやすい。
 ……という訳で、基本的にはこういうものな訳ですが、なにかこういった分かりやすい日本語で解説してくださってるところはないかなぁ、と調べていたわけですが。

 ……こんな記事に出会いました。
http://www.roche-diagnostics.jp/news/13/03/07.html

ヒトリファレンスゲノム配列について、ギャップクローズに重要な進捗、新規遺伝子の発見

(中略)

【RP11ゲノムとヒトゲノムリファレンス配列について】

2001年に発表されたヒトゲノムプロジェクト(Human Genome Project=HGP)では、多数の男性と女性ドナーからDNAサンプルを収集し、その中から一部のDNAサンプルのみをDNAリソースとして使用しました。この際ドナー情報は保護されていたため、誰のDNAがシークエンスされたのかはドナーも研究者も知りません。その後品質を考慮して、ヒトゲノムリファレンス配列(現在のGRCh37)のほとんど(〜70%)がHGPおよびゲノムリファレンスコンソーシアム( the Genome Reference Consortium)により作成され、この際使用されたDNAサンプルはニューヨーク州バッファローの匿名男性ドナー1名由来のBACライブラリー*「RP11」でした。

 なるほど!

 記事自体もちょっと面白そうなのですが、それはさておき、とりあえずGRCh37がどんな感じなのか一応把握出来ました。日本語で(重要)

 ……はい、今度もうちょっとちゃんと勉強します。ちゃんと英文ページとかを読んで。
 という訳でそれはまた後日の課題。ということでそのうちまた調べて書きたいですね。