みっし～の研究生活: Linuxクラスターアーカイブ

BMB2010でポスター発表してきました

神戸ポートアイランドで開かれたBMB2010（分子生物学会／生化学学会）にてポスター発表をしてきました。

タイトルは「Key-value storeを用いた大規模ゲノムデータ処理の高速化」。 Rubyを使ったデータ検索／処理の話で，カラカラにdryな内容です。

分子生物学会に参加するのは，本当に久しぶりでした。合同大会ということもあり，その規模にびっくりしました。また，カバーする範囲も広く，発表のスタイルも，生化とバイオインフォマティクスではこんなに違うんだなあとおどろきました。

また，ポスター前で，興味をもっていただいた方々をお話できて，舞い上がってしまいました。一方的に話してどうもすみませんでした…。

とにかく，熱気あふれる（ポスター会場は物理的な熱気でしたが），いい学会でした。

投稿者: Hiroyuki Mishima 日時: 00:00 | パーマリンク

Linux HPCクラスターの構築（おまけ）：PubMed収載

時間がかかってしまいましたが，BMC Bioinformaticsの論文が，ようやくPubMedにも収載されたそうです。 PubMedIDは18541045です

が，所属表記に長崎大のメールアドレスがベッタリはってあるではないですか。

あぁ，これで１か月もすれば，こっちのアドレスもSPAMメールのゴミ捨て場の様相を呈するんでしょうか。

Thunderbirdのベイジアンフィルターが，そこそこ賢いので，なんとかなるんですが。

ちなみに，BMC Bioinformatiocsのサイトでは，ユーザー登録しないと，メールアドレスは見られないようになっています。でもこれじゃあ，意味ないですよね。とほほ。

投稿者: Hiroyuki Mishima 日時: 22:34 | パーマリンク | コメント (2)

Linux HPCクラスターの構築（その３）：論文でました

以前のエントリーに書きました，Linux HPCクラスターの構築ですが，その方法と効果をまとめた論文がBMC Bioinformaticsにpublishされました。

Application of the Linux cluster
for exhaustive window haplotype analysis
using the FBAT and Unphased programs

Hiroyuki Mishima, Andrew C. Lidral, and Jun Ni

BMC Bioinformatics 2008, 9(Suppl 6):S10

BMC Bioinformaticsはいま流行の open access journal なので以下より閲覧・ダウンロードできます。

http://www.biomedcentral.com/1471-2105/9/S6/S10

要旨は，exhaustive haplotype analysis（任意の領域のSNP座位に対して，すべてのウインドウサイズや組み合わせで行う徹底的なハプロタイプ分析）では，むちゃくちゃ計算力がいる。かといって，大規模なコンピュータをつかうのは試行錯誤できないし，使いたい，よく知られた十分に検証済みのソフトには，並列化されたのがない。そこで，中古パソコンでつくったRocks Cluster/GridEngine ベースの，安価なHPCクラスタ上で，非並列ソフトのFBATとUniphasedに対して，次々変化させたパラメーターを与えてやることで，意外といい感じに高速化できましたよ，これなら結構お手軽にできるんじゃない？というお話。

というわけで，まずは，アイオワでの最初の論文がでました。よかったよかった。

アイオワでの仕事に関しては，投稿準備中の論文がまだあるので（そのうちひとつは，今回のHPCクラスターを実際に応用した結果について）がんばらなくては……。

続きを読む "Linux HPCクラスターの構築（その３）：論文でました" »

投稿者: Hiroyuki Mishima 日時: 19:00 | パーマリンク

Linux HPCクラスターの構築（その２）

* え，ワタシが作るんですか？

で，件の助教授の先生のところに行き，やりたいことを説明してきました．ワタシのやりたいことを一般化すると，

非並列コードで書かれたコマンドに多数（数百から数百万，あるいはそれ以上）の異なるパラメーターを与えて実行したい．計算結果は互いに独立である．

ということになります．ワタシの説明がおわると，それならば，ということで，コンピュータールームにつれていってくれまして，ＰＣの山を見せてくれました．ほほう，これ用のアカウントを発行してくれるのかと思っていると，

「ここに２３台のPCがあるから，好きなクラスターをくみ上げていいよ．スイッチングハブとケーブルはちゃんとあるから」

といって，やおらパソコンを運び出しはじめるではないですか．いや話が早いのはいいのですが，当初の目論見ははずれ，自分でクラスターを組むことになってしまいました．

* openMosixでは力不足か？

今回のプロジェクトにあたり，図書館でオライリーの High Performance Linux Clusters with OSCAR, Rocks, OpenMosix, and MPI という本を借りてきまして，参考にいろいろ考えたのですが，使いたいプログラムは非並列コードなんで，SSI環境がやりやすいのかな？ということと，日本語ドキュメントの豊富さから，openMosixをまずためしてみることにしました．また，openMosixには，ライブCD-Linuxである ClusterKnoppixをつかうことにより簡単に試すことができるという大きな魅力もあります．

ClusterKnoppixのインストール，運用ですが，これはGoogle先生に聞けば，多くの日本語ページを見つけることができるので，そちらにゆずるとして（というかCDを台数分焼いて，立ち上げるだけ），とにかく８台ほどを試しにスイッチングハブにつなげて立ち上げてみました．

手動で，２０やそこらのプロセスを立ち上げてみると，どうやらうまいことうごいてくれてそうです．しかし，これが１００以上となると，どうもうまくいきません．単純に１００プロセスがたちあがって，それを８つのマシンでのそのそ動かすことになってしまいます．

メーリングリストなどを検索すると，とりあえずシステムデフォルトのbatchコマンドでバッチキューに入れてみろ，とのことなので，やってみました．結果は，どうも，順調に割り振られているようにはみえません．atdデーモンのオプションもいじってみたのですが，次々とジョブが投入されるようにはなってくれません．また，致命的なのは，数百，数千のジョブの投入はbatchコマンドには荷が重すぎるということです．途中でハングアップしてしまうようです．

どうやら，ワタシのやりたい用途には，ちょっとopenMosixは最適とは言えないようです．また，openMosixの開発の終了がアナウンスされましたし，ClusterKnoppixの開発も事実上終了しているということで，どうやらopenMosiixは時代遅れになりつつあるのかもしれません．

そこで，より適したシステムはないかと探していると，ワタシと同じような境遇のヒトの質問をweb上でみつけました．その回答の要点は（１）必要なのは優れたジョブスケジューラー．たとえばGridEngine（後述），（２）GridEngineならRocks Clusterにはじめから入ってるよ，ということでした．

* Rocks Clustersの導入

Rocks ClustersはオープンソースのLinuxディトリビューションで（ここ重要，逆に言うと他のディストロと共存はできない），ベースはCentOS（RedHat Linux Enterprise Editionをフリーにしたもの，もちろんRedHatのサポートはない）になっています．現在も活発に開発が続いています，先日NSFのグラントが当たったとのニュースが流れましたので，さらに開発が加速するんではないかと思います．

Rocks ClustersにはGridEngineが含まれています．GridEngine（旧称Sun Grid Engine [SGE]）と呼ばれる，Sun主導で開発されているフリーのジョブスケジューラーシステムです．Sunはこれと全く同機能のものに，いくつか独自の品質管理工程とサポートサービスを加え，あるいは各国語にローカライズして，N1 GridEngineとして商業化しています，N1 GridEndineとしては，すばらしいことに日本語ドキュメントも公開しています

Rocks Clustersについては，日本語のドキュメントが少ないような気がします．これは国産の SCoreの存在も大きいんではないかと思います．おそらくSCoreはワタシの要求にすべて答えてくれるんではないかと思います．またSCoreには巫女ぐにょLinuxというライブCDもありますんで，なおさら選択肢としては有力なのですが，ここはアメリカですんで，素直にRocks Clustersを採用することにしました．しかし，実際に巫女ぐにょをつかったら，説明がむずかしいだろうなあ（「コミックマーケットっていうコンベンションでリリースされるディストロでして」とか，うーんクール）．

* Rocks Clustersインストールの注意点

インストールそのものは簡単・・・なのかもしれませんが，ハマりどころ満載です．詳しいところはドキュメントを参考にしていただくとして，以下に箇条書きに落とし穴について書いておきます．というか，今回長々と書き始めたのは，以下のにがーい経験を広く知らしめるためなのでした．

Frontend nodeには必ずNICが２枚さされていなくてはならない．eth0がクラスター内部，eth1が外部ネットワークとの接続に使われる．
Frontend nodeには必ずFQDN・静的IPアドレスが割り振られてなくてはならない．インストール時にDHCPに問い合わせに行くので，うまくいくかと思ったが，これだと再起動後に破綻する．たぶんDNSを入力する手間を省くためじゃないかと思われる．
（追記） 少なくともFrontend nodeには1GB以上のメモリを搭載している必要がある。また，Compute nodesは最低512MBのメモリが必要。さもなければ，インストール中にカーネルパニックを起こす。
Roll（追加パッケージ）は，何も言わずに全部入れる．一部インストール後の追加が不可能なものがある．Gangliaとか．なんでもいいけどRocksとRollって，Rock'n Rollって言いたいのか？
デュアルブートとか余計なことを考えない．デフォルトのパーティション設定に任せる．ディスクレスノードはサポートされてない．
ネットワーク関係のインストール後の手動再設定は困難を極める．そういうときは迷わず再インストールする．
ドキュメントは，やっぱりあまり親切じゃない印象をうける．が，メーリングリストがものすごく活発なので，メーリングリストの検索でかなりの部分の疑問が解決する．

次回は，Rolls Clusters導入後のいろいろについて書きたいと思います．

投稿者: Hiroyuki Mishima 日時: 22:50 | パーマリンク

Linux HPCクラスターの構築（その１）

最近，このブログに対する，全世界のファンからのトラックバックが急増しています．なにやら文面が似たようなものばかりなのが気になりますが，ありがたく・・・ねぇよ！Movable Type のSPAM排除機構もいまいちのようで，Captcha（ねじれた文字を認識させることで，botによる自動送信を排除する）とか導入したほうがいいんでしょうけども．．．あとでしらべとこ．

さてさて，ひさびさのblog更新ですが，しばらく，ほとんど自分のためのメモですが，分からない人（ほとんど）を置いてゆく，マニアックなお話をしたいと存じ奉り候．

* ぼくたちには計算力が足りない

ワタクシ，こちらにきてから，仕事上，遺伝統計学パッケージを日常的につかっているのですが，モノに依っては計算力不足を如実に感じるようになってきました．最近一番よく使うのはAssociation Study用のプログラムUNPHASEDです．

UNPHASEDは，確定しないハプロタイプの情報も捨てずに使うため，ハプロタイプ相関分析に力を発揮します． allwindow（10マーカーなら，連続した［スライディング］マーカーを含むウインドゥサイズを１から10までに変化させる）や， allcombination（全体から，1～10マーカーを選ぶすべての組み合わせ）をためすことで，効果的に原因遺伝子の候補領域をせばめることができる．．．とワタシは理解しています．

ただですね．「組み合わせ」という言葉で想像されるように，マーカーの数が増えると，指数関数的に計算量が増えるのが問題です．「ハプロタイプ」がそもそも組み合わせですし，ウインドウも組み合わせ．２０マーカーのallwindow/allcombinationのウインドゥの数なんて 2^20-1=１００万以上ですよ奥さん！こんなものをWindows上では動かせないし（３日で落ちた）． Pentium4 3.6GHzのLinux (Debian) boxだって，１か月じゃすみません．

* コンピュータークラスター

こういった計算をやらせるのは，コンピュータークラスターに限る！と目をつけて勉強をはじめましたが，ここでまず「クラスター」ということばに複数の概念が混ざっていることで，当初混乱してしまったのです．「Linuxクラスター」ってのはLinuxベースの複数のマシンを組み合わせて，何らかの目的に使うということですね．で，その種類は「HAクラスター（高可用性クラスター，別名ノンストップクラスター）」「負荷分散クラスター（webサーバーなどの負荷分散，Googleのサーバーとか）」などがあり，これは僕が今回必要なものとはちょっと違う．最後が「HPC (High Performance Computing)クラスター（いわゆるスーパーコンピューターの類）」です．これが本稿で扱うクラスター．この辺の分類の理解ができるまで，Google様に翻弄されていたワタシなのでした．

* Linux HPCクラスター

いまスタンダードなのはLinuxをベースにしたHPCクラスターシステムです．これには大きく２つの方法がある（と理解してます）．

まずSSI （Single Server Image）クラスター．具体的には openMosixや OpenSSI， Kerrighed なんかが代表的なソフトウェアパッケージです． SSIはユーザーからみると大きなな一つのSMPマシン（複数のプロセッサをもつマシン）に見えるのが特徴です．openMosixしか知らないので，これがSSI一般なのかわからないのですが，とにかく，プログラムを走らせて，一定時間経過すると，OSが勝手に負荷の軽いシンにプロセスをmigrate（移住？）させてくれます．結果は何事もなかったように最初のマシンに戻ってきます．クラスターの各ノードは平等で，どのノードから実行しても，うまくやってくれる・・・ようです．

次がいわゆるBeowulf型クラスター．「普通の」クラスターはこっちを差します．基本的にはFrontend（マスターノード）からジョブを投入して，専用のノード間通信ライブラリ（MPIなど）を使って書かれたプログラム（並列プログラム）を使い，各ノードで分散計算をさせます．並列プログラムは必須というわけではないようです（後述）．パッケージとしては OSCAR, 国産のSCore （すごい名前で有名なライブCD-Linux 巫女ぐにょLinux も採用）. Rocks Clusters などがあります．

*さてクラスターはいずこ

と，ここまで勉強して，University of Iowa内で使えるクラスターはないかいな？と検索していますと，ITS Reserach Serviceというところに「Linuxクラスターがあるよん」という情報がありました．これ幸いと，問い合わせのメールを書くと，テクニカルディレクターの助教授の先生が会ってお話しましょう，とのこと．早速，お話に行ってきました・・・・・が，そこには驚愕の事実が！待て次号！

続きを読む "Linux HPCクラスターの構築（その１）" »

投稿者: Hiroyuki Mishima 日時: 07:55 | パーマリンク

みっし～の研究生活

アメリカ・アイオワ研究留学後も研究生活を続ける三嶋博之の近況報告やアレやコレ

2010年12月16日