PEZYユーザー会議事録
場所、開催日時
2017/1/16
理研和光地区 生物化学研究棟 S310小会議室
参加拠点
京都大学(佐々木様方)
AICS(牧野先生方)
会津大学(中里先生)
理研和光(戎崎先生方)
プログラム
ネコ規模小脳のShoubuによるシミュレーション (電通大 山崎様)
FDPSの現状について (京都大学 細野様)
N体計算について (京都大学 佐々木様)
ゲノム配列相動性検索 (遺伝研 黒川様 PEZY 石川)
PEZY-SC向けFDPS用MD単距離カーネル最適化 (慶應義塾大学 野村様)
PEZYユーザーポータルのご案内(PEZY 坂本)
PEZY-SC2について (PEZY 石川)
ネコ規模小脳のShoubuによるシミュレーション
[pdf-embedder width=640 url=”http://portal.pezy.jp/wp-content/uploads/2017/01/ネコ規模小脳モデルのShoubuでの実装_電通大山崎様.pdf”]
- SCに合わせた最適化をした
- PEにあるローカルメモリはスタックとして使用せず、ほぼスクラッチパッドとして使用した
- シナプスの発火、非発火をビットで表現するようにした
- ビット数え上げ(popcount)をソフトウェア実装した
- スクラッチパッドとして使用していると、スタックが足りなかったので、使用するスレッド数を4スレッドのみに削減
質疑応答
- 報酬系の学習はどのようにする?(AICS 村主様)
- 転倒をせずに歩けたら報酬を与えるとか、遠くまで歩けたら報酬を与えるとかにしている(電通大 山崎様)
- どのように小脳にフィードバックするのか? 微分したりする?(AICS 村主様)
- 報酬を計算する部分は別に用意してあって、それを小脳に渡してあげている(電通大 山崎様)
- ダメなものを省いていって、残ったものはいい、という戦略(電通大 山崎様)
- 転倒をせずに歩けたら報酬を与えるとか、遠くまで歩けたら報酬を与えるとかにしている(電通大 山崎様)
- こういった議論をする上で、なにか読めばいいようなものはある?(理研 戎崎様)
- カンデル神経科学(電通大 山崎様)
- 通信のやりとりというのを削減できるのは、脳に特有のもの?(AICS 村主様)
- ニューロンの発火に対して、シナプスの伝搬が遅いので、1-1で対応させる必要はないようだ(電通大 山崎様)
An_SPH_code_which_works_on_Pezy-SC
[pdf-embedder width=640 url=”http://portal.pezy.jp/wp-content/uploads/2017/01/An_SPH_code_which_works_on_Pezy-SC_細野様.pdf”]
- FDPS 3.0でFortranをサポートした
質疑応答
- 倍精度と単精度でこんなに違うものか?(AICS 戎崎様)
- 9倍も違うのはなぜ?
- 倍精度除算,rsqrtが入っているとかなり遅くなるので、そこがあるとちょっと辛いかも…(PEZY 坂本)
- SCでは倍精度除算、sqrtはソフトウェア実装になっている(PEZY 木村)
- 倍精度はsingle-issue. MADのスループットが8サイクル(PEZY 木村)
- 9倍も違うのはなぜ?
Pezy-SC を用いた重力 N 体計算
(動画が多いためダウンロードしてご覧ください)
ダウンロード
- マルチノードでは、単精度だと粒子の中心点が下に、倍精度だと上にずれていくバグがある
- シングルノードだと発生しない
- (議事録注: その後修正なされたそうです。詳細は資料をごらんください)
- シングルノードだと発生しない
ゲノム配列相動性検索
[pdf-embedder width=640 url=”http://portal.pezy.jp/wp-content/uploads/2017/01/ゲノム配列相同性検索_黒川様_石川.pdf”]
質疑応答
- もっとも時間がかかっている処理はどこか?(KEK 石川様)
- CPUでもっとも重かったのはアライメント処理(PEZY 石川)
- アライメント処理は並列化が聞き、ローカルメモリ等が上手く使えたので高速化ができた(PEZY 石川)
- シードのフィルタリングが次問題になったが、Query分割をしたらそれも問題なくなった(PEZY 石川)
- 現状はシード作成がもっとも重い(PEZY 石川)
- これ以上の最適化はSC2待ち(PEZY 石川)
- CPUでもっとも重かったのはアライメント処理(PEZY 石川)
PEZY-SC向けFDPS用MD単距離カーネル最適化
[pdf-embedder width=640 url=”http://portal.pezy.jp/wp-content/uploads/2017/01/PEZY-SC向けFDPS用MD短距離力カーネル最適化_野村様.pdf”]
質疑応答
- MD側カーネルが遅いように思えるけれど、もう少し早くならないか?(理研 戎崎様)
- だいたい2倍ぐらいはいけそうな気がする(AICS 牧野様)
- 演算よりも転送が遅くなっている(慶應義塾大学 野村様)
- j粒子が重複して転送されているのではないか?(会津大学 中里様)
- FDPSの内部構造を書き換えないと転送を削減することが困難のように見受けられている(慶應義塾大学 野村様)
- FDPS側で粒子を転送するのではなく、インデックスを送るような形のサポートもできるので、今後、そういったインタフェースを作る(AICS 牧野様)
- 転送、転送に必要なデータを集めてくるCPU部分については、SC2で結構変わるはずなので、現状はSC2待ち?(理研 戎崎様)
- SC2になったときに、CPUはXeonよりも遅くなるので、必要なデータを集めてくる処理もデバイスに載せる検討は早めにしておいたほうがいいように思います(PEZY 木村)
- また、その際に必要となるようなドライバのインタフェースがあったら用意します(PEZY 木村)
- リンクドリストがホストCPU – PEZY-SC2で同一ポインタで見えるようなものがあったほうがやりやすい(AICS 似鳥様)
- このあたりについては、今後また詳細を議論するということで(理研 戎崎様)
- SC2になったときに、CPUはXeonよりも遅くなるので、必要なデータを集めてくる処理もデバイスに載せる検討は早めにしておいたほうがいいように思います(PEZY 木村)
PEZYユーザーポータル
[pdf-embedder width=640 url=”http://portal.pezy.jp/wp-content/uploads/2017/01/PEZYユーザーポータルのご案内_坂本.pdf”]
- ユーザーポータルオープンしました(PEZY 坂本)
- 今後、ユーザー会の資料をポータルにて共有します。(PEZY 坂本)
質疑応答
- 登録ユーザーを知りたい(KEK 石川様)
- 了解致しました。登録している人のリストを掲載致します(PEZY 坂本)
- また、ここには載せてほしくない(今後登録される企業の方等)方については、リストには載せないように致します(PEZY 坂本)
- PEZY-SCのコードを公開する(github等で)ようなとき、公開していいのか、公開していいならばどこまでならば公開していいのか、等はどうなっている?(AICS 似鳥様)
- 持ち帰って社内で議論致します(PEZY 坂本)
PEZY-SC2について
[pdf-embedder width=640 url=”http://portal.pezy.jp/wp-content/uploads/2017/01/PEZY-SC2-のご紹介_石川.pdf” title=”PEZY -SC2 のご紹介_石川”]
質疑応答
- LLCはどういった構造になっている?(Fixstars 吉藤様)
- LLCは物理としてはPrefectureに紐付いていて、クロスバースイッチで全体をつないでいるため、レイテンシが物理領域によって異なっています(PEZY 鳥居)
- レイテンシを嫌う場合、物理的に近い領域にデータをおくことはできるのか?(Fixstars 吉藤様)
- インタリーブの設定を変更すれば可能です(PEZY 木村)
- ただし、そもそもそういうインタリーブ構成になっていることを前提としたコードを書く必要があります(PEZY 木村)
- レイテンシを嫌う場合、物理的に近い領域にデータをおくことはできるのか?(Fixstars 吉藤様)
- LLCは物理としてはPrefectureに紐付いていて、クロスバースイッチで全体をつないでいるため、レイテンシが物理領域によって異なっています(PEZY 鳥居)
- インタリーブの設定は変更可能?(理研 戎崎様)
- あくまでドライバが制御しているものなので、ニーズがあればそういうAPIを用意することは可能です(PEZY 木村)
次回ユーザー会について
- 開催時期
- 二月末~三月予定
- 議題
- 今度は格子系、Formura、OpenACC等の話を予定