アライドエンジニアリング

2005年10月11日

解析事例
本ページでは ADVENTURECluster の検証事例などを紹介しています。

Blue Gene 1024 ノードベンチマーク
Blue Geneは,2004 年 11 月,TOP500 で地球シミュレータの 35 TFLOPS を抜いて 70 TFLOPSを出し,首位に立った IBM 製並列コンピュータです。その特徴は,いわゆるPCクラスタが高周波数化の汎用の高性能プロセッサからなるノードを高速なインタコネクトで結んでいるのに対して,発熱量の少ない,低い周波数で動作する新たに開発されたプロセッサを多数用いていることにあります。発熱量はクロックの2乗に比例するため,高密度実装では同じ性能を低い周波数で実現した方が効率的です。Blue Geneの1つの筐体は,高さ2m,長さ1.8m,幅0.9mほどで,大変小さく,空気冷却のため,筐体の側面 (前面) が斜めになっています。

bluegene Blue Gene のチップは,プロセッサコアに32ビット,700MHz の PowerPC 440 を用い,新規に設計した倍精度浮動小数点演算ユニット,通信機能を含む,いわゆるデュアルコア型の ASIC チップです。2枚の ASIC チップがそれぞれ 512MB の DDR DRAM とともにコンピュートカードを構成します。16 枚のコンピュートカードがノードボードを構成し,1筐体は32個のノードボードからなります。これで 2×16×32 = 1024 ノード,デュアルコアを数えると 2048CPU,メモリは合計 512GBです。

CPUのうちの1つを計算用,他を通信用に使用するモードをコプロセッサモード,2つとも計算兼通信に用いるモードを仮想ノードモードと呼びます。コプロセッサモードでは,理論上は 1つの CPU に対して 2重の FPU が作動する場合が最大性能で,2×2×700MHz = 2.8 GFLOPS,仮想ノードモードではこの倍の5.6 GFLOPSがピーク性能になります。1024ノードで,ピーク性能は5.6 TFLOPSです。70 TFLOPSを出した TOP500 のベンチマークでは 16筐体が結ばれたもの (ピーク性能 89.6 TFLOPS) が用いられました。2005 年 6月現在のパフォーマンスは,32 筐体のシステムによる 136 TFLOPS です。

当社では,1筐体からなる Blue Gene を用いて ADVENTURECluster のベンチマークを行いました。仮想ノードモードは,OS のバージョンの関係で用いませんでした。

ADVENTURECluster は非常に良くスケールし,小さな問題でも 1024ノード (1024CPU) で走ります。ここでは実用モデルとしては大きい,9000万自由度の機械部品の弾性解析の結果について述べます。

ADVENTUREClusterの解析アルゴリズムには CGCG 法と,これを強化した CGCG2 というオプションがあります。つぎはこれらのオプションを設定した結果です。9000万自由度という大きな問題がわずか 6〜7 分で解けたことになります。

ソルバCPU数計算時間
(elapsed)
計算時間
(I/O除く)
使用メモリ
(CPU当り)
CGCG1024420 秒249 秒143MB
CGCG21024342 秒171 秒156MB

本解析では,入力が計約 2GB,出力が合計約 11GB の入出力を行っています。出力は各ノードから同時に行っており (各MPIプロセス,つまり各 1024 プロセスが同時に出力命令を出す),ファイルシステムの安定性は高いです。本計算例では I/O の割合が大きいですが,単純な弾性解析で計算負荷が低いためで,CPU 数が多いことを考えると実用的な性能としては十分なものといえます。

並列コンピュータには,従来型の SMP マシン,普及が始まったPCクラスタ,地球シミュレータのようなベクトル型並列機などがありますが,Blue Gene のような専用マシンも出現し,すでに実用レベルになっています。

問い合わせ
お問い合せは
postmaster@alde.co.jp

までお願いします。

解析事例に戻る

(C) 2001-2012 Allied Engineering Corporation. All rights reserved.