卒研テーマ名）DGX Spark (GB10)におけるBLASベンチマークと混合精度反復改良法実装への応用

DGX Spark (GB10)は20コア Arm CPUとBlackwell GPUを搭載し，両方からアクセスできる128GB RAMを持ったAI開発用ワークステーションである。主としてNVFP4(4bit浮動小数点数)を用いたAIベンチマークは多く見かけられるが，binary32 (float32)やbinary64 (float64)，そしてCUDAがサポートしているbinary128 (float128)の性能については定かではない。非公式情報ではbinary32が29.71TFlops，binary64が464.3GFlopsと，64:1の性能差があるというが，NVIDIAは否定している。

とりあえずCUDAのcuBLASがサポートするSGEMM(binary32)とDGEMM(binary64)の速度を計測し，CPU上ではOpenBLASのSGEMMとDGEMMを実行して速度計測を行う。OpenBLASはArm Neon(128-bit SIMD)とSVE2(～512-bit SIMD）対応しているので，その差もついでに確認しておく。

その結果をもって，CPUとGPUをどのように使えばbinar32-binary64混合精度反復改良法が高速に実現できるかを検討する。

HPCシステムズのベンチマーク結果が出たので，こちらを参照しながら自分の環境でも確認すること。

日	月	火	水	木	金	土
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

共有:

関連