Arm CPU向けの可変長精度計算,特にBLASレベルの高速化を希求する。SVEが使える環境は,コンシューマレベルでは2025年2月現在なさそうで,AWSとか不老とか富岳を使う必要があるが,とりあえず128bit SIMDのNEONから対応を考える。比較検討するのは同じく128bitの下記二つ。
- WASM SIMD
- SSE
BNCmatmulの書き換えが必要になりそうだけど,それよりはC++でTemplateライブラリにしてMPBLASに合わせた方が良さげ。
Copilot+PC仕様のWindowsマシン上でWSL環境とかVisual Studio環境がまともに動くようならこれ使うけど,基本,Rasberry Piでいいんじゃないかなと。とりあえず1台買ったので,まずはBNCmatmulのコンパイルができるところまでは持っていくつもり。