AAA

高速化

AVX2命令の horizontal add が matrix multiply に使えて,もっと高速化できそう. ここら辺の知恵ってどっかにまとまってるのかなあ.