Optimize F32 <- QAI8DXP 1x8 (LHS) x QSI4C32P 8x8 (RHS) for 1x8 sdot (!300) · Merge requests · Kleidi / KleidiAI · GitLab

Michael Kozlov requested to merge 1x8_1x8_int4_sdot_gemv into main Feb 13, 2025

Add new assembly ukernel optimized with FEAT_DOTPROD for matrix multiplication with 1x8 block size.
Update build script.
Add to unit test.

Signed-off-by: Michael Kozlov michael.kozlov@arm.com