Matmul Micro-kernels BF16 <- (QAI8DXP) LHS x (QSI4CXP) RHS (!354) · Merge requests · Kleidi / KleidiAI · GitLab

Nikhil Gupta requested to merge int4_bf16_channelwise into main Apr 14, 2025

Matrix multiplication (MxN) Micro-kernels of QAI8DXP LHS and QSI4CXP RHS with BF16 output, optimized for FEAT_I8MM.
Matrix multiplication (1xN) Micro-kernels of QAI8DXP LHS and QSI4CXP RHS with BF16 output, optimized for FEAT_DotProd.

Signed-off-by: Nikhil Gupta nikhil.gupta2@arm.com Signed-off-by: Evie Wright evie.wright@arm.com

Edited Jul 04, 2025 by Evie Wright