From 065fb73f8e4f4f95f511a17612ab9d0646d424f6 Mon Sep 17 00:00:00 2001
From: Jakub Sujak <jakub.sujak@arm.com>
Date: Fri, 29 Nov 2024 09:33:12 +0100
Subject: [PATCH] Contain SME2 assembly inside SMSTART/SMSTOP boundary

Regenerate the SME2 GEMV micro-kernel assembly so that it is contained within the SMSTART/SMSTOP boundary, preventing illegal instruction faults when attempting to execute streaming SVE code on a system without SVE support.

Signed-off-by: Jakub Sujak <jakub.sujak@arm.com>
---
 ...lamp_f32_f32_f32p16vlx1b_1x16vl_sme2_mla.c | 371 +++++++++---------
 ...clamp_f32_f32_f32p2vlx1b_1x16vl_sme2_mla.c | 310 +++++++--------
 2 files changed, 317 insertions(+), 364 deletions(-)

diff --git a/kai/ukernels/matmul/matmul_clamp_f32_f32_f32p/kai_matmul_clamp_f32_f32_f32p16vlx1b_1x16vl_sme2_mla.c b/kai/ukernels/matmul/matmul_clamp_f32_f32_f32p/kai_matmul_clamp_f32_f32_f32p16vlx1b_1x16vl_sme2_mla.c
index 563d84a3..47f9f330 100644
--- a/kai/ukernels/matmul/matmul_clamp_f32_f32_f32p/kai_matmul_clamp_f32_f32_f32p16vlx1b_1x16vl_sme2_mla.c
+++ b/kai/ukernels/matmul/matmul_clamp_f32_f32_f32p/kai_matmul_clamp_f32_f32_f32p16vlx1b_1x16vl_sme2_mla.c
@@ -91,45 +91,44 @@ void kai_run_matmul_clamp_f32_f32_f32p16vlx1b_1x16vl_sme2_mla(
     uint64_t flags = 0;
 
     __asm__ __volatile__(
-        "ptrue p8.b\n"
         ".inst 0xd503477f  // SMSTART ZA\n"
         "mov x9, #0x0\n"
-        "cntw x27, ALL, MUL #4\n"
-        "mov x26, %x[B_ptr]\n"
-        "add x25, %x[N], x27\n"
-        "mov x24, %x[output_ptr]\n"
-        "sub x25, x25, #0x1\n"
+        "mov x27, %x[B_ptr]\n"
+        "cntw x26, ALL, MUL #4\n"
+        "mov x25, %x[output_ptr]\n"
+        "add x24, %x[N], x26\n"
         "ptrue p1.b\n"
-        "udiv x25, x25, x27\n"
+        "sub x24, x24, #0x1\n"
         ".inst 0x25207811  // ptrue pn9.b\n"
-        "add x22, x25, #0x3\n"
-        "mov x21, #0x1\n"
-        "and x22, x22, #0xfffffffffffffffc\n"
-        "mul x22, x22, x27\n"
-        "mul x22, x22, %x[K]\n"
-        "lsl x22, x22, #0x2\n"
+        "udiv x24, x24, x26\n"
+        "mov x22, #0x1\n"
+        "add x21, x24, #0x3\n"
+        "and x21, x21, #0xfffffffffffffffc\n"
+        "mul x21, x21, x26\n"
+        "mul x21, x21, %x[K]\n"
+        "lsl x21, x21, #0x2\n"
         "1:"  // RHS size check loop
-        "cmp x22, #0x200000\n"
+        "cmp x21, #0x200000\n"
         "blt 2f\n"
-        "tbnz x22, #0, 3f\n"
-        "lsr x22, x22, #0x1\n"
-        "lsl x21, x21, #0x1\n"
+        "tbnz x21, #0, 3f\n"
+        "lsr x21, x21, #0x1\n"
+        "lsl x22, x22, #0x1\n"
         "b 1b\n"
         "2:"  // RHS do prefetch
-        "lsl x20, x22, #0x26\n"
-        "sub x21, x21, #0x1\n"
-        "lsl x21, x21, #0x16\n"
-        "orr x22, x22, x20\n"
-        "orr x22, x22, x21\n"
-        ".inst 0xf8b64b5a  // rprfm pldonce, x22, [x26]\n"
+        "lsl x20, x21, #0x26\n"
+        "sub x22, x22, #0x1\n"
+        "lsl x22, x22, #0x16\n"
+        "orr x21, x21, x20\n"
+        "orr x21, x21, x22\n"
+        ".inst 0xf8b54b7a  // rprfm pldonce, x21, [x27]\n"
         "3:"  // RHS prefetch exit
         "4:"  // Column loop
-        "cmp x25, #0x4\n"
+        "cmp x24, #0x4\n"
         "bge 22f\n"
-        "cmp x25, #0x2\n"
+        "cmp x24, #0x2\n"
         "bgt 16f\n"
         "beq 10f\n"
-        ".inst 0xa040c754  // ld1w { z20.s-z23.s }, pn9.b/Z, [x26]\n"
+        ".inst 0xa040c774  // ld1w { z20.s-z23.s }, pn9.b/Z, [x27]\n"
         "mov x23, %x[K]\n"
         "mov x21, %x[N]\n"
         "mov x22, %x[A_ptr]\n"
@@ -138,48 +137,46 @@ void kai_run_matmul_clamp_f32_f32_f32p16vlx1b_1x16vl_sme2_mla(
         "cmp x23, #0x4\n"
         ".inst 0xf8b44ad8  // rprfm pldmany, x20, [x22]\n"
         ".inst 0xc0042e80  // mova za.d[x9, #0], { z20.d-z23.d }\n"
-        "addvl x26, x26, #16\n"
+        "addvl x27, x27, #16\n"
         "ble 6f\n"
         "5:"  // Width 1: Multiply loop: Main loop head
         "whilelt p0.s, XZR, x23\n"
-        ".inst 0xa040c75d  // ldnt1w { z28.s-z31.s }, pn9.b/Z, [x26]\n"
-        "addvl x26, x26, #16\n"
+        ".inst 0xa040c77d  // ldnt1w { z28.s-z31.s }, pn9.b/Z, [x27]\n"
+        "addvl x27, x27, #16\n"
         "ld1rqw { z2.s }, p0/Z, [x22]\n"
         "sub x23, x23, #0x4\n"
         "add x22, x22, #0x10\n"
-        ".inst 0xa040c751  // ldnt1w { z16.s-z19.s }, pn9.b/Z, [x26]\n"
-        "addvl x26, x26, #16\n"
+        ".inst 0xa040c771  // ldnt1w { z16.s-z19.s }, pn9.b/Z, [x27]\n"
+        "addvl x27, x27, #16\n"
         "cmp x23, #0x4\n"
-        ".inst 0xa040c759  // ldnt1w { z24.s-z27.s }, pn9.b/Z, [x26]\n"
-        "addvl x26, x26, #16\n"
+        ".inst 0xa040c779  // ldnt1w { z24.s-z27.s }, pn9.b/Z, [x27]\n"
+        "addvl x27, x27, #16\n"
         ".inst 0xc152a380  // fmla za.s[x9, 0], { z28.s-z31.s }, z2.s[0]\n"
-        ".inst 0xa040c74d  // ldnt1w { z12.s-z15.s }, pn9.b/Z, [x26]\n"
-        "addvl x26, x26, #16\n"
+        ".inst 0xa040c76d  // ldnt1w { z12.s-z15.s }, pn9.b/Z, [x27]\n"
+        "addvl x27, x27, #16\n"
         ".inst 0xc152a600  // fmla za.s[x9, 0], { z16.s-z19.s }, z2.s[1]\n"
         ".inst 0xc152ab00  // fmla za.s[x9, 0], { z24.s-z27.s }, z2.s[2]\n"
         ".inst 0xc152ad80  // fmla za.s[x9, 0], { z12.s-z15.s }, z2.s[3]\n"
         "bgt 5b\n"
         "6:"  // Width 1: Multiply loop: Single iteration only
         "whilelt p0.s, XZR, x23\n"
-        ".inst 0xa040c74d  // ldnt1w { z12.s-z15.s }, pn9.b/Z, [x26]\n"
+        ".inst 0xa040c76d  // ldnt1w { z12.s-z15.s }, pn9.b/Z, [x27]\n"
         "subs x23, x23, #0x1\n"
         "ld1rqw { z3.s }, p0/Z, [x22]\n"
-        "add x22, x22, #0x10\n"
-        "addvl x26, x26, #16\n"
+        "addvl x27, x27, #16\n"
         ".inst 0xc153a180  // fmla za.s[x9, 0], { z12.s-z15.s }, z3.s[0]\n"
         "ble 7f\n"
-        ".inst 0xa040c745  // ldnt1w { z4.s-z7.s }, pn9.b/Z, [x26]\n"
+        ".inst 0xa040c765  // ldnt1w { z4.s-z7.s }, pn9.b/Z, [x27]\n"
         "subs x23, x23, #0x1\n"
-        "addvl x26, x26, #16\n"
+        "addvl x27, x27, #16\n"
         ".inst 0xc153a480  // fmla za.s[x9, 0], { z4.s-z7.s }, z3.s[1]\n"
         "ble 7f\n"
-        ".inst 0xa040c74d  // ldnt1w { z12.s-z15.s }, pn9.b/Z, [x26]\n"
+        ".inst 0xa040c76d  // ldnt1w { z12.s-z15.s }, pn9.b/Z, [x27]\n"
         "subs x23, x23, #0x1\n"
-        "addvl x26, x26, #16\n"
+        "addvl x27, x27, #16\n"
         ".inst 0xc153a980  // fmla za.s[x9, 0], { z12.s-z15.s }, z3.s[2]\n"
         "ble 7f\n"
-        ".inst 0xa040c749  // ldnt1w { z8.s-z11.s }, pn9.b/Z, [x26]\n"
-        "addvl x26, x26, #16\n"
+        ".inst 0xa040c769  // ldnt1w { z8.s-z11.s }, pn9.b/Z, [x27]\n"
         ".inst 0xc153ad00  // fmla za.s[x9, 0], { z8.s-z11.s }, z3.s[3]\n"
         "7:"  // Width 1: Multiply loop: multiply skip
         "tbz %x[flags], #1, 8f\n"
@@ -189,50 +186,48 @@ void kai_run_matmul_clamp_f32_f32_f32p16vlx1b_1x16vl_sme2_mla(
         "ld1rw { z23.s }, p1/Z, [x21]\n"
         "ld1rw { z22.s }, p1/Z, [x20]\n"
         ".inst 0xc1b6cae0  // fclamp { z0.s-z3.s }, z23.s, z22.s\n"
-        ".inst 0xa060c300  // st1w { z0.s-z3.s }, p8, [x24]\n"
-        "addvl x24, x24, #4\n"
+        ".inst 0xa060c320  // st1w { z0.s-z3.s }, p8, [x25]\n"
         "b 9f\n"
         "8:"  // Width 1: No activation
         ".inst 0xc0062c00  // mova { z0.d-z3.d }, za.d[x9, #0]\n"
-        ".inst 0xa060c300  // st1w { z0.s-z3.s }, p8, [x24]\n"
-        "addvl x24, x24, #4\n"
+        ".inst 0xa060c320  // st1w { z0.s-z3.s }, p8, [x25]\n"
         "9:"  // Width 1: Output done
         "b 28f\n"
         "10:"  // Width 2
-        ".inst 0xa040c75c  // ld1w { z28.s-z31.s }, pn9.b/Z, [x26]\n"
+        ".inst 0xa040c77c  // ld1w { z28.s-z31.s }, pn9.b/Z, [x27]\n"
         "mov x23, %x[K]\n"
-        "sub x21, %x[N], x27\n"
-        ".inst 0xa041c744  // ld1w { z4.s-z7.s }, pn9.b/Z, [x26, #0x4, MUL VL]\n"
+        "sub x21, %x[N], x26\n"
+        ".inst 0xa041c764  // ld1w { z4.s-z7.s }, pn9.b/Z, [x27, #0x4, MUL VL]\n"
         "mov x22, %x[A_ptr]\n"
         "lsl x20, %x[K], #0x2\n"
         ".inst 0x25b567f0  // whilelt p8.s, XZR, x21, VLx4\n"
         "cmp x23, #0x4\n"
         ".inst 0xf8b44ad8  // rprfm pldmany, x20, [x22]\n"
         ".inst 0xc0042f80  // mova za.d[x9, #0], { z28.d-z31.d }\n"
-        "addvl x26, x26, #16\n"
+        "addvl x27, x27, #8\n"
         ".inst 0xc0042c81  // mova za.d[x9, #1], { z4.d-z7.d }\n"
         "ble 12f\n"
         "11:"  // Width 2: Multiply loop: Main loop head
         "whilelt p0.s, XZR, x23\n"
-        ".inst 0xa040c75d  // ldnt1w { z28.s-z31.s }, pn9.b/Z, [x26]\n"
+        ".inst 0xa040c77d  // ldnt1w { z28.s-z31.s }, pn9.b/Z, [x27]\n"
         "sub x23, x23, #0x4\n"
         "ld1rqw { z1.s }, p0/Z, [x22]\n"
         "cmp x23, #0x4\n"
         "add x22, x22, #0x10\n"
-        ".inst 0xa041c74d  // ldnt1w { z12.s-z15.s }, pn9.b/Z, [x26, #0x4, MUL VL]\n"
-        "addvl x26, x26, #16\n"
-        ".inst 0xa040c751  // ldnt1w { z16.s-z19.s }, pn9.b/Z, [x26]\n"
+        ".inst 0xa041c76d  // ldnt1w { z12.s-z15.s }, pn9.b/Z, [x27, #0x4, MUL VL]\n"
+        "addvl x27, x27, #16\n"
+        ".inst 0xa040c771  // ldnt1w { z16.s-z19.s }, pn9.b/Z, [x27]\n"
         ".inst 0xc151a380  // fmla za.s[x9, 0], { z28.s-z31.s }, z1.s[0]\n"
-        ".inst 0xa041c759  // ldnt1w { z24.s-z27.s }, pn9.b/Z, [x26, #0x4, MUL VL]\n"
-        "addvl x26, x26, #16\n"
+        ".inst 0xa041c779  // ldnt1w { z24.s-z27.s }, pn9.b/Z, [x27, #0x4, MUL VL]\n"
+        "addvl x27, x27, #16\n"
         ".inst 0xc151a181  // fmla za.s[x9, 1], { z12.s-z15.s }, z1.s[0]\n"
-        ".inst 0xa040c75d  // ldnt1w { z28.s-z31.s }, pn9.b/Z, [x26]\n"
-        ".inst 0xa041c74d  // ldnt1w { z12.s-z15.s }, pn9.b/Z, [x26, #0x4, MUL VL]\n"
-        "addvl x26, x26, #16\n"
-        ".inst 0xa040c749  // ldnt1w { z8.s-z11.s }, pn9.b/Z, [x26]\n"
+        ".inst 0xa040c77d  // ldnt1w { z28.s-z31.s }, pn9.b/Z, [x27]\n"
+        ".inst 0xa041c76d  // ldnt1w { z12.s-z15.s }, pn9.b/Z, [x27, #0x4, MUL VL]\n"
+        "addvl x27, x27, #16\n"
+        ".inst 0xa040c769  // ldnt1w { z8.s-z11.s }, pn9.b/Z, [x27]\n"
         ".inst 0xc151a600  // fmla za.s[x9, 0], { z16.s-z19.s }, z1.s[1]\n"
-        ".inst 0xa041c755  // ldnt1w { z20.s-z23.s }, pn9.b/Z, [x26, #0x4, MUL VL]\n"
-        "addvl x26, x26, #16\n"
+        ".inst 0xa041c775  // ldnt1w { z20.s-z23.s }, pn9.b/Z, [x27, #0x4, MUL VL]\n"
+        "addvl x27, x27, #16\n"
         ".inst 0xc151a701  // fmla za.s[x9, 1], { z24.s-z27.s }, z1.s[1]\n"
         ".inst 0xc151ab80  // fmla za.s[x9, 0], { z28.s-z31.s }, z1.s[2]\n"
         ".inst 0xc151a981  // fmla za.s[x9, 1], { z12.s-z15.s }, z1.s[2]\n"
@@ -241,32 +236,30 @@ void kai_run_matmul_clamp_f32_f32_f32p16vlx1b_1x16vl_sme2_mla(
         "bgt 11b\n"
         "12:"  // Width 2: Multiply loop: Single iteration only
         "whilelt p0.s, XZR, x23\n"
-        ".inst 0xa040c751  // ldnt1w { z16.s-z19.s }, pn9.b/Z, [x26]\n"
+        ".inst 0xa040c771  // ldnt1w { z16.s-z19.s }, pn9.b/Z, [x27]\n"
         "subs x23, x23, #0x1\n"
         "ld1rqw { z3.s }, p0/Z, [x22]\n"
-        "add x22, x22, #0x10\n"
-        ".inst 0xa041c75d  // ldnt1w { z28.s-z31.s }, pn9.b/Z, [x26, #0x4, MUL VL]\n"
-        "addvl x26, x26, #16\n"
+        ".inst 0xa041c77d  // ldnt1w { z28.s-z31.s }, pn9.b/Z, [x27, #0x4, MUL VL]\n"
+        "addvl x27, x27, #16\n"
         ".inst 0xc153a200  // fmla za.s[x9, 0], { z16.s-z19.s }, z3.s[0]\n"
         ".inst 0xc153a381  // fmla za.s[x9, 1], { z28.s-z31.s }, z3.s[0]\n"
         "ble 13f\n"
-        ".inst 0xa040c755  // ldnt1w { z20.s-z23.s }, pn9.b/Z, [x26]\n"
+        ".inst 0xa040c775  // ldnt1w { z20.s-z23.s }, pn9.b/Z, [x27]\n"
         "subs x23, x23, #0x1\n"
-        ".inst 0xa041c751  // ldnt1w { z16.s-z19.s }, pn9.b/Z, [x26, #0x4, MUL VL]\n"
-        "addvl x26, x26, #16\n"
+        ".inst 0xa041c771  // ldnt1w { z16.s-z19.s }, pn9.b/Z, [x27, #0x4, MUL VL]\n"
+        "addvl x27, x27, #16\n"
         ".inst 0xc153a680  // fmla za.s[x9, 0], { z20.s-z23.s }, z3.s[1]\n"
         ".inst 0xc153a601  // fmla za.s[x9, 1], { z16.s-z19.s }, z3.s[1]\n"
         "ble 13f\n"
-        ".inst 0xa040c745  // ldnt1w { z4.s-z7.s }, pn9.b/Z, [x26]\n"
+        ".inst 0xa040c765  // ldnt1w { z4.s-z7.s }, pn9.b/Z, [x27]\n"
         "subs x23, x23, #0x1\n"
-        ".inst 0xa041c751  // ldnt1w { z16.s-z19.s }, pn9.b/Z, [x26, #0x4, MUL VL]\n"
-        "addvl x26, x26, #16\n"
+        ".inst 0xa041c771  // ldnt1w { z16.s-z19.s }, pn9.b/Z, [x27, #0x4, MUL VL]\n"
+        "addvl x27, x27, #16\n"
         ".inst 0xc153a880  // fmla za.s[x9, 0], { z4.s-z7.s }, z3.s[2]\n"
         ".inst 0xc153aa01  // fmla za.s[x9, 1], { z16.s-z19.s }, z3.s[2]\n"
         "ble 13f\n"
-        ".inst 0xa040c75d  // ldnt1w { z28.s-z31.s }, pn9.b/Z, [x26]\n"
-        ".inst 0xa041c74d  // ldnt1w { z12.s-z15.s }, pn9.b/Z, [x26, #0x4, MUL VL]\n"
-        "addvl x26, x26, #16\n"
+        ".inst 0xa040c77d  // ldnt1w { z28.s-z31.s }, pn9.b/Z, [x27]\n"
+        ".inst 0xa041c76d  // ldnt1w { z12.s-z15.s }, pn9.b/Z, [x27, #0x4, MUL VL]\n"
         ".inst 0xc153af80  // fmla za.s[x9, 0], { z28.s-z31.s }, z3.s[3]\n"
         ".inst 0xc153ad81  // fmla za.s[x9, 1], { z12.s-z15.s }, z3.s[3]\n"
         "13:"  // Width 2: Multiply loop: multiply skip
@@ -279,64 +272,62 @@ void kai_run_matmul_clamp_f32_f32_f32p16vlx1b_1x16vl_sme2_mla(
         "ld1rw { z23.s }, p1/Z, [x20]\n"
         ".inst 0xc1b7ca24  // fclamp { z4.s-z7.s }, z17.s, z23.s\n"
         ".inst 0xc1b7ca28  // fclamp { z8.s-z11.s }, z17.s, z23.s\n"
-        ".inst 0xa060c704  // st1w { z4.s-z7.s }, pn9.b, [x24]\n"
-        ".inst 0xa061c308  // st1w { z8.s-z11.s }, p8, [x24, #0x4, MUL VL]\n"
-        "addvl x24, x24, #8\n"
+        ".inst 0xa060c724  // st1w { z4.s-z7.s }, pn9.b, [x25]\n"
+        ".inst 0xa061c328  // st1w { z8.s-z11.s }, p8, [x25, #0x4, MUL VL]\n"
         "b 15f\n"
         "14:"  // Width 2: No activation
         ".inst 0xc0062c08  // mova { z8.d-z11.d }, za.d[x9, #0]\n"
         ".inst 0xc0062c30  // mova { z16.d-z19.d }, za.d[x9, #1]\n"
-        ".inst 0xa060c708  // st1w { z8.s-z11.s }, pn9.b, [x24]\n"
-        ".inst 0xa061c310  // st1w { z16.s-z19.s }, p8, [x24, #0x4, MUL VL]\n"
-        "addvl x24, x24, #8\n"
+        ".inst 0xa060c728  // st1w { z8.s-z11.s }, pn9.b, [x25]\n"
+        ".inst 0xa061c330  // st1w { z16.s-z19.s }, p8, [x25, #0x4, MUL VL]\n"
         "15:"  // Width 2: Output done
         "b 28f\n"
         "16:"  // Width 3
         "mov x20, #0x2\n"
-        ".inst 0xa040c748  // ld1w { z8.s-z11.s }, pn9.b/Z, [x26]\n"
+        ".inst 0xa040c768  // ld1w { z8.s-z11.s }, pn9.b/Z, [x27]\n"
         "mov x23, %x[K]\n"
-        ".inst 0xa041c740  // ld1w { z0.s-z3.s }, pn9.b/Z, [x26, #0x4, MUL VL]\n"
-        "msub x21, x27, x20, %x[N]\n"
+        ".inst 0xa041c760  // ld1w { z0.s-z3.s }, pn9.b/Z, [x27, #0x4, MUL VL]\n"
+        "msub x21, x26, x20, %x[N]\n"
         "mov x22, %x[A_ptr]\n"
-        ".inst 0xa042c744  // ld1w { z4.s-z7.s }, pn9.b/Z, [x26, #0x8, MUL VL]\n"
+        ".inst 0xa042c764  // ld1w { z4.s-z7.s }, pn9.b/Z, [x27, #0x8, MUL VL]\n"
         "lsl x20, %x[K], #0x2\n"
         ".inst 0x25b567f0  // whilelt p8.s, XZR, x21, VLx4\n"
         "cmp x23, #0x4\n"
         ".inst 0xf8b44ad8  // rprfm pldmany, x20, [x22]\n"
         ".inst 0xc0042d00  // mova za.d[x9, #0], { z8.d-z11.d }\n"
         ".inst 0xc0042c01  // mova za.d[x9, #1], { z0.d-z3.d }\n"
-        "addvl x26, x26, #16\n"
+        "addvl x27, x27, #16\n"
         ".inst 0xc0042c82  // mova za.d[x9, #2], { z4.d-z7.d }\n"
         "ble 18f\n"
         "17:"  // Width 3: Multiply loop: Main loop head
         "whilelt p0.s, XZR, x23\n"
-        ".inst 0xa040c74d  // ldnt1w { z12.s-z15.s }, pn9.b/Z, [x26]\n"
+        ".inst 0xa040c76d  // ldnt1w { z12.s-z15.s }, pn9.b/Z, [x27]\n"
         "sub x23, x23, #0x4\n"
         "ld1rqw { z3.s }, p0/Z, [x22]\n"
         "cmp x23, #0x4\n"
         "add x22, x22, #0x10\n"
-        ".inst 0xa041c749  // ldnt1w { z8.s-z11.s }, pn9.b/Z, [x26, #0x4, MUL VL]\n"
-        ".inst 0xa042c745  // ldnt1w { z4.s-z7.s }, pn9.b/Z, [x26, #0x8, MUL VL]\n"
-        "addvl x26, x26, #16\n"
+        ".inst 0xa041c769  // ldnt1w { z8.s-z11.s }, pn9.b/Z, [x27, #0x4, MUL VL]\n"
+        ".inst 0xa042c765  // ldnt1w { z4.s-z7.s }, pn9.b/Z, [x27, #0x8, MUL VL]\n"
+        "addvl x27, x27, #16\n"
         ".inst 0xc153a180  // fmla za.s[x9, 0], { z12.s-z15.s }, z3.s[0]\n"
-        ".inst 0xa040c751  // ldnt1w { z16.s-z19.s }, pn9.b/Z, [x26]\n"
+        ".inst 0xa040c771  // ldnt1w { z16.s-z19.s }, pn9.b/Z, [x27]\n"
         ".inst 0xc153a101  // fmla za.s[x9, 1], { z8.s-z11.s }, z3.s[0]\n"
-        ".inst 0xa041c755  // ldnt1w { z20.s-z23.s }, pn9.b/Z, [x26, #0x4, MUL VL]\n"
+        ".inst 0xa041c775  // ldnt1w { z20.s-z23.s }, pn9.b/Z, [x27, #0x4, MUL VL]\n"
         ".inst 0xc153a082  // fmla za.s[x9, 2], { z4.s-z7.s }, z3.s[0]\n"
-        ".inst 0xa042c759  // ldnt1w { z24.s-z27.s }, pn9.b/Z, [x26, #0x8, MUL VL]\n"
-        "addvl x26, x26, #16\n"
-        ".inst 0xa040c74d  // ldnt1w { z12.s-z15.s }, pn9.b/Z, [x26]\n"
+        ".inst 0xa042c779  // ldnt1w { z24.s-z27.s }, pn9.b/Z, [x27, #0x8, MUL VL]\n"
+        "addvl x27, x27, #16\n"
+        ".inst 0xa040c76d  // ldnt1w { z12.s-z15.s }, pn9.b/Z, [x27]\n"
         ".inst 0xc153a600  // fmla za.s[x9, 0], { z16.s-z19.s }, z3.s[1]\n"
-        ".inst 0xa041c75d  // ldnt1w { z28.s-z31.s }, pn9.b/Z, [x26, #0x4, MUL VL]\n"
+        ".inst 0xa041c77d  // ldnt1w { z28.s-z31.s }, pn9.b/Z, [x27, #0x4, MUL VL]\n"
         ".inst 0xc153a681  // fmla za.s[x9, 1], { z20.s-z23.s }, z3.s[1]\n"
-        ".inst 0xa042c749  // ldnt1w { z8.s-z11.s }, pn9.b/Z, [x26, #0x8, MUL VL]\n"
-        "addvl x26, x26, #16\n"
+        ".inst 0xa042c769  // ldnt1w { z8.s-z11.s }, pn9.b/Z, [x27, #0x8, MUL VL]\n"
+        "addvl x27, x27, #16\n"
         ".inst 0xc153a702  // fmla za.s[x9, 2], { z24.s-z27.s }, z3.s[1]\n"
-        ".inst 0xa040c745  // ldnt1w { z4.s-z7.s }, pn9.b/Z, [x26]\n"
-        ".inst 0xa041c755  // ldnt1w { z20.s-z23.s }, pn9.b/Z, [x26, #0x4, MUL VL]\n"
+        ".inst 0xa040c765  // ldnt1w { z4.s-z7.s }, pn9.b/Z, [x27]\n"
+        ".inst 0xa041c775  // ldnt1w { z20.s-z23.s }, pn9.b/Z, [x27, #0x4, MUL VL]\n"
         ".inst 0xc153a980  // fmla za.s[x9, 0], { z12.s-z15.s }, z3.s[2]\n"
-        ".inst 0xa042c759  // ldnt1w { z24.s-z27.s }, pn9.b/Z, [x26, #0x8, MUL VL]\n"
-        "addvl x26, x26, #16\n"
+        ".inst 0xa042c779  // ldnt1w { z24.s-z27.s }, pn9.b/Z, [x27, #0x8, MUL VL]\n"
+        "addvl x27, x27, #16\n"
         ".inst 0xc153ab81  // fmla za.s[x9, 1], { z28.s-z31.s }, z3.s[2]\n"
         ".inst 0xc153a902  // fmla za.s[x9, 2], { z8.s-z11.s }, z3.s[2]\n"
         ".inst 0xc153ac80  // fmla za.s[x9, 0], { z4.s-z7.s }, z3.s[3]\n"
@@ -345,39 +336,37 @@ void kai_run_matmul_clamp_f32_f32_f32p16vlx1b_1x16vl_sme2_mla(
         "bgt 17b\n"
         "18:"  // Width 3: Multiply loop: Single iteration only
         "whilelt p0.s, XZR, x23\n"
-        ".inst 0xa040c755  // ldnt1w { z20.s-z23.s }, pn9.b/Z, [x26]\n"
+        ".inst 0xa040c775  // ldnt1w { z20.s-z23.s }, pn9.b/Z, [x27]\n"
         "subs x23, x23, #0x1\n"
         "ld1rqw { z3.s }, p0/Z, [x22]\n"
-        "add x22, x22, #0x10\n"
-        ".inst 0xa041c74d  // ldnt1w { z12.s-z15.s }, pn9.b/Z, [x26, #0x4, MUL VL]\n"
-        ".inst 0xa042c745  // ldnt1w { z4.s-z7.s }, pn9.b/Z, [x26, #0x8, MUL VL]\n"
-        "addvl x26, x26, #16\n"
+        ".inst 0xa041c76d  // ldnt1w { z12.s-z15.s }, pn9.b/Z, [x27, #0x4, MUL VL]\n"
+        ".inst 0xa042c765  // ldnt1w { z4.s-z7.s }, pn9.b/Z, [x27, #0x8, MUL VL]\n"
+        "addvl x27, x27, #16\n"
         ".inst 0xc153a280  // fmla za.s[x9, 0], { z20.s-z23.s }, z3.s[0]\n"
         ".inst 0xc153a181  // fmla za.s[x9, 1], { z12.s-z15.s }, z3.s[0]\n"
         ".inst 0xc153a082  // fmla za.s[x9, 2], { z4.s-z7.s }, z3.s[0]\n"
         "ble 19f\n"
-        ".inst 0xa040c755  // ldnt1w { z20.s-z23.s }, pn9.b/Z, [x26]\n"
+        ".inst 0xa040c775  // ldnt1w { z20.s-z23.s }, pn9.b/Z, [x27]\n"
         "subs x23, x23, #0x1\n"
-        ".inst 0xa041c749  // ldnt1w { z8.s-z11.s }, pn9.b/Z, [x26, #0x4, MUL VL]\n"
-        ".inst 0xa042c751  // ldnt1w { z16.s-z19.s }, pn9.b/Z, [x26, #0x8, MUL VL]\n"
-        "addvl x26, x26, #16\n"
+        ".inst 0xa041c769  // ldnt1w { z8.s-z11.s }, pn9.b/Z, [x27, #0x4, MUL VL]\n"
+        ".inst 0xa042c771  // ldnt1w { z16.s-z19.s }, pn9.b/Z, [x27, #0x8, MUL VL]\n"
+        "addvl x27, x27, #16\n"
         ".inst 0xc153a680  // fmla za.s[x9, 0], { z20.s-z23.s }, z3.s[1]\n"
         ".inst 0xc153a501  // fmla za.s[x9, 1], { z8.s-z11.s }, z3.s[1]\n"
         ".inst 0xc153a602  // fmla za.s[x9, 2], { z16.s-z19.s }, z3.s[1]\n"
         "ble 19f\n"
-        ".inst 0xa040c75d  // ldnt1w { z28.s-z31.s }, pn9.b/Z, [x26]\n"
+        ".inst 0xa040c77d  // ldnt1w { z28.s-z31.s }, pn9.b/Z, [x27]\n"
         "subs x23, x23, #0x1\n"
-        ".inst 0xa041c759  // ldnt1w { z24.s-z27.s }, pn9.b/Z, [x26, #0x4, MUL VL]\n"
-        ".inst 0xa042c74d  // ldnt1w { z12.s-z15.s }, pn9.b/Z, [x26, #0x8, MUL VL]\n"
-        "addvl x26, x26, #16\n"
+        ".inst 0xa041c779  // ldnt1w { z24.s-z27.s }, pn9.b/Z, [x27, #0x4, MUL VL]\n"
+        ".inst 0xa042c76d  // ldnt1w { z12.s-z15.s }, pn9.b/Z, [x27, #0x8, MUL VL]\n"
+        "addvl x27, x27, #16\n"
         ".inst 0xc153ab80  // fmla za.s[x9, 0], { z28.s-z31.s }, z3.s[2]\n"
         ".inst 0xc153ab01  // fmla za.s[x9, 1], { z24.s-z27.s }, z3.s[2]\n"
         ".inst 0xc153a982  // fmla za.s[x9, 2], { z12.s-z15.s }, z3.s[2]\n"
         "ble 19f\n"
-        ".inst 0xa040c749  // ldnt1w { z8.s-z11.s }, pn9.b/Z, [x26]\n"
-        ".inst 0xa041c75d  // ldnt1w { z28.s-z31.s }, pn9.b/Z, [x26, #0x4, MUL VL]\n"
-        ".inst 0xa042c74d  // ldnt1w { z12.s-z15.s }, pn9.b/Z, [x26, #0x8, MUL VL]\n"
-        "addvl x26, x26, #16\n"
+        ".inst 0xa040c769  // ldnt1w { z8.s-z11.s }, pn9.b/Z, [x27]\n"
+        ".inst 0xa041c77d  // ldnt1w { z28.s-z31.s }, pn9.b/Z, [x27, #0x4, MUL VL]\n"
+        ".inst 0xa042c76d  // ldnt1w { z12.s-z15.s }, pn9.b/Z, [x27, #0x8, MUL VL]\n"
         ".inst 0xc153ad00  // fmla za.s[x9, 0], { z8.s-z11.s }, z3.s[3]\n"
         ".inst 0xc153af81  // fmla za.s[x9, 1], { z28.s-z31.s }, z3.s[3]\n"
         ".inst 0xc153ad82  // fmla za.s[x9, 2], { z12.s-z15.s }, z3.s[3]\n"
@@ -393,126 +382,123 @@ void kai_run_matmul_clamp_f32_f32_f32p16vlx1b_1x16vl_sme2_mla(
         ".inst 0xc1b4caa8  // fclamp { z8.s-z11.s }, z21.s, z20.s\n"
         ".inst 0xc1b4caac  // fclamp { z12.s-z15.s }, z21.s, z20.s\n"
         ".inst 0xc1b4cab0  // fclamp { z16.s-z19.s }, z21.s, z20.s\n"
-        ".inst 0xa060c708  // st1w { z8.s-z11.s }, pn9.b, [x24]\n"
-        ".inst 0xa061c70c  // st1w { z12.s-z15.s }, pn9.b, [x24, #0x4, MUL VL]\n"
-        ".inst 0xa062c310  // st1w { z16.s-z19.s }, p8, [x24, #0x8, MUL VL]\n"
-        "addvl x24, x24, #12\n"
+        ".inst 0xa060c728  // st1w { z8.s-z11.s }, pn9.b, [x25]\n"
+        ".inst 0xa061c72c  // st1w { z12.s-z15.s }, pn9.b, [x25, #0x4, MUL VL]\n"
+        ".inst 0xa062c330  // st1w { z16.s-z19.s }, p8, [x25, #0x8, MUL VL]\n"
         "b 21f\n"
         "20:"  // Width 3: No activation
         ".inst 0xc0062c04  // mova { z4.d-z7.d }, za.d[x9, #0]\n"
         ".inst 0xc0062c2c  // mova { z12.d-z15.d }, za.d[x9, #1]\n"
         ".inst 0xc0062c5c  // mova { z28.d-z31.d }, za.d[x9, #2]\n"
-        ".inst 0xa060c704  // st1w { z4.s-z7.s }, pn9.b, [x24]\n"
-        ".inst 0xa061c70c  // st1w { z12.s-z15.s }, pn9.b, [x24, #0x4, MUL VL]\n"
-        ".inst 0xa062c31c  // st1w { z28.s-z31.s }, p8, [x24, #0x8, MUL VL]\n"
-        "addvl x24, x24, #12\n"
+        ".inst 0xa060c724  // st1w { z4.s-z7.s }, pn9.b, [x25]\n"
+        ".inst 0xa061c72c  // st1w { z12.s-z15.s }, pn9.b, [x25, #0x4, MUL VL]\n"
+        ".inst 0xa062c33c  // st1w { z28.s-z31.s }, p8, [x25, #0x8, MUL VL]\n"
         "21:"  // Width 3: Output done
         "b 28f\n"
         "22:"  // Width 4
         "mov x20, #0x3\n"
-        ".inst 0xa040c744  // ld1w { z4.s-z7.s }, pn9.b/Z, [x26]\n"
+        ".inst 0xa040c764  // ld1w { z4.s-z7.s }, pn9.b/Z, [x27]\n"
         "mov x23, %x[K]\n"
-        ".inst 0xa041c74c  // ld1w { z12.s-z15.s }, pn9.b/Z, [x26, #0x4, MUL VL]\n"
-        "msub x21, x27, x20, %x[N]\n"
+        ".inst 0xa041c76c  // ld1w { z12.s-z15.s }, pn9.b/Z, [x27, #0x4, MUL VL]\n"
+        "msub x21, x26, x20, %x[N]\n"
         "mov x22, %x[A_ptr]\n"
-        ".inst 0xa042c75c  // ld1w { z28.s-z31.s }, pn9.b/Z, [x26, #0x8, MUL VL]\n"
+        ".inst 0xa042c77c  // ld1w { z28.s-z31.s }, pn9.b/Z, [x27, #0x8, MUL VL]\n"
         "lsl x20, %x[K], #0x2\n"
         ".inst 0x25b567f0  // whilelt p8.s, XZR, x21, VLx4\n"
-        ".inst 0xa043c750  // ld1w { z16.s-z19.s }, pn9.b/Z, [x26, #0xc, MUL VL]\n"
+        ".inst 0xa043c770  // ld1w { z16.s-z19.s }, pn9.b/Z, [x27, #0xc, MUL VL]\n"
         "cmp x23, #0x4\n"
         ".inst 0xf8b44ad8  // rprfm pldmany, x20, [x22]\n"
         ".inst 0xc0042c80  // mova za.d[x9, #0], { z4.d-z7.d }\n"
         ".inst 0xc0042d81  // mova za.d[x9, #1], { z12.d-z15.d }\n"
-        "addvl x26, x26, #16\n"
+        "addvl x27, x27, #16\n"
         ".inst 0xc0042f82  // mova za.d[x9, #2], { z28.d-z31.d }\n"
         ".inst 0xc0042e03  // mova za.d[x9, #3], { z16.d-z19.d }\n"
         "ble 24f\n"
         "23:"  // Width 4: Multiply loop: Main loop head
         "whilelt p0.s, XZR, x23\n"
-        ".inst 0xa040c74d  // ldnt1w { z12.s-z15.s }, pn9.b/Z, [x26]\n"
+        ".inst 0xa040c76d  // ldnt1w { z12.s-z15.s }, pn9.b/Z, [x27]\n"
         "sub x23, x23, #0x4\n"
         "ld1rqw { z3.s }, p0/Z, [x22]\n"
         "cmp x23, #0x4\n"
         "add x22, x22, #0x10\n"
-        ".inst 0xa041c755  // ldnt1w { z20.s-z23.s }, pn9.b/Z, [x26, #0x4, MUL VL]\n"
-        ".inst 0xa042c751  // ldnt1w { z16.s-z19.s }, pn9.b/Z, [x26, #0x8, MUL VL]\n"
-        ".inst 0xa043c749  // ldnt1w { z8.s-z11.s }, pn9.b/Z, [x26, #0xc, MUL VL]\n"
+        ".inst 0xa041c775  // ldnt1w { z20.s-z23.s }, pn9.b/Z, [x27, #0x4, MUL VL]\n"
+        ".inst 0xa042c771  // ldnt1w { z16.s-z19.s }, pn9.b/Z, [x27, #0x8, MUL VL]\n"
+        ".inst 0xa043c769  // ldnt1w { z8.s-z11.s }, pn9.b/Z, [x27, #0xc, MUL VL]\n"
         ".inst 0xc153a180  // fmla za.s[x9, 0], { z12.s-z15.s }, z3.s[0]\n"
-        "addvl x26, x26, #16\n"
+        "addvl x27, x27, #16\n"
         ".inst 0xc153a281  // fmla za.s[x9, 1], { z20.s-z23.s }, z3.s[0]\n"
-        ".inst 0xa040c759  // ldnt1w { z24.s-z27.s }, pn9.b/Z, [x26]\n"
+        ".inst 0xa040c779  // ldnt1w { z24.s-z27.s }, pn9.b/Z, [x27]\n"
         ".inst 0xc153a202  // fmla za.s[x9, 2], { z16.s-z19.s }, z3.s[0]\n"
-        ".inst 0xa041c74d  // ldnt1w { z12.s-z15.s }, pn9.b/Z, [x26, #0x4, MUL VL]\n"
+        ".inst 0xa041c76d  // ldnt1w { z12.s-z15.s }, pn9.b/Z, [x27, #0x4, MUL VL]\n"
         ".inst 0xc153a103  // fmla za.s[x9, 3], { z8.s-z11.s }, z3.s[0]\n"
-        ".inst 0xa042c749  // ldnt1w { z8.s-z11.s }, pn9.b/Z, [x26, #0x8, MUL VL]\n"
-        ".inst 0xa043c745  // ldnt1w { z4.s-z7.s }, pn9.b/Z, [x26, #0xc, MUL VL]\n"
+        ".inst 0xa042c769  // ldnt1w { z8.s-z11.s }, pn9.b/Z, [x27, #0x8, MUL VL]\n"
+        ".inst 0xa043c765  // ldnt1w { z4.s-z7.s }, pn9.b/Z, [x27, #0xc, MUL VL]\n"
         ".inst 0xc153a700  // fmla za.s[x9, 0], { z24.s-z27.s }, z3.s[1]\n"
-        "addvl x26, x26, #16\n"
+        "addvl x27, x27, #16\n"
         ".inst 0xc153a581  // fmla za.s[x9, 1], { z12.s-z15.s }, z3.s[1]\n"
-        ".inst 0xa040c759  // ldnt1w { z24.s-z27.s }, pn9.b/Z, [x26]\n"
+        ".inst 0xa040c779  // ldnt1w { z24.s-z27.s }, pn9.b/Z, [x27]\n"
         ".inst 0xc153a502  // fmla za.s[x9, 2], { z8.s-z11.s }, z3.s[1]\n"
-        ".inst 0xa041c749  // ldnt1w { z8.s-z11.s }, pn9.b/Z, [x26, #0x4, MUL VL]\n"
+        ".inst 0xa041c769  // ldnt1w { z8.s-z11.s }, pn9.b/Z, [x27, #0x4, MUL VL]\n"
         ".inst 0xc153a483  // fmla za.s[x9, 3], { z4.s-z7.s }, z3.s[1]\n"
-        ".inst 0xa042c751  // ldnt1w { z16.s-z19.s }, pn9.b/Z, [x26, #0x8, MUL VL]\n"
-        ".inst 0xa043c745  // ldnt1w { z4.s-z7.s }, pn9.b/Z, [x26, #0xc, MUL VL]\n"
+        ".inst 0xa042c771  // ldnt1w { z16.s-z19.s }, pn9.b/Z, [x27, #0x8, MUL VL]\n"
+        ".inst 0xa043c765  // ldnt1w { z4.s-z7.s }, pn9.b/Z, [x27, #0xc, MUL VL]\n"
         ".inst 0xc153ab00  // fmla za.s[x9, 0], { z24.s-z27.s }, z3.s[2]\n"
-        "addvl x26, x26, #16\n"
+        "addvl x27, x27, #16\n"
         ".inst 0xc153a901  // fmla za.s[x9, 1], { z8.s-z11.s }, z3.s[2]\n"
-        ".inst 0xa040c749  // ldnt1w { z8.s-z11.s }, pn9.b/Z, [x26]\n"
+        ".inst 0xa040c769  // ldnt1w { z8.s-z11.s }, pn9.b/Z, [x27]\n"
         ".inst 0xc153aa02  // fmla za.s[x9, 2], { z16.s-z19.s }, z3.s[2]\n"
-        ".inst 0xa041c75d  // ldnt1w { z28.s-z31.s }, pn9.b/Z, [x26, #0x4, MUL VL]\n"
+        ".inst 0xa041c77d  // ldnt1w { z28.s-z31.s }, pn9.b/Z, [x27, #0x4, MUL VL]\n"
         ".inst 0xc153a883  // fmla za.s[x9, 3], { z4.s-z7.s }, z3.s[2]\n"
-        ".inst 0xa042c74d  // ldnt1w { z12.s-z15.s }, pn9.b/Z, [x26, #0x8, MUL VL]\n"
-        ".inst 0xa043c755  // ldnt1w { z20.s-z23.s }, pn9.b/Z, [x26, #0xc, MUL VL]\n"
+        ".inst 0xa042c76d  // ldnt1w { z12.s-z15.s }, pn9.b/Z, [x27, #0x8, MUL VL]\n"
+        ".inst 0xa043c775  // ldnt1w { z20.s-z23.s }, pn9.b/Z, [x27, #0xc, MUL VL]\n"
         ".inst 0xc153ad00  // fmla za.s[x9, 0], { z8.s-z11.s }, z3.s[3]\n"
-        "addvl x26, x26, #16\n"
+        "addvl x27, x27, #16\n"
         ".inst 0xc153af81  // fmla za.s[x9, 1], { z28.s-z31.s }, z3.s[3]\n"
         ".inst 0xc153ad82  // fmla za.s[x9, 2], { z12.s-z15.s }, z3.s[3]\n"
         ".inst 0xc153ae83  // fmla za.s[x9, 3], { z20.s-z23.s }, z3.s[3]\n"
         "bgt 23b\n"
         "24:"  // Width 4: Multiply loop: Single iteration only
         "whilelt p0.s, XZR, x23\n"
-        ".inst 0xa040c751  // ldnt1w { z16.s-z19.s }, pn9.b/Z, [x26]\n"
+        ".inst 0xa040c771  // ldnt1w { z16.s-z19.s }, pn9.b/Z, [x27]\n"
         "subs x23, x23, #0x1\n"
         "ld1rqw { z3.s }, p0/Z, [x22]\n"
-        "add x22, x22, #0x10\n"
-        ".inst 0xa041c74d  // ldnt1w { z12.s-z15.s }, pn9.b/Z, [x26, #0x4, MUL VL]\n"
-        ".inst 0xa042c75d  // ldnt1w { z28.s-z31.s }, pn9.b/Z, [x26, #0x8, MUL VL]\n"
-        ".inst 0xa043c755  // ldnt1w { z20.s-z23.s }, pn9.b/Z, [x26, #0xc, MUL VL]\n"
+        ".inst 0xa041c76d  // ldnt1w { z12.s-z15.s }, pn9.b/Z, [x27, #0x4, MUL VL]\n"
+        ".inst 0xa042c77d  // ldnt1w { z28.s-z31.s }, pn9.b/Z, [x27, #0x8, MUL VL]\n"
+        ".inst 0xa043c775  // ldnt1w { z20.s-z23.s }, pn9.b/Z, [x27, #0xc, MUL VL]\n"
         ".inst 0xc153a200  // fmla za.s[x9, 0], { z16.s-z19.s }, z3.s[0]\n"
-        "addvl x26, x26, #16\n"
+        "addvl x27, x27, #16\n"
         ".inst 0xc153a181  // fmla za.s[x9, 1], { z12.s-z15.s }, z3.s[0]\n"
         ".inst 0xc153a382  // fmla za.s[x9, 2], { z28.s-z31.s }, z3.s[0]\n"
         ".inst 0xc153a283  // fmla za.s[x9, 3], { z20.s-z23.s }, z3.s[0]\n"
         "ble 25f\n"
-        ".inst 0xa040c74d  // ldnt1w { z12.s-z15.s }, pn9.b/Z, [x26]\n"
+        ".inst 0xa040c76d  // ldnt1w { z12.s-z15.s }, pn9.b/Z, [x27]\n"
         "subs x23, x23, #0x1\n"
-        ".inst 0xa041c745  // ldnt1w { z4.s-z7.s }, pn9.b/Z, [x26, #0x4, MUL VL]\n"
-        ".inst 0xa042c759  // ldnt1w { z24.s-z27.s }, pn9.b/Z, [x26, #0x8, MUL VL]\n"
-        ".inst 0xa043c755  // ldnt1w { z20.s-z23.s }, pn9.b/Z, [x26, #0xc, MUL VL]\n"
+        ".inst 0xa041c765  // ldnt1w { z4.s-z7.s }, pn9.b/Z, [x27, #0x4, MUL VL]\n"
+        ".inst 0xa042c779  // ldnt1w { z24.s-z27.s }, pn9.b/Z, [x27, #0x8, MUL VL]\n"
+        ".inst 0xa043c775  // ldnt1w { z20.s-z23.s }, pn9.b/Z, [x27, #0xc, MUL VL]\n"
         ".inst 0xc153a580  // fmla za.s[x9, 0], { z12.s-z15.s }, z3.s[1]\n"
-        "addvl x26, x26, #16\n"
+        "addvl x27, x27, #16\n"
         ".inst 0xc153a481  // fmla za.s[x9, 1], { z4.s-z7.s }, z3.s[1]\n"
         ".inst 0xc153a702  // fmla za.s[x9, 2], { z24.s-z27.s }, z3.s[1]\n"
         ".inst 0xc153a683  // fmla za.s[x9, 3], { z20.s-z23.s }, z3.s[1]\n"
         "ble 25f\n"
-        ".inst 0xa040c74d  // ldnt1w { z12.s-z15.s }, pn9.b/Z, [x26]\n"
+        ".inst 0xa040c76d  // ldnt1w { z12.s-z15.s }, pn9.b/Z, [x27]\n"
         "subs x23, x23, #0x1\n"
-        ".inst 0xa041c749  // ldnt1w { z8.s-z11.s }, pn9.b/Z, [x26, #0x4, MUL VL]\n"
-        ".inst 0xa042c755  // ldnt1w { z20.s-z23.s }, pn9.b/Z, [x26, #0x8, MUL VL]\n"
-        ".inst 0xa043c751  // ldnt1w { z16.s-z19.s }, pn9.b/Z, [x26, #0xc, MUL VL]\n"
+        ".inst 0xa041c769  // ldnt1w { z8.s-z11.s }, pn9.b/Z, [x27, #0x4, MUL VL]\n"
+        ".inst 0xa042c775  // ldnt1w { z20.s-z23.s }, pn9.b/Z, [x27, #0x8, MUL VL]\n"
+        ".inst 0xa043c771  // ldnt1w { z16.s-z19.s }, pn9.b/Z, [x27, #0xc, MUL VL]\n"
         ".inst 0xc153a980  // fmla za.s[x9, 0], { z12.s-z15.s }, z3.s[2]\n"
-        "addvl x26, x26, #16\n"
+        "addvl x27, x27, #16\n"
         ".inst 0xc153a901  // fmla za.s[x9, 1], { z8.s-z11.s }, z3.s[2]\n"
         ".inst 0xc153aa82  // fmla za.s[x9, 2], { z20.s-z23.s }, z3.s[2]\n"
         ".inst 0xc153aa03  // fmla za.s[x9, 3], { z16.s-z19.s }, z3.s[2]\n"
         "ble 25f\n"
-        ".inst 0xa040c74d  // ldnt1w { z12.s-z15.s }, pn9.b/Z, [x26]\n"
-        ".inst 0xa041c749  // ldnt1w { z8.s-z11.s }, pn9.b/Z, [x26, #0x4, MUL VL]\n"
-        ".inst 0xa042c755  // ldnt1w { z20.s-z23.s }, pn9.b/Z, [x26, #0x8, MUL VL]\n"
-        ".inst 0xa043c751  // ldnt1w { z16.s-z19.s }, pn9.b/Z, [x26, #0xc, MUL VL]\n"
+        ".inst 0xa040c76d  // ldnt1w { z12.s-z15.s }, pn9.b/Z, [x27]\n"
+        ".inst 0xa041c769  // ldnt1w { z8.s-z11.s }, pn9.b/Z, [x27, #0x4, MUL VL]\n"
+        ".inst 0xa042c775  // ldnt1w { z20.s-z23.s }, pn9.b/Z, [x27, #0x8, MUL VL]\n"
+        ".inst 0xa043c771  // ldnt1w { z16.s-z19.s }, pn9.b/Z, [x27, #0xc, MUL VL]\n"
         ".inst 0xc153ad80  // fmla za.s[x9, 0], { z12.s-z15.s }, z3.s[3]\n"
-        "addvl x26, x26, #16\n"
+        "addvl x27, x27, #16\n"
         ".inst 0xc153ad01  // fmla za.s[x9, 1], { z8.s-z11.s }, z3.s[3]\n"
         ".inst 0xc153ae82  // fmla za.s[x9, 2], { z20.s-z23.s }, z3.s[3]\n"
         ".inst 0xc153ae03  // fmla za.s[x9, 3], { z16.s-z19.s }, z3.s[3]\n"
@@ -530,37 +516,36 @@ void kai_run_matmul_clamp_f32_f32_f32p16vlx1b_1x16vl_sme2_mla(
         ".inst 0xc1b4caa0  // fclamp { z0.s-z3.s }, z21.s, z20.s\n"
         ".inst 0xc1b4caac  // fclamp { z12.s-z15.s }, z21.s, z20.s\n"
         ".inst 0xc1b4cab0  // fclamp { z16.s-z19.s }, z21.s, z20.s\n"
-        ".inst 0xa060c704  // st1w { z4.s-z7.s }, pn9.b, [x24]\n"
-        ".inst 0xa061c700  // st1w { z0.s-z3.s }, pn9.b, [x24, #0x4, MUL VL]\n"
-        ".inst 0xa062c70c  // st1w { z12.s-z15.s }, pn9.b, [x24, #0x8, MUL VL]\n"
-        ".inst 0xa063c310  // st1w { z16.s-z19.s }, p8, [x24, #0xc, MUL VL]\n"
-        "addvl x24, x24, #16\n"
+        ".inst 0xa060c724  // st1w { z4.s-z7.s }, pn9.b, [x25]\n"
+        ".inst 0xa061c720  // st1w { z0.s-z3.s }, pn9.b, [x25, #0x4, MUL VL]\n"
+        ".inst 0xa062c72c  // st1w { z12.s-z15.s }, pn9.b, [x25, #0x8, MUL VL]\n"
+        ".inst 0xa063c330  // st1w { z16.s-z19.s }, p8, [x25, #0xc, MUL VL]\n"
+        "addvl x25, x25, #16\n"
         "b 27f\n"
         "26:"  // Width 4: No activation
         ".inst 0xc0062c0c  // mova { z12.d-z15.d }, za.d[x9, #0]\n"
         ".inst 0xc0062c20  // mova { z0.d-z3.d }, za.d[x9, #1]\n"
         ".inst 0xc0062c50  // mova { z16.d-z19.d }, za.d[x9, #2]\n"
         ".inst 0xc0062c64  // mova { z4.d-z7.d }, za.d[x9, #3]\n"
-        ".inst 0xa060c70c  // st1w { z12.s-z15.s }, pn9.b, [x24]\n"
-        ".inst 0xa061c700  // st1w { z0.s-z3.s }, pn9.b, [x24, #0x4, MUL VL]\n"
-        ".inst 0xa062c710  // st1w { z16.s-z19.s }, pn9.b, [x24, #0x8, MUL VL]\n"
-        ".inst 0xa063c304  // st1w { z4.s-z7.s }, p8, [x24, #0xc, MUL VL]\n"
-        "addvl x24, x24, #16\n"
+        ".inst 0xa060c72c  // st1w { z12.s-z15.s }, pn9.b, [x25]\n"
+        ".inst 0xa061c720  // st1w { z0.s-z3.s }, pn9.b, [x25, #0x4, MUL VL]\n"
+        ".inst 0xa062c730  // st1w { z16.s-z19.s }, pn9.b, [x25, #0x8, MUL VL]\n"
+        ".inst 0xa063c324  // st1w { z4.s-z7.s }, p8, [x25, #0xc, MUL VL]\n"
+        "addvl x25, x25, #16\n"
         "27:"  // Width 4: Output done
-        "subs x25, x25, #0x4\n"
-        "sub %x[N], %x[N], x27, LSL #2\n"
+        "subs x24, x24, #0x4\n"
+        "sub %x[N], %x[N], x26, LSL #2\n"
         "bgt 4b\n"
         "28:"  // Exit
         ".inst 0xd503467f  // SMSTOP\n"
-        "ptrue p8.b\n"
         : [N] "+&r"(N)
         : [A_ptr] "r"(A_ptr), [B_ptr] "r"(B_ptr), [K] "r"(K), [args_ptr] "r"(&ka), [flags] "r"(flags),
           [offset_max] "I"(offsetof(KernelArgs, maxval)), [offset_min] "I"(offsetof(KernelArgs, minval)),
           [output_ptr] "r"(output_ptr)
-        : "cc", "memory", "p0", "p1", "p2", "p3", "p4", "p5", "p6", "p7", "p8", "p9", "p10", "p11", "p12", "p13", "p14",
-          "p15", "x9", "x20", "x21", "x22", "x23", "x24", "x25", "x26", "x27", "z0", "z1", "z2", "z3", "z4", "z5", "z6",
-          "z7", "z8", "z9", "z10", "z11", "z12", "z13", "z14", "z15", "z16", "z17", "z18", "z19", "z20", "z21", "z22",
-          "z23", "z24", "z25", "z26", "z27", "z28", "z29", "z30", "z31");
+        : "cc", "memory", "p0", "p1", "p10", "p11", "p12", "p13", "p14", "p15", "p2", "p3", "p4", "p5", "p6", "p7",
+          "p8", "p9", "x20", "x21", "x22", "x23", "x24", "x25", "x26", "x27", "x9", "z0", "z1", "z10", "z11", "z12",
+          "z13", "z14", "z15", "z16", "z17", "z18", "z19", "z2", "z20", "z21", "z22", "z23", "z24", "z25", "z26", "z27",
+          "z28", "z29", "z3", "z30", "z31", "z4", "z5", "z6", "z7", "z8", "z9");
 }
 
 #endif  // Architectural features check.
diff --git a/kai/ukernels/matmul/matmul_clamp_f32_f32_f32p/kai_matmul_clamp_f32_f32_f32p2vlx1b_1x16vl_sme2_mla.c b/kai/ukernels/matmul/matmul_clamp_f32_f32_f32p/kai_matmul_clamp_f32_f32_f32p2vlx1b_1x16vl_sme2_mla.c
index 8809e5a6..bf9d9bb4 100644
--- a/kai/ukernels/matmul/matmul_clamp_f32_f32_f32p/kai_matmul_clamp_f32_f32_f32p2vlx1b_1x16vl_sme2_mla.c
+++ b/kai/ukernels/matmul/matmul_clamp_f32_f32_f32p/kai_matmul_clamp_f32_f32_f32p2vlx1b_1x16vl_sme2_mla.c
@@ -92,37 +92,36 @@ void kai_run_matmul_clamp_f32_f32_f32p2vlx1b_1x16vl_sme2_mla(
     uint64_t flags = 0;
 
     __asm__ __volatile__(
-        "ptrue p8.b\n"
         ".inst 0xd503477f  // SMSTART ZA\n"
         "mov x8, #0x0\n"
-        "cntw x16, ALL, MUL #4\n"
-        "mov x15, %x[B_ptr]\n"
-        "add x14, %x[N], x16\n"
-        "mov x13, %x[output_ptr]\n"
-        "sub x14, x14, #0x1\n"
+        "mov x16, %x[B_ptr]\n"
+        "cntw x15, ALL, MUL #4\n"
+        "mov x14, %x[output_ptr]\n"
+        "add x13, %x[N], x15\n"
         "ptrue p1.b\n"
-        "udiv x14, x14, x16\n"
+        "sub x13, x13, #0x1\n"
         ".inst 0x25207811  // ptrue pn9.b\n"
-        "add x22, x14, #0x3\n"
-        "mov x21, #0x1\n"
-        "and x22, x22, #0xfffffffffffffffc\n"
-        "mul x22, x22, x16\n"
-        "mul x22, x22, %x[K]\n"
-        "lsl x22, x22, #0x2\n"
+        "udiv x13, x13, x15\n"
+        "mov x22, #0x1\n"
+        "add x21, x13, #0x3\n"
+        "and x21, x21, #0xfffffffffffffffc\n"
+        "mul x21, x21, x15\n"
+        "mul x21, x21, %x[K]\n"
+        "lsl x21, x21, #0x2\n"
         "1:"  // RHS size check loop
-        "cmp x22, #0x200000\n"
+        "cmp x21, #0x200000\n"
         "blt 2f\n"
-        "tbnz x22, #0, 3f\n"
-        "lsr x22, x22, #0x1\n"
-        "lsl x21, x21, #0x1\n"
+        "tbnz x21, #0, 3f\n"
+        "lsr x21, x21, #0x1\n"
+        "lsl x22, x22, #0x1\n"
         "b 1b\n"
         "2:"  // RHS do prefetch
-        "lsl x20, x22, #0x26\n"
-        "sub x21, x21, #0x1\n"
-        "lsl x21, x21, #0x16\n"
-        "orr x22, x22, x20\n"
-        "orr x22, x22, x21\n"
-        ".inst 0xf8b649fa  // rprfm pldonce, x22, [x15]\n"
+        "lsl x20, x21, #0x26\n"
+        "sub x22, x22, #0x1\n"
+        "lsl x22, x22, #0x16\n"
+        "orr x21, x21, x20\n"
+        "orr x21, x21, x22\n"
+        ".inst 0xf8b54a1a  // rprfm pldonce, x21, [x16]\n"
         "3:"  // RHS prefetch exit
         "mov x12, %x[K]\n"
         "cntw x20, ALL, MUL #2\n"
@@ -130,17 +129,17 @@ void kai_run_matmul_clamp_f32_f32_f32p2vlx1b_1x16vl_sme2_mla(
         "add x12, x12, #0x4\n"
         "mul x12, x12, x20\n"
         "4:"  // Column loop
-        "cmp x14, #0x4\n"
+        "cmp x13, #0x4\n"
         "bge 22f\n"
-        "cmp x14, #0x2\n"
+        "cmp x13, #0x2\n"
         "bgt 16f\n"
         "beq 10f\n"
         "cntw x20, ALL, MUL #2\n"
-        "add x22, x15, x12\n"
-        ".inst 0xa04045f4  // ld1w { z20.s-z21.s }, pn9.b/Z, [x15]\n"
+        "add x22, x16, x12\n"
+        ".inst 0xa0404614  // ld1w { z20.s-z21.s }, pn9.b/Z, [x16]\n"
         "cmp %x[N], x20\n"
         "mov x11, %x[K]\n"
-        "csel x22, x22, x15, GT\n"
+        "csel x22, x22, x16, GT\n"
         "mov x21, %x[N]\n"
         ".inst 0xa04046d6  // ld1w { z22.s-z23.s }, pn9.b/Z, [x22]\n"
         "mov x10, %x[A_ptr]\n"
@@ -148,31 +147,31 @@ void kai_run_matmul_clamp_f32_f32_f32p2vlx1b_1x16vl_sme2_mla(
         ".inst 0x25b567f0  // whilelt p8.s, XZR, x21, VLx4\n"
         "cmp x11, #0x4\n"
         ".inst 0xf8b44958  // rprfm pldmany, x20, [x10]\n"
-        "addvl x15, x15, #2\n"
+        "addvl x16, x16, #2\n"
         "addvl x22, x22, #2\n"
         ".inst 0xc0040e80  // mova za.d[x8, #0], { z20.d-z23.d }\n"
         "ble 6f\n"
         "5:"  // Width 1: Multiply loop: Main loop head
         "whilelt p0.s, XZR, x11\n"
-        ".inst 0xa04045e5  // ldnt1w { z4.s-z5.s }, pn9.b/Z, [x15]\n"
-        "addvl x15, x15, #2\n"
+        ".inst 0xa0404605  // ldnt1w { z4.s-z5.s }, pn9.b/Z, [x16]\n"
+        "addvl x16, x16, #2\n"
         "ld1rqw { z15.s }, p0/Z, [x10]\n"
         "sub x11, x11, #0x4\n"
         "add x10, x10, #0x10\n"
         ".inst 0xa04046c7  // ldnt1w { z6.s-z7.s }, pn9.b/Z, [x22]\n"
         "addvl x22, x22, #2\n"
         "cmp x11, #0x4\n"
-        ".inst 0xa04045fd  // ldnt1w { z28.s-z29.s }, pn9.b/Z, [x15]\n"
-        "addvl x15, x15, #2\n"
+        ".inst 0xa040461d  // ldnt1w { z28.s-z29.s }, pn9.b/Z, [x16]\n"
+        "addvl x16, x16, #2\n"
         ".inst 0xa04046df  // ldnt1w { z30.s-z31.s }, pn9.b/Z, [x22]\n"
         "addvl x22, x22, #2\n"
         ".inst 0xc15f8080  // fmla za.s[x8, 0], { z4.s-z7.s }, z15.s[0]\n"
-        ".inst 0xa04045e1  // ldnt1w { z0.s-z1.s }, pn9.b/Z, [x15]\n"
-        "addvl x15, x15, #2\n"
+        ".inst 0xa0404601  // ldnt1w { z0.s-z1.s }, pn9.b/Z, [x16]\n"
+        "addvl x16, x16, #2\n"
         ".inst 0xa04046c3  // ldnt1w { z2.s-z3.s }, pn9.b/Z, [x22]\n"
         "addvl x22, x22, #2\n"
-        ".inst 0xa04045f5  // ldnt1w { z20.s-z21.s }, pn9.b/Z, [x15]\n"
-        "addvl x15, x15, #2\n"
+        ".inst 0xa0404615  // ldnt1w { z20.s-z21.s }, pn9.b/Z, [x16]\n"
+        "addvl x16, x16, #2\n"
         ".inst 0xa04046d7  // ldnt1w { z22.s-z23.s }, pn9.b/Z, [x22]\n"
         "addvl x22, x22, #2\n"
         ".inst 0xc15f8780  // fmla za.s[x8, 0], { z28.s-z31.s }, z15.s[1]\n"
@@ -181,33 +180,30 @@ void kai_run_matmul_clamp_f32_f32_f32p2vlx1b_1x16vl_sme2_mla(
         "bgt 5b\n"
         "6:"  // Width 1: Multiply loop: Single iteration only
         "whilelt p0.s, XZR, x11\n"
-        ".inst 0xa04045e1  // ldnt1w { z0.s-z1.s }, pn9.b/Z, [x15]\n"
+        ".inst 0xa0404601  // ldnt1w { z0.s-z1.s }, pn9.b/Z, [x16]\n"
         "subs x11, x11, #0x1\n"
         "ld1rqw { z8.s }, p0/Z, [x10]\n"
-        "add x10, x10, #0x10\n"
-        "addvl x15, x15, #2\n"
+        "addvl x16, x16, #2\n"
         ".inst 0xa04046c3  // ldnt1w { z2.s-z3.s }, pn9.b/Z, [x22]\n"
         "addvl x22, x22, #2\n"
         ".inst 0xc1588000  // fmla za.s[x8, 0], { z0.s-z3.s }, z8.s[0]\n"
         "ble 7f\n"
-        ".inst 0xa04045f1  // ldnt1w { z16.s-z17.s }, pn9.b/Z, [x15]\n"
+        ".inst 0xa0404611  // ldnt1w { z16.s-z17.s }, pn9.b/Z, [x16]\n"
         "subs x11, x11, #0x1\n"
-        "addvl x15, x15, #2\n"
+        "addvl x16, x16, #2\n"
         ".inst 0xa04046d3  // ldnt1w { z18.s-z19.s }, pn9.b/Z, [x22]\n"
         "addvl x22, x22, #2\n"
         ".inst 0xc1588600  // fmla za.s[x8, 0], { z16.s-z19.s }, z8.s[1]\n"
         "ble 7f\n"
-        ".inst 0xa04045f5  // ldnt1w { z20.s-z21.s }, pn9.b/Z, [x15]\n"
+        ".inst 0xa0404615  // ldnt1w { z20.s-z21.s }, pn9.b/Z, [x16]\n"
         "subs x11, x11, #0x1\n"
-        "addvl x15, x15, #2\n"
+        "addvl x16, x16, #2\n"
         ".inst 0xa04046d7  // ldnt1w { z22.s-z23.s }, pn9.b/Z, [x22]\n"
         "addvl x22, x22, #2\n"
         ".inst 0xc1588a80  // fmla za.s[x8, 0], { z20.s-z23.s }, z8.s[2]\n"
         "ble 7f\n"
-        ".inst 0xa04045ed  // ldnt1w { z12.s-z13.s }, pn9.b/Z, [x15]\n"
-        "addvl x15, x15, #2\n"
+        ".inst 0xa040460d  // ldnt1w { z12.s-z13.s }, pn9.b/Z, [x16]\n"
         ".inst 0xa04046cf  // ldnt1w { z14.s-z15.s }, pn9.b/Z, [x22]\n"
-        "addvl x22, x22, #2\n"
         ".inst 0xc1588d80  // fmla za.s[x8, 0], { z12.s-z15.s }, z8.s[3]\n"
         "7:"  // Width 1: Multiply loop: multiply skip
         "tbz %x[flags], #1, 8f\n"
@@ -217,34 +213,32 @@ void kai_run_matmul_clamp_f32_f32_f32p2vlx1b_1x16vl_sme2_mla(
         "ld1rw { z21.s }, p1/Z, [x21]\n"
         "ld1rw { z29.s }, p1/Z, [x20]\n"
         ".inst 0xc1bdcaa8  // fclamp { z8.s-z11.s }, z21.s, z29.s\n"
-        ".inst 0xa060c1a8  // st1w { z8.s-z11.s }, p8, [x13]\n"
-        "addvl x13, x13, #4\n"
+        ".inst 0xa060c1c8  // st1w { z8.s-z11.s }, p8, [x14]\n"
         "b 9f\n"
         "8:"  // Width 1: No activation
         ".inst 0xc0060c08  // mova { z8.d-z11.d }, za.d[x8, #0]\n"
-        ".inst 0xa060c1a8  // st1w { z8.s-z11.s }, p8, [x13]\n"
-        "addvl x13, x13, #4\n"
+        ".inst 0xa060c1c8  // st1w { z8.s-z11.s }, p8, [x14]\n"
         "9:"  // Width 1: Output done
         "b 28f\n"
         "10:"  // Width 2
-        "add x24, x15, x12, LSL #1\n"
+        "add x24, x16, x12, LSL #1\n"
         "cntw x20, ALL, MUL #6\n"
-        ".inst 0xa04045e4  // ld1w { z4.s-z5.s }, pn9.b/Z, [x15]\n"
+        ".inst 0xa0404604  // ld1w { z4.s-z5.s }, pn9.b/Z, [x16]\n"
         "add x23, x24, x12\n"
         "cmp %x[N], x20\n"
         ".inst 0xa0404700  // ld1w { z0.s-z1.s }, pn9.b/Z, [x24]\n"
-        "add x22, x15, x12\n"
-        "csel x23, x23, x15, GT\n"
+        "add x22, x16, x12\n"
+        "csel x23, x23, x16, GT\n"
         ".inst 0xa04046c6  // ld1w { z6.s-z7.s }, pn9.b/Z, [x22]\n"
         "mov x11, %x[K]\n"
-        "sub x21, %x[N], x16\n"
+        "sub x21, %x[N], x15\n"
         ".inst 0xa04046e2  // ld1w { z2.s-z3.s }, pn9.b/Z, [x23]\n"
         "mov x10, %x[A_ptr]\n"
         "lsl x20, %x[K], #0x2\n"
         ".inst 0x25b567f0  // whilelt p8.s, XZR, x21, VLx4\n"
         "cmp x11, #0x4\n"
         ".inst 0xf8b44958  // rprfm pldmany, x20, [x10]\n"
-        "addvl x15, x15, #2\n"
+        "addvl x16, x16, #2\n"
         ".inst 0xc0040c80  // mova za.d[x8, #0], { z4.d-z7.d }\n"
         "addvl x22, x22, #2\n"
         "addvl x24, x24, #2\n"
@@ -253,8 +247,8 @@ void kai_run_matmul_clamp_f32_f32_f32p2vlx1b_1x16vl_sme2_mla(
         "ble 12f\n"
         "11:"  // Width 2: Multiply loop: Main loop head
         "whilelt p0.s, XZR, x11\n"
-        ".inst 0xa04045e5  // ldnt1w { z4.s-z5.s }, pn9.b/Z, [x15]\n"
-        "addvl x15, x15, #2\n"
+        ".inst 0xa0404605  // ldnt1w { z4.s-z5.s }, pn9.b/Z, [x16]\n"
+        "addvl x16, x16, #2\n"
         "ld1rqw { z0.s }, p0/Z, [x10]\n"
         "sub x11, x11, #0x4\n"
         "add x10, x10, #0x10\n"
@@ -266,8 +260,8 @@ void kai_run_matmul_clamp_f32_f32_f32p2vlx1b_1x16vl_sme2_mla(
         ".inst 0xa04046f7  // ldnt1w { z22.s-z23.s }, pn9.b/Z, [x23]\n"
         "addvl x23, x23, #2\n"
         ".inst 0xc1508080  // fmla za.s[x8, 0], { z4.s-z7.s }, z0.s[0]\n"
-        ".inst 0xa04045f9  // ldnt1w { z24.s-z25.s }, pn9.b/Z, [x15]\n"
-        "addvl x15, x15, #2\n"
+        ".inst 0xa0404619  // ldnt1w { z24.s-z25.s }, pn9.b/Z, [x16]\n"
+        "addvl x16, x16, #2\n"
         ".inst 0xa04046db  // ldnt1w { z26.s-z27.s }, pn9.b/Z, [x22]\n"
         "addvl x22, x22, #2\n"
         ".inst 0xc1508281  // fmla za.s[x8, 1], { z20.s-z23.s }, z0.s[0]\n"
@@ -276,8 +270,8 @@ void kai_run_matmul_clamp_f32_f32_f32p2vlx1b_1x16vl_sme2_mla(
         ".inst 0xa04046eb  // ldnt1w { z10.s-z11.s }, pn9.b/Z, [x23]\n"
         "addvl x23, x23, #2\n"
         ".inst 0xc1508700  // fmla za.s[x8, 0], { z24.s-z27.s }, z0.s[1]\n"
-        ".inst 0xa04045fd  // ldnt1w { z28.s-z29.s }, pn9.b/Z, [x15]\n"
-        "addvl x15, x15, #2\n"
+        ".inst 0xa040461d  // ldnt1w { z28.s-z29.s }, pn9.b/Z, [x16]\n"
+        "addvl x16, x16, #2\n"
         ".inst 0xa04046df  // ldnt1w { z30.s-z31.s }, pn9.b/Z, [x22]\n"
         "addvl x22, x22, #2\n"
         ".inst 0xc1508501  // fmla za.s[x8, 1], { z8.s-z11.s }, z0.s[1]\n"
@@ -286,8 +280,8 @@ void kai_run_matmul_clamp_f32_f32_f32p2vlx1b_1x16vl_sme2_mla(
         ".inst 0xa04046eb  // ldnt1w { z10.s-z11.s }, pn9.b/Z, [x23]\n"
         "addvl x23, x23, #2\n"
         ".inst 0xc1508b80  // fmla za.s[x8, 0], { z28.s-z31.s }, z0.s[2]\n"
-        ".inst 0xa04045f9  // ldnt1w { z24.s-z25.s }, pn9.b/Z, [x15]\n"
-        "addvl x15, x15, #2\n"
+        ".inst 0xa0404619  // ldnt1w { z24.s-z25.s }, pn9.b/Z, [x16]\n"
+        "addvl x16, x16, #2\n"
         ".inst 0xa04046db  // ldnt1w { z26.s-z27.s }, pn9.b/Z, [x22]\n"
         "addvl x22, x22, #2\n"
         ".inst 0xc1508901  // fmla za.s[x8, 1], { z8.s-z11.s }, z0.s[2]\n"
@@ -300,11 +294,10 @@ void kai_run_matmul_clamp_f32_f32_f32p2vlx1b_1x16vl_sme2_mla(
         "bgt 11b\n"
         "12:"  // Width 2: Multiply loop: Single iteration only
         "whilelt p0.s, XZR, x11\n"
-        ".inst 0xa04045e5  // ldnt1w { z4.s-z5.s }, pn9.b/Z, [x15]\n"
+        ".inst 0xa0404605  // ldnt1w { z4.s-z5.s }, pn9.b/Z, [x16]\n"
         "subs x11, x11, #0x1\n"
         "ld1rqw { z8.s }, p0/Z, [x10]\n"
-        "add x10, x10, #0x10\n"
-        "addvl x15, x15, #2\n"
+        "addvl x16, x16, #2\n"
         ".inst 0xa04046c7  // ldnt1w { z6.s-z7.s }, pn9.b/Z, [x22]\n"
         "addvl x22, x22, #2\n"
         ".inst 0xa0404715  // ldnt1w { z20.s-z21.s }, pn9.b/Z, [x24]\n"
@@ -314,9 +307,9 @@ void kai_run_matmul_clamp_f32_f32_f32p2vlx1b_1x16vl_sme2_mla(
         ".inst 0xc1588080  // fmla za.s[x8, 0], { z4.s-z7.s }, z8.s[0]\n"
         ".inst 0xc1588281  // fmla za.s[x8, 1], { z20.s-z23.s }, z8.s[0]\n"
         "ble 13f\n"
-        ".inst 0xa04045ed  // ldnt1w { z12.s-z13.s }, pn9.b/Z, [x15]\n"
+        ".inst 0xa040460d  // ldnt1w { z12.s-z13.s }, pn9.b/Z, [x16]\n"
         "subs x11, x11, #0x1\n"
-        "addvl x15, x15, #2\n"
+        "addvl x16, x16, #2\n"
         ".inst 0xa04046cf  // ldnt1w { z14.s-z15.s }, pn9.b/Z, [x22]\n"
         "addvl x22, x22, #2\n"
         ".inst 0xa040471d  // ldnt1w { z28.s-z29.s }, pn9.b/Z, [x24]\n"
@@ -326,9 +319,9 @@ void kai_run_matmul_clamp_f32_f32_f32p2vlx1b_1x16vl_sme2_mla(
         ".inst 0xc1588580  // fmla za.s[x8, 0], { z12.s-z15.s }, z8.s[1]\n"
         ".inst 0xc1588781  // fmla za.s[x8, 1], { z28.s-z31.s }, z8.s[1]\n"
         "ble 13f\n"
-        ".inst 0xa04045fd  // ldnt1w { z28.s-z29.s }, pn9.b/Z, [x15]\n"
+        ".inst 0xa040461d  // ldnt1w { z28.s-z29.s }, pn9.b/Z, [x16]\n"
         "subs x11, x11, #0x1\n"
-        "addvl x15, x15, #2\n"
+        "addvl x16, x16, #2\n"
         ".inst 0xa04046df  // ldnt1w { z30.s-z31.s }, pn9.b/Z, [x22]\n"
         "addvl x22, x22, #2\n"
         ".inst 0xa0404701  // ldnt1w { z0.s-z1.s }, pn9.b/Z, [x24]\n"
@@ -338,14 +331,10 @@ void kai_run_matmul_clamp_f32_f32_f32p2vlx1b_1x16vl_sme2_mla(
         ".inst 0xc1588b80  // fmla za.s[x8, 0], { z28.s-z31.s }, z8.s[2]\n"
         ".inst 0xc1588801  // fmla za.s[x8, 1], { z0.s-z3.s }, z8.s[2]\n"
         "ble 13f\n"
-        ".inst 0xa04045f5  // ldnt1w { z20.s-z21.s }, pn9.b/Z, [x15]\n"
-        "addvl x15, x15, #2\n"
+        ".inst 0xa0404615  // ldnt1w { z20.s-z21.s }, pn9.b/Z, [x16]\n"
         ".inst 0xa04046d7  // ldnt1w { z22.s-z23.s }, pn9.b/Z, [x22]\n"
-        "addvl x22, x22, #2\n"
         ".inst 0xa0404701  // ldnt1w { z0.s-z1.s }, pn9.b/Z, [x24]\n"
-        "addvl x24, x24, #2\n"
         ".inst 0xa04046e3  // ldnt1w { z2.s-z3.s }, pn9.b/Z, [x23]\n"
-        "addvl x23, x23, #2\n"
         ".inst 0xc1588e80  // fmla za.s[x8, 0], { z20.s-z23.s }, z8.s[3]\n"
         ".inst 0xc1588c01  // fmla za.s[x8, 1], { z0.s-z3.s }, z8.s[3]\n"
         "13:"  // Width 2: Multiply loop: multiply skip
@@ -358,36 +347,34 @@ void kai_run_matmul_clamp_f32_f32_f32p2vlx1b_1x16vl_sme2_mla(
         "ld1rw { z9.s }, p1/Z, [x20]\n"
         ".inst 0xc1a9ca3c  // fclamp { z28.s-z31.s }, z17.s, z9.s\n"
         ".inst 0xc1a9ca24  // fclamp { z4.s-z7.s }, z17.s, z9.s\n"
-        ".inst 0xa060c5bc  // st1w { z28.s-z31.s }, pn9.b, [x13]\n"
-        ".inst 0xa061c1a4  // st1w { z4.s-z7.s }, p8, [x13, #0x4, MUL VL]\n"
-        "addvl x13, x13, #8\n"
+        ".inst 0xa060c5dc  // st1w { z28.s-z31.s }, pn9.b, [x14]\n"
+        ".inst 0xa061c1c4  // st1w { z4.s-z7.s }, p8, [x14, #0x4, MUL VL]\n"
         "b 15f\n"
         "14:"  // Width 2: No activation
         ".inst 0xc0060c04  // mova { z4.d-z7.d }, za.d[x8, #0]\n"
         ".inst 0xc0060c3c  // mova { z28.d-z31.d }, za.d[x8, #1]\n"
-        ".inst 0xa060c5a4  // st1w { z4.s-z7.s }, pn9.b, [x13]\n"
-        ".inst 0xa061c1bc  // st1w { z28.s-z31.s }, p8, [x13, #0x4, MUL VL]\n"
-        "addvl x13, x13, #8\n"
+        ".inst 0xa060c5c4  // st1w { z4.s-z7.s }, pn9.b, [x14]\n"
+        ".inst 0xa061c1dc  // st1w { z28.s-z31.s }, p8, [x14, #0x4, MUL VL]\n"
         "15:"  // Width 2: Output done
         "b 28f\n"
         "16:"  // Width 3
-        "add x26, x15, x12, LSL #2\n"
+        "add x26, x16, x12, LSL #2\n"
         "cntw x20, ALL, MUL #10\n"
-        ".inst 0xa04045f4  // ld1w { z20.s-z21.s }, pn9.b/Z, [x15]\n"
-        "add x25, x15, x12, LSL #1\n"
+        ".inst 0xa0404614  // ld1w { z20.s-z21.s }, pn9.b/Z, [x16]\n"
+        "add x25, x16, x12, LSL #1\n"
         "add x24, x26, x12\n"
         ".inst 0xa0404740  // ld1w { z0.s-z1.s }, pn9.b/Z, [x26]\n"
         "cmp %x[N], x20\n"
-        "add x23, x15, x12\n"
+        "add x23, x16, x12\n"
         ".inst 0xa0404730  // ld1w { z16.s-z17.s }, pn9.b/Z, [x25]\n"
         "add x22, x25, x12\n"
-        "csel x24, x24, x15, GT\n"
+        "csel x24, x24, x16, GT\n"
         ".inst 0xa04046f6  // ld1w { z22.s-z23.s }, pn9.b/Z, [x23]\n"
         "mov x20, #0x2\n"
         ".inst 0xa04046d2  // ld1w { z18.s-z19.s }, pn9.b/Z, [x22]\n"
         "mov x11, %x[K]\n"
         ".inst 0xa0404702  // ld1w { z2.s-z3.s }, pn9.b/Z, [x24]\n"
-        "msub x21, x16, x20, %x[N]\n"
+        "msub x21, x15, x20, %x[N]\n"
         "mov x10, %x[A_ptr]\n"
         "lsl x20, %x[K], #0x2\n"
         ".inst 0x25b567f0  // whilelt p8.s, XZR, x21, VLx4\n"
@@ -395,7 +382,7 @@ void kai_run_matmul_clamp_f32_f32_f32p2vlx1b_1x16vl_sme2_mla(
         "cmp x11, #0x4\n"
         ".inst 0xf8b44958  // rprfm pldmany, x20, [x10]\n"
         ".inst 0xc0040e01  // mova za.d[x8, #1], { z16.d-z19.d }\n"
-        "addvl x15, x15, #2\n"
+        "addvl x16, x16, #2\n"
         "addvl x23, x23, #2\n"
         ".inst 0xc0040c02  // mova za.d[x8, #2], { z0.d-z3.d }\n"
         "addvl x25, x25, #2\n"
@@ -405,8 +392,8 @@ void kai_run_matmul_clamp_f32_f32_f32p2vlx1b_1x16vl_sme2_mla(
         "ble 18f\n"
         "17:"  // Width 3: Multiply loop: Main loop head
         "whilelt p0.s, XZR, x11\n"
-        ".inst 0xa04045ed  // ldnt1w { z12.s-z13.s }, pn9.b/Z, [x15]\n"
-        "addvl x15, x15, #2\n"
+        ".inst 0xa040460d  // ldnt1w { z12.s-z13.s }, pn9.b/Z, [x16]\n"
+        "addvl x16, x16, #2\n"
         "ld1rqw { z3.s }, p0/Z, [x10]\n"
         "sub x11, x11, #0x4\n"
         "add x10, x10, #0x10\n"
@@ -423,8 +410,8 @@ void kai_run_matmul_clamp_f32_f32_f32p2vlx1b_1x16vl_sme2_mla(
         ".inst 0xa0404713  // ldnt1w { z18.s-z19.s }, pn9.b/Z, [x24]\n"
         "addvl x24, x24, #2\n"
         ".inst 0xc1538101  // fmla za.s[x8, 1], { z8.s-z11.s }, z3.s[0]\n"
-        ".inst 0xa04045e9  // ldnt1w { z8.s-z9.s }, pn9.b/Z, [x15]\n"
-        "addvl x15, x15, #2\n"
+        ".inst 0xa0404609  // ldnt1w { z8.s-z9.s }, pn9.b/Z, [x16]\n"
+        "addvl x16, x16, #2\n"
         ".inst 0xa04046eb  // ldnt1w { z10.s-z11.s }, pn9.b/Z, [x23]\n"
         "addvl x23, x23, #2\n"
         ".inst 0xc1538202  // fmla za.s[x8, 2], { z16.s-z19.s }, z3.s[0]\n"
@@ -438,8 +425,8 @@ void kai_run_matmul_clamp_f32_f32_f32p2vlx1b_1x16vl_sme2_mla(
         ".inst 0xa0404707  // ldnt1w { z6.s-z7.s }, pn9.b/Z, [x24]\n"
         "addvl x24, x24, #2\n"
         ".inst 0xc1538601  // fmla za.s[x8, 1], { z16.s-z19.s }, z3.s[1]\n"
-        ".inst 0xa04045e9  // ldnt1w { z8.s-z9.s }, pn9.b/Z, [x15]\n"
-        "addvl x15, x15, #2\n"
+        ".inst 0xa0404609  // ldnt1w { z8.s-z9.s }, pn9.b/Z, [x16]\n"
+        "addvl x16, x16, #2\n"
         ".inst 0xa04046eb  // ldnt1w { z10.s-z11.s }, pn9.b/Z, [x23]\n"
         "addvl x23, x23, #2\n"
         ".inst 0xc1538482  // fmla za.s[x8, 2], { z4.s-z7.s }, z3.s[1]\n"
@@ -453,8 +440,8 @@ void kai_run_matmul_clamp_f32_f32_f32p2vlx1b_1x16vl_sme2_mla(
         ".inst 0xa0404707  // ldnt1w { z6.s-z7.s }, pn9.b/Z, [x24]\n"
         "addvl x24, x24, #2\n"
         ".inst 0xc1538a01  // fmla za.s[x8, 1], { z16.s-z19.s }, z3.s[2]\n"
-        ".inst 0xa04045f5  // ldnt1w { z20.s-z21.s }, pn9.b/Z, [x15]\n"
-        "addvl x15, x15, #2\n"
+        ".inst 0xa0404615  // ldnt1w { z20.s-z21.s }, pn9.b/Z, [x16]\n"
+        "addvl x16, x16, #2\n"
         ".inst 0xa04046f7  // ldnt1w { z22.s-z23.s }, pn9.b/Z, [x23]\n"
         "addvl x23, x23, #2\n"
         ".inst 0xc1538882  // fmla za.s[x8, 2], { z4.s-z7.s }, z3.s[2]\n"
@@ -472,11 +459,10 @@ void kai_run_matmul_clamp_f32_f32_f32p2vlx1b_1x16vl_sme2_mla(
         "bgt 17b\n"
         "18:"  // Width 3: Multiply loop: Single iteration only
         "whilelt p0.s, XZR, x11\n"
-        ".inst 0xa04045e5  // ldnt1w { z4.s-z5.s }, pn9.b/Z, [x15]\n"
+        ".inst 0xa0404605  // ldnt1w { z4.s-z5.s }, pn9.b/Z, [x16]\n"
         "subs x11, x11, #0x1\n"
         "ld1rqw { z8.s }, p0/Z, [x10]\n"
-        "add x10, x10, #0x10\n"
-        "addvl x15, x15, #2\n"
+        "addvl x16, x16, #2\n"
         ".inst 0xa04046e7  // ldnt1w { z6.s-z7.s }, pn9.b/Z, [x23]\n"
         "addvl x23, x23, #2\n"
         ".inst 0xa040473d  // ldnt1w { z28.s-z29.s }, pn9.b/Z, [x25]\n"
@@ -491,9 +477,9 @@ void kai_run_matmul_clamp_f32_f32_f32p2vlx1b_1x16vl_sme2_mla(
         ".inst 0xc1588381  // fmla za.s[x8, 1], { z28.s-z31.s }, z8.s[0]\n"
         ".inst 0xc1588282  // fmla za.s[x8, 2], { z20.s-z23.s }, z8.s[0]\n"
         "ble 19f\n"
-        ".inst 0xa04045ed  // ldnt1w { z12.s-z13.s }, pn9.b/Z, [x15]\n"
+        ".inst 0xa040460d  // ldnt1w { z12.s-z13.s }, pn9.b/Z, [x16]\n"
         "subs x11, x11, #0x1\n"
-        "addvl x15, x15, #2\n"
+        "addvl x16, x16, #2\n"
         ".inst 0xa04046ef  // ldnt1w { z14.s-z15.s }, pn9.b/Z, [x23]\n"
         "addvl x23, x23, #2\n"
         ".inst 0xa0404725  // ldnt1w { z4.s-z5.s }, pn9.b/Z, [x25]\n"
@@ -508,9 +494,9 @@ void kai_run_matmul_clamp_f32_f32_f32p2vlx1b_1x16vl_sme2_mla(
         ".inst 0xc1588481  // fmla za.s[x8, 1], { z4.s-z7.s }, z8.s[1]\n"
         ".inst 0xc1588602  // fmla za.s[x8, 2], { z16.s-z19.s }, z8.s[1]\n"
         "ble 19f\n"
-        ".inst 0xa04045e1  // ldnt1w { z0.s-z1.s }, pn9.b/Z, [x15]\n"
+        ".inst 0xa0404601  // ldnt1w { z0.s-z1.s }, pn9.b/Z, [x16]\n"
         "subs x11, x11, #0x1\n"
-        "addvl x15, x15, #2\n"
+        "addvl x16, x16, #2\n"
         ".inst 0xa04046e3  // ldnt1w { z2.s-z3.s }, pn9.b/Z, [x23]\n"
         "addvl x23, x23, #2\n"
         ".inst 0xa040472d  // ldnt1w { z12.s-z13.s }, pn9.b/Z, [x25]\n"
@@ -525,19 +511,13 @@ void kai_run_matmul_clamp_f32_f32_f32p2vlx1b_1x16vl_sme2_mla(
         ".inst 0xc1588981  // fmla za.s[x8, 1], { z12.s-z15.s }, z8.s[2]\n"
         ".inst 0xc1588a02  // fmla za.s[x8, 2], { z16.s-z19.s }, z8.s[2]\n"
         "ble 19f\n"
-        ".inst 0xa04045e5  // ldnt1w { z4.s-z5.s }, pn9.b/Z, [x15]\n"
-        "addvl x15, x15, #2\n"
+        ".inst 0xa0404605  // ldnt1w { z4.s-z5.s }, pn9.b/Z, [x16]\n"
         ".inst 0xa04046e7  // ldnt1w { z6.s-z7.s }, pn9.b/Z, [x23]\n"
-        "addvl x23, x23, #2\n"
         ".inst 0xa040472d  // ldnt1w { z12.s-z13.s }, pn9.b/Z, [x25]\n"
-        "addvl x25, x25, #2\n"
         ".inst 0xa04046cf  // ldnt1w { z14.s-z15.s }, pn9.b/Z, [x22]\n"
-        "addvl x22, x22, #2\n"
         ".inst 0xa0404755  // ldnt1w { z20.s-z21.s }, pn9.b/Z, [x26]\n"
         ".inst 0xc1588c80  // fmla za.s[x8, 0], { z4.s-z7.s }, z8.s[3]\n"
-        "addvl x26, x26, #2\n"
         ".inst 0xa0404717  // ldnt1w { z22.s-z23.s }, pn9.b/Z, [x24]\n"
-        "addvl x24, x24, #2\n"
         ".inst 0xc1588d81  // fmla za.s[x8, 1], { z12.s-z15.s }, z8.s[3]\n"
         ".inst 0xc1588e82  // fmla za.s[x8, 2], { z20.s-z23.s }, z8.s[3]\n"
         "19:"  // Width 3: Multiply loop: multiply skip
@@ -552,42 +532,40 @@ void kai_run_matmul_clamp_f32_f32_f32p2vlx1b_1x16vl_sme2_mla(
         ".inst 0xc1b4caa8  // fclamp { z8.s-z11.s }, z21.s, z20.s\n"
         ".inst 0xc1b4caac  // fclamp { z12.s-z15.s }, z21.s, z20.s\n"
         ".inst 0xc1b4cab0  // fclamp { z16.s-z19.s }, z21.s, z20.s\n"
-        ".inst 0xa060c5a8  // st1w { z8.s-z11.s }, pn9.b, [x13]\n"
-        ".inst 0xa061c5ac  // st1w { z12.s-z15.s }, pn9.b, [x13, #0x4, MUL VL]\n"
-        ".inst 0xa062c1b0  // st1w { z16.s-z19.s }, p8, [x13, #0x8, MUL VL]\n"
-        "addvl x13, x13, #12\n"
+        ".inst 0xa060c5c8  // st1w { z8.s-z11.s }, pn9.b, [x14]\n"
+        ".inst 0xa061c5cc  // st1w { z12.s-z15.s }, pn9.b, [x14, #0x4, MUL VL]\n"
+        ".inst 0xa062c1d0  // st1w { z16.s-z19.s }, p8, [x14, #0x8, MUL VL]\n"
         "b 21f\n"
         "20:"  // Width 3: No activation
         ".inst 0xc0060c04  // mova { z4.d-z7.d }, za.d[x8, #0]\n"
         ".inst 0xc0060c20  // mova { z0.d-z3.d }, za.d[x8, #1]\n"
         ".inst 0xc0060c50  // mova { z16.d-z19.d }, za.d[x8, #2]\n"
-        ".inst 0xa060c5a4  // st1w { z4.s-z7.s }, pn9.b, [x13]\n"
-        ".inst 0xa061c5a0  // st1w { z0.s-z3.s }, pn9.b, [x13, #0x4, MUL VL]\n"
-        ".inst 0xa062c1b0  // st1w { z16.s-z19.s }, p8, [x13, #0x8, MUL VL]\n"
-        "addvl x13, x13, #12\n"
+        ".inst 0xa060c5c4  // st1w { z4.s-z7.s }, pn9.b, [x14]\n"
+        ".inst 0xa061c5c0  // st1w { z0.s-z3.s }, pn9.b, [x14, #0x4, MUL VL]\n"
+        ".inst 0xa062c1d0  // st1w { z16.s-z19.s }, p8, [x14, #0x8, MUL VL]\n"
         "21:"  // Width 3: Output done
         "b 28f\n"
         "22:"  // Width 4
-        "add x9, x15, x12, LSL #2\n"
+        "add x9, x16, x12, LSL #2\n"
         "cntw x20, ALL, MUL #14\n"
-        ".inst 0xa04045ec  // ld1w { z12.s-z13.s }, pn9.b/Z, [x15]\n"
+        ".inst 0xa040460c  // ld1w { z12.s-z13.s }, pn9.b/Z, [x16]\n"
         "add x28, x9, x12, LSL #1\n"
-        "add x27, x15, x12, LSL #1\n"
+        "add x27, x16, x12, LSL #1\n"
         ".inst 0xa0404528  // ld1w { z8.s-z9.s }, pn9.b/Z, [x9]\n"
         "add x26, x28, x12\n"
         "cmp %x[N], x20\n"
         ".inst 0xa0404760  // ld1w { z0.s-z1.s }, pn9.b/Z, [x27]\n"
-        "add x25, x15, x12\n"
+        "add x25, x16, x12\n"
         "add x24, x27, x12\n"
         ".inst 0xa0404790  // ld1w { z16.s-z17.s }, pn9.b/Z, [x28]\n"
         "add x23, x9, x12\n"
-        "csel x26, x26, x15, GT\n"
+        "csel x26, x26, x16, GT\n"
         ".inst 0xa040472e  // ld1w { z14.s-z15.s }, pn9.b/Z, [x25]\n"
         "mov x20, #0x3\n"
         ".inst 0xa0404702  // ld1w { z2.s-z3.s }, pn9.b/Z, [x24]\n"
         "mov x11, %x[K]\n"
         ".inst 0xa04046ea  // ld1w { z10.s-z11.s }, pn9.b/Z, [x23]\n"
-        "msub x21, x16, x20, %x[N]\n"
+        "msub x21, x15, x20, %x[N]\n"
         "mov x10, %x[A_ptr]\n"
         ".inst 0xa0404752  // ld1w { z18.s-z19.s }, pn9.b/Z, [x26]\n"
         "lsl x20, %x[K], #0x2\n"
@@ -596,8 +574,8 @@ void kai_run_matmul_clamp_f32_f32_f32p2vlx1b_1x16vl_sme2_mla(
         "cmp x11, #0x4\n"
         ".inst 0xf8b44958  // rprfm pldmany, x20, [x10]\n"
         ".inst 0xc0040c01  // mova za.d[x8, #1], { z0.d-z3.d }\n"
-        "add x22, x15, x12, LSL #3\n"
-        "addvl x15, x15, #2\n"
+        "add x22, x16, x12, LSL #3\n"
+        "addvl x16, x16, #2\n"
         ".inst 0xc0040d02  // mova za.d[x8, #2], { z8.d-z11.d }\n"
         "addvl x25, x25, #2\n"
         "addvl x27, x27, #2\n"
@@ -610,8 +588,8 @@ void kai_run_matmul_clamp_f32_f32_f32p2vlx1b_1x16vl_sme2_mla(
         "ble 24f\n"
         "23:"  // Width 4: Multiply loop: Main loop head
         "whilelt p0.s, XZR, x11\n"
-        ".inst 0xa04045e9  // ldnt1w { z8.s-z9.s }, pn9.b/Z, [x15]\n"
-        "addvl x15, x15, #2\n"
+        ".inst 0xa0404609  // ldnt1w { z8.s-z9.s }, pn9.b/Z, [x16]\n"
+        "addvl x16, x16, #2\n"
         "ld1rqw { z13.s }, p0/Z, [x10]\n"
         "sub x11, x11, #0x4\n"
         "add x10, x10, #0x10\n"
@@ -633,8 +611,8 @@ void kai_run_matmul_clamp_f32_f32_f32p2vlx1b_1x16vl_sme2_mla(
         ".inst 0xa0404743  // ldnt1w { z2.s-z3.s }, pn9.b/Z, [x26]\n"
         "addvl x26, x26, #2\n"
         ".inst 0xc15d8202  // fmla za.s[x8, 2], { z16.s-z19.s }, z13.s[0]\n"
-        ".inst 0xa04045fd  // ldnt1w { z28.s-z29.s }, pn9.b/Z, [x15]\n"
-        "addvl x15, x15, #2\n"
+        ".inst 0xa040461d  // ldnt1w { z28.s-z29.s }, pn9.b/Z, [x16]\n"
+        "addvl x16, x16, #2\n"
         ".inst 0xa040473f  // ldnt1w { z30.s-z31.s }, pn9.b/Z, [x25]\n"
         "addvl x25, x25, #2\n"
         ".inst 0xc15d8003  // fmla za.s[x8, 3], { z0.s-z3.s }, z13.s[0]\n"
@@ -653,8 +631,8 @@ void kai_run_matmul_clamp_f32_f32_f32p2vlx1b_1x16vl_sme2_mla(
         ".inst 0xa0404753  // ldnt1w { z18.s-z19.s }, pn9.b/Z, [x26]\n"
         "addvl x26, x26, #2\n"
         ".inst 0xc15d8502  // fmla za.s[x8, 2], { z8.s-z11.s }, z13.s[1]\n"
-        ".inst 0xa04045e5  // ldnt1w { z4.s-z5.s }, pn9.b/Z, [x15]\n"
-        "addvl x15, x15, #2\n"
+        ".inst 0xa0404605  // ldnt1w { z4.s-z5.s }, pn9.b/Z, [x16]\n"
+        "addvl x16, x16, #2\n"
         ".inst 0xa0404727  // ldnt1w { z6.s-z7.s }, pn9.b/Z, [x25]\n"
         "addvl x25, x25, #2\n"
         ".inst 0xc15d8603  // fmla za.s[x8, 3], { z16.s-z19.s }, z13.s[1]\n"
@@ -673,8 +651,8 @@ void kai_run_matmul_clamp_f32_f32_f32p2vlx1b_1x16vl_sme2_mla(
         ".inst 0xa0404753  // ldnt1w { z18.s-z19.s }, pn9.b/Z, [x26]\n"
         "addvl x26, x26, #2\n"
         ".inst 0xc15d8902  // fmla za.s[x8, 2], { z8.s-z11.s }, z13.s[2]\n"
-        ".inst 0xa04045f5  // ldnt1w { z20.s-z21.s }, pn9.b/Z, [x15]\n"
-        "addvl x15, x15, #2\n"
+        ".inst 0xa0404615  // ldnt1w { z20.s-z21.s }, pn9.b/Z, [x16]\n"
+        "addvl x16, x16, #2\n"
         ".inst 0xa0404737  // ldnt1w { z22.s-z23.s }, pn9.b/Z, [x25]\n"
         "addvl x25, x25, #2\n"
         ".inst 0xc15d8a03  // fmla za.s[x8, 3], { z16.s-z19.s }, z13.s[2]\n"
@@ -697,11 +675,10 @@ void kai_run_matmul_clamp_f32_f32_f32p2vlx1b_1x16vl_sme2_mla(
         "bgt 23b\n"
         "24:"  // Width 4: Multiply loop: Single iteration only
         "whilelt p0.s, XZR, x11\n"
-        ".inst 0xa04045e5  // ldnt1w { z4.s-z5.s }, pn9.b/Z, [x15]\n"
+        ".inst 0xa0404605  // ldnt1w { z4.s-z5.s }, pn9.b/Z, [x16]\n"
         "subs x11, x11, #0x1\n"
         "ld1rqw { z8.s }, p0/Z, [x10]\n"
-        "add x10, x10, #0x10\n"
-        "addvl x15, x15, #2\n"
+        "addvl x16, x16, #2\n"
         ".inst 0xa0404727  // ldnt1w { z6.s-z7.s }, pn9.b/Z, [x25]\n"
         "addvl x25, x25, #2\n"
         ".inst 0xa0404761  // ldnt1w { z0.s-z1.s }, pn9.b/Z, [x27]\n"
@@ -721,9 +698,9 @@ void kai_run_matmul_clamp_f32_f32_f32p2vlx1b_1x16vl_sme2_mla(
         ".inst 0xc1588182  // fmla za.s[x8, 2], { z12.s-z15.s }, z8.s[0]\n"
         ".inst 0xc1588203  // fmla za.s[x8, 3], { z16.s-z19.s }, z8.s[0]\n"
         "ble 25f\n"
-        ".inst 0xa04045fd  // ldnt1w { z28.s-z29.s }, pn9.b/Z, [x15]\n"
+        ".inst 0xa040461d  // ldnt1w { z28.s-z29.s }, pn9.b/Z, [x16]\n"
         "subs x11, x11, #0x1\n"
-        "addvl x15, x15, #2\n"
+        "addvl x16, x16, #2\n"
         ".inst 0xa040473f  // ldnt1w { z30.s-z31.s }, pn9.b/Z, [x25]\n"
         "addvl x25, x25, #2\n"
         ".inst 0xa0404761  // ldnt1w { z0.s-z1.s }, pn9.b/Z, [x27]\n"
@@ -743,9 +720,9 @@ void kai_run_matmul_clamp_f32_f32_f32p2vlx1b_1x16vl_sme2_mla(
         ".inst 0xc1588482  // fmla za.s[x8, 2], { z4.s-z7.s }, z8.s[1]\n"
         ".inst 0xc1588603  // fmla za.s[x8, 3], { z16.s-z19.s }, z8.s[1]\n"
         "ble 25f\n"
-        ".inst 0xa04045fd  // ldnt1w { z28.s-z29.s }, pn9.b/Z, [x15]\n"
+        ".inst 0xa040461d  // ldnt1w { z28.s-z29.s }, pn9.b/Z, [x16]\n"
         "subs x11, x11, #0x1\n"
-        "addvl x15, x15, #2\n"
+        "addvl x16, x16, #2\n"
         ".inst 0xa040473f  // ldnt1w { z30.s-z31.s }, pn9.b/Z, [x25]\n"
         "addvl x25, x25, #2\n"
         ".inst 0xa040476d  // ldnt1w { z12.s-z13.s }, pn9.b/Z, [x27]\n"
@@ -765,24 +742,16 @@ void kai_run_matmul_clamp_f32_f32_f32p2vlx1b_1x16vl_sme2_mla(
         ".inst 0xc1588802  // fmla za.s[x8, 2], { z0.s-z3.s }, z8.s[2]\n"
         ".inst 0xc1588a03  // fmla za.s[x8, 3], { z16.s-z19.s }, z8.s[2]\n"
         "ble 25f\n"
-        ".inst 0xa04045e5  // ldnt1w { z4.s-z5.s }, pn9.b/Z, [x15]\n"
-        "addvl x15, x15, #2\n"
+        ".inst 0xa0404605  // ldnt1w { z4.s-z5.s }, pn9.b/Z, [x16]\n"
         ".inst 0xa0404727  // ldnt1w { z6.s-z7.s }, pn9.b/Z, [x25]\n"
-        "addvl x25, x25, #2\n"
         ".inst 0xa040476d  // ldnt1w { z12.s-z13.s }, pn9.b/Z, [x27]\n"
-        "addvl x27, x27, #2\n"
         ".inst 0xa040470f  // ldnt1w { z14.s-z15.s }, pn9.b/Z, [x24]\n"
-        "addvl x24, x24, #2\n"
         ".inst 0xa0404535  // ldnt1w { z20.s-z21.s }, pn9.b/Z, [x9]\n"
         ".inst 0xc1588c80  // fmla za.s[x8, 0], { z4.s-z7.s }, z8.s[3]\n"
-        "addvl x9, x9, #2\n"
         ".inst 0xa04046f7  // ldnt1w { z22.s-z23.s }, pn9.b/Z, [x23]\n"
-        "addvl x23, x23, #2\n"
         ".inst 0xa0404791  // ldnt1w { z16.s-z17.s }, pn9.b/Z, [x28]\n"
         ".inst 0xc1588d81  // fmla za.s[x8, 1], { z12.s-z15.s }, z8.s[3]\n"
-        "addvl x28, x28, #2\n"
         ".inst 0xa0404753  // ldnt1w { z18.s-z19.s }, pn9.b/Z, [x26]\n"
-        "addvl x26, x26, #2\n"
         ".inst 0xc1588e82  // fmla za.s[x8, 2], { z20.s-z23.s }, z8.s[3]\n"
         ".inst 0xc1588e03  // fmla za.s[x8, 3], { z16.s-z19.s }, z8.s[3]\n"
         "25:"  // Width 4: Multiply loop: multiply skip
@@ -799,39 +768,38 @@ void kai_run_matmul_clamp_f32_f32_f32p2vlx1b_1x16vl_sme2_mla(
         ".inst 0xc1b4caa0  // fclamp { z0.s-z3.s }, z21.s, z20.s\n"
         ".inst 0xc1b4caac  // fclamp { z12.s-z15.s }, z21.s, z20.s\n"
         ".inst 0xc1b4cab0  // fclamp { z16.s-z19.s }, z21.s, z20.s\n"
-        ".inst 0xa060c5a4  // st1w { z4.s-z7.s }, pn9.b, [x13]\n"
-        ".inst 0xa061c5a0  // st1w { z0.s-z3.s }, pn9.b, [x13, #0x4, MUL VL]\n"
-        ".inst 0xa062c5ac  // st1w { z12.s-z15.s }, pn9.b, [x13, #0x8, MUL VL]\n"
-        ".inst 0xa063c1b0  // st1w { z16.s-z19.s }, p8, [x13, #0xc, MUL VL]\n"
-        "addvl x13, x13, #16\n"
+        ".inst 0xa060c5c4  // st1w { z4.s-z7.s }, pn9.b, [x14]\n"
+        ".inst 0xa061c5c0  // st1w { z0.s-z3.s }, pn9.b, [x14, #0x4, MUL VL]\n"
+        ".inst 0xa062c5cc  // st1w { z12.s-z15.s }, pn9.b, [x14, #0x8, MUL VL]\n"
+        ".inst 0xa063c1d0  // st1w { z16.s-z19.s }, p8, [x14, #0xc, MUL VL]\n"
+        "addvl x14, x14, #16\n"
         "b 27f\n"
         "26:"  // Width 4: No activation
         ".inst 0xc0060c0c  // mova { z12.d-z15.d }, za.d[x8, #0]\n"
         ".inst 0xc0060c20  // mova { z0.d-z3.d }, za.d[x8, #1]\n"
         ".inst 0xc0060c50  // mova { z16.d-z19.d }, za.d[x8, #2]\n"
         ".inst 0xc0060c64  // mova { z4.d-z7.d }, za.d[x8, #3]\n"
-        ".inst 0xa060c5ac  // st1w { z12.s-z15.s }, pn9.b, [x13]\n"
-        ".inst 0xa061c5a0  // st1w { z0.s-z3.s }, pn9.b, [x13, #0x4, MUL VL]\n"
-        ".inst 0xa062c5b0  // st1w { z16.s-z19.s }, pn9.b, [x13, #0x8, MUL VL]\n"
-        ".inst 0xa063c1a4  // st1w { z4.s-z7.s }, p8, [x13, #0xc, MUL VL]\n"
-        "addvl x13, x13, #16\n"
+        ".inst 0xa060c5cc  // st1w { z12.s-z15.s }, pn9.b, [x14]\n"
+        ".inst 0xa061c5c0  // st1w { z0.s-z3.s }, pn9.b, [x14, #0x4, MUL VL]\n"
+        ".inst 0xa062c5d0  // st1w { z16.s-z19.s }, pn9.b, [x14, #0x8, MUL VL]\n"
+        ".inst 0xa063c1c4  // st1w { z4.s-z7.s }, p8, [x14, #0xc, MUL VL]\n"
+        "addvl x14, x14, #16\n"
         "27:"  // Width 4: Output done
-        "subs x14, x14, #0x4\n"
-        "mov x15, x22\n"
-        "sub %x[N], %x[N], x16, LSL #2\n"
+        "subs x13, x13, #0x4\n"
+        "mov x16, x22\n"
+        "sub %x[N], %x[N], x15, LSL #2\n"
         "bgt 4b\n"
         "28:"  // Exit
         ".inst 0xd503467f  // SMSTOP\n"
-        "ptrue p8.b\n"
         : [N] "+&r"(N)
         : [A_ptr] "r"(A_ptr), [B_ptr] "r"(B_ptr), [K] "r"(K), [args_ptr] "r"(&ka), [flags] "r"(flags),
           [offset_max] "I"(offsetof(KernelArgs, maxval)), [offset_min] "I"(offsetof(KernelArgs, minval)),
           [output_ptr] "r"(output_ptr)
-        : "cc", "memory", "p0", "p1", "p2", "p3", "p4", "p5", "p6", "p7", "p8", "p9", "p10", "p11", "p12", "p13", "p14",
-          "p15", "x8", "x9", "x10", "x11", "x12", "x13", "x14", "x15", "x16", "x20", "x21", "x22", "x23", "x24", "x25",
-          "x26", "x27", "x28", "z0", "z1", "z2", "z3", "z4", "z5", "z6", "z7", "z8", "z9", "z10", "z11", "z12", "z13",
-          "z14", "z15", "z16", "z17", "z18", "z19", "z20", "z21", "z22", "z23", "z24", "z25", "z26", "z27", "z28",
-          "z29", "z30", "z31");
+        : "cc", "memory", "p0", "p1", "p10", "p11", "p12", "p13", "p14", "p15", "p2", "p3", "p4", "p5", "p6", "p7",
+          "p8", "p9", "x10", "x11", "x12", "x13", "x14", "x15", "x16", "x20", "x21", "x22", "x23", "x24", "x25", "x26",
+          "x27", "x28", "x8", "x9", "z0", "z1", "z10", "z11", "z12", "z13", "z14", "z15", "z16", "z17", "z18", "z19",
+          "z2", "z20", "z21", "z22", "z23", "z24", "z25", "z26", "z27", "z28", "z29", "z3", "z30", "z31", "z4", "z5",
+          "z6", "z7", "z8", "z9");
 }
 
 #endif  // Architectural features check.
-- 
GitLab