diff --git a/src/cpp/llama_cpp/CMakeLists.txt b/src/cpp/llama_cpp/CMakeLists.txt
index 82a3c318365994353c742db2d695fdc0a09034ee..918be765c02e72b860938ddc213a05ea119c0f19 100644
--- a/src/cpp/llama_cpp/CMakeLists.txt
+++ b/src/cpp/llama_cpp/CMakeLists.txt
@@ -25,7 +25,7 @@ set(LLAMA_GIT_URL "https://github.com/ggerganov/llama.cpp.git"
         CACHE STRING
         "Git URL for llama.cpp repo")
 
-set(LLAMA_GIT_SHA "c5d91a7"
+set(LLAMA_GIT_SHA "a4090d1"
         CACHE STRING
         "Git commit SHA for llama.cpp repo")
 
diff --git a/src/cpp/llama_cpp/include/LlamaImpl.hpp b/src/cpp/llama_cpp/include/LlamaImpl.hpp
index ff362e5d5335e92fe537e8f4a12e1bfeaac37559..0982c1ddc6b3b999e24859dea318ec0a89d59a3a 100644
--- a/src/cpp/llama_cpp/include/LlamaImpl.hpp
+++ b/src/cpp/llama_cpp/include/LlamaImpl.hpp
@@ -11,7 +11,6 @@
 #include "llama.h"
 #include "common.h"
 #include "LLM.hpp"
-#include "llama-sampling.h"
 
 #define LOG_INF(...) do { fprintf(stdout, __VA_ARGS__); } while (0)
 
diff --git a/src/cpp/llama_cpp/jni/Llama.cpp b/src/cpp/llama_cpp/jni/Llama.cpp
index a0bf6b3a92ca775d49b9deda56e15ddf50e44859..6f8c98071c067adbb45caa2fca00d3b0259f6a53 100644
--- a/src/cpp/llama_cpp/jni/Llama.cpp
+++ b/src/cpp/llama_cpp/jni/Llama.cpp
@@ -45,7 +45,7 @@ JNIEXPORT jlong JNICALL Java_com_arm_llm_Llama_loadModel(JNIEnv *env, jobject, j
 JNIEXPORT void JNICALL
 Java_com_arm_llm_Llama_kvCacheClear(JNIEnv, jobject, jlong contextPtr)
 {
-    llama_kv_cache_clear(reinterpret_cast<llama_context *>(contextPtr));
+    llama_kv_self_clear(reinterpret_cast<llama_context *>(contextPtr));
 }
 
 /**
@@ -57,8 +57,7 @@ Java_com_arm_llm_Llama_kvCacheClear(JNIEnv, jobject, jlong contextPtr)
 JNIEXPORT void JNICALL
 Java_com_arm_llm_Llama_kvCacheSeqRm(JNIEnv, jobject, jlong contextPtr, jint start_pos, jint last_pos)
 {
-
-    llama_kv_cache_seq_rm(reinterpret_cast<llama_context *>(contextPtr), -1, start_pos, last_pos);
+    llama_kv_self_seq_rm(reinterpret_cast<llama_context *>(contextPtr), -1, start_pos, last_pos);
 }
 
 /**