checkpoint commit

2026-05-05 06:26:40 -04:00
parent e43c534ceb
commit f2015e2c71
76 changed files with 4265 additions and 235 deletions
@@ -1,8 +1,8 @@
 [Unit]
-Description=A Llama CPP Server Running GPT OSS 120b
+Description=A Llama CPP Server Running a Reasoning Model

 [Container]
-# Shared AI internal pod
+# Shared AI internal pod without internet access
 Pod=ai-internal.pod

 # Image is built locally via podman build
@@ -17,16 +17,21 @@ AddDevice=/dev/dri

 # Server command
 Exec=--port 8000 \
-    -c 128000 \
-    --top-k 64 \
+    -c 262144 \
+    -n 32768 \
+    --temp 0.7 \
    --top-p 0.95 \
-    --temp 1.0 \
+    --top-k 20 \
+    --min-p 0.0 \
+    --presence-penalty 0.0 \
+    --repeat-penalty 1.0 \
+    --reasoning-budget 5000 \
+    -fa on \
    --perf \
-    -v \
    --n-gpu-layers all \
    --jinja \
-    -m /models/gemma-4-26b-a4b/gemma-4-26B-A4B-it-UD-Q8_K_XL.gguf \
-    --mmproj /models/gemma-4-26b-a4b/mmproj-BF16.gguf \
+    -m /models/qwen3.6-35b-a3b/Qwen3.6-35B-A3B-UD-Q5_K_M.gguf \
+    --mmproj /models/qwen3.6-35b-a3b/mmproj-F16.gguf \
    --alias think

 # Health Check
@@ -44,4 +49,4 @@ TimeoutStartSec=900

 [Install]
 # Start by default on boot
-WantedBy=multi-user.target default.target
+WantedBy=multi-user.target default.target