WIP: code cleanup

2026-03-05 13:33:23 -05:00
parent a6ab9708a0
commit 3defce1365
14 changed files with 392 additions and 674 deletions
@@ -2,6 +2,31 @@

 A Discord bot that stores long-term chat history using SQLite database with RAG (Retrieval-Augmented Generation) capabilities powered by custom embedding models.

+- [Vibe Discord Bot with RAG Chat History](#vibe-discord-bot-with-rag-chat-history)
+  - [Quick Start - Available Commands](#quick-start---available-commands)
+    - [Pre-built Bots](#pre-built-bots)
+    - [Custom Bot Management](#custom-bot-management)
+    - [Using Custom Bots](#using-custom-bots)
+  - [Features](#features)
+  - [Setup](#setup)
+    - [Prerequisites](#prerequisites)
+    - [Environment Variables](#environment-variables)
+    - [Installation](#installation)
+  - [How It Works](#how-it-works)
+    - [Database Structure](#database-structure)
+    - [RAG Process](#rag-process)
+    - [Configuration Options](#configuration-options)
+  - [Usage](#usage)
+  - [File Structure](#file-structure)
+  - [Build](#build)
+    - [Using uv](#using-uv)
+    - [Container](#container)
+  - [Docs](#docs)
+    - [Open AI](#open-ai)
+  - [Models](#models)
+    - [Qwen3.5](#qwen35)
+
+
 ## Quick Start - Available Commands

 ### Pre-built Bots
@@ -167,4 +192,27 @@ export DISCORD_TOKEN=$(cat .token)
 podman run -e DISCORD_TOKEN localhost/vibe-bot:latest
 ```

-## Deploy
+## Docs
+
+### Open AI
+
+Chat
+
+<https://developers.openai.com/api/reference/resources/chat/subresources/completions/methods/create>
+
+Images
+
+<https://developers.openai.com/api/reference/python/resources/images/methods/edit>
+
+## Models
+
+### Qwen3.5
+
+> We recommend using the following set of sampling parameters for generation
+
+- Non-thinking mode for text tasks: temperature=1.0, top_p=1.00, top_k=20, min_p=0.0, presence_penalty=2.0, repetition_penalty=1.0
+- Non-thinking mode for VL tasks: temperature=0.7, top_p=0.80, top_k=20, min_p=0.0, presence_penalty=1.5, repetition_penalty=1.0
+- Thinking mode for text tasks: temperature=1.0, top_p=0.95, top_k=20, min_p=0.0, presence_penalty=1.5, repetition_penalty=1.0
+- Thinking mode for VL or precise coding (e.g. WebDev) tasks : temperature=0.6, top_p=0.95, top_k=20, min_p=0.0, presence_penalty=0.0, repetition_penalty=1.0
+
+> Please note that the support for sampling parameters varies according to inference frameworks.