我的配置 SuperMicro7048 CPU:e5-2686v4 * 2 RAM:DDR4-2133-16g * 8 GPU:RTX4080Super 32g * 2 Sys:Ubuntu22.04 with Docker 关键1:选用Llama.cpp而非Vllm运行模型 选用unsloth/Qwen3.5-122B-A10B-UD-Q2_K_…
创建一个文件夹叫Project_Sys_Memory,放两个文件 Project_Preference.md: # Definition This file containes user preferences for developers & code agents for this project. ## About Git - Whe…
博主提交的PR已合并,更新FunASR到最新版即可 太长不看,直接解决问题(覆盖安装博主Fork并打补丁的FunASR库):pip install --no-cache-dir git+https://github.com/MotorBottle/FunASR.git@main 已提交PR,该PR尚未合并,但测试有效,合并后会在此说明,如已合并,直…
Docker 和 NVIDIA 官方文档里,关于 GPU 的写法不一样: 一个用 deploy.resources.reservations.devices(Docker 官方), 一个用 runtime: nvidia + 环境变量(NVIDIA 官方)。 它们都能跑,但机制不同、不能混用。 以下用同一个 Whisper GPU 服务作为示例,清…
把 Ollama 自带的 OpenAI 兼容端点直接拿来接入 Claude Code、RAG 服务或者自研应用,总会遇到各种“不够像原版”的坑:参数缺失、工具调用对不上、上下文控制不够细……Ollama2OpenAI 就是为了解决这些痛点而来,用一层轻量网关把本地模型彻底转换成 OpenAI / Anthropic 服务器。 为什么需要它 渠道差异…
With this method you don't need to configure Environment Virables as they are only effective in this run ANTHROPIC_AUTH_TOKEN=sk-1234 \ ANTHROPIC_BASE_URL=http://127.0.0.1:224…
Original link: https://mlapi.medium.com/how-to-run-ollama-on-specific-gpu-s-8e1369d75c34 Author: mlapi In this tutorial we will see how to specify any GPU for ollama or multip…
简要概述 OpenAI ChatGPT语音交互:OpenAI通过将大型语言模型(ChatGPT)与语音输入输出模块相结合,实现了语音对话功能。用户说话时,系统利用Whisper语音识别模型将语音转录成文本供ChatGPT理解,然后由ChatGPT生成回答文本,再通过新一代TTS(文本转语音)模型将回答朗读出来。该方案本质上还是串联管线:语音->…
注意:Ollama官方容器不支持Jetson的GPU,需使用Step3的容器 Step1: check version cat /etc/nv_tegra_release Typical output: # R36 (release), REVISION: 4.0, GCID: 37976356, BOARD: t23x # DATE: 2025-…
How do I configure Ollama server? Ollama server can be configured with environment variables. Setting environment variables on Mac If Ollama is run as a macOS application, env…