Python

标签:Python下的所有文章

47 篇文章
0 min 平均阅读
vLLm运行模型显存不够的问题

vLLM运行模型显存不足的原因及解决方法在使用vLLM部署大语言模型时,显存不足是最常见的报错(如提示“Free memory on device cuda:0 is less than desired GPU memory utilization”),其核心是GPU显存无法满足模型运行、优化策略及...

vllm安装运行本地大模型 - windows篇

vllm安装运行本地大模型 - windows篇前言目前 vLLM 对 Windows 的原生支持(Native Windows Support)非常有限且处于早期实验阶段,而在 WSL2 环境下则非常成熟和稳定,所以在windows电脑上运行vllm,尽可能的需要安装wsl2WSL安装及相关命令官...

vLLM 大模型开发全栈学习指南

vLLM 大模型开发全栈学习指南本指南面向具备 Python 基础和大模型核心概念(Transformer、Attention、Quantization)的开发人员,旨在帮助大家从零开始掌握 vLLM 框架,实现高性能推理服务的搭建、二次开发与深度调优,全程注重实操性与实用性,避免冗余的学术化表述,...

Ollama 本地大模型学习与实战指南

Ollama 本地大模型学习与实战指南目标读者:有一定技术基础(了解终端/命令行、基本编程概念)但从未接触过 Ollama 的开发者1. 简介1.1 什么是 Ollama?Ollama 是一款轻量级的开源工具,专为在本地环境中轻松运行、管理和定制大型语言模型(LLM)而设计。它将复杂的大模型部署流程...