本地模型概述

使用 Cline 在本地运行模型

在您自己的硬件上运行具备真正能力的模型，使 Cline 完全离线。无需 API 费用，数据不会离开您的机器，也不依赖互联网。本地模型已经达到了一个转折点，现在它们对于实际的开发工作来说是可行的。本指南涵盖了关于使用本地模型运行 Cline 所需了解的一切。

快速入门

检查您的硬件 - 最低 32GB+ RAM
选择您的运行时 - LM Studio 或 Ollama
下载 Qwen3 Coder 30B - 推荐的模型
配置设置 - 启用紧凑提示，设置最大上下文
开始编码 - 完全离线

硬件要求

您的 RAM 决定了您可以有效运行哪些模型

RAM	推荐模型	量化	性能水平
32GB	Qwen3 Coder 30B	4-bit	入门级本地编码
64GB	Qwen3 Coder 30B	8-bit	完整 Cline 功能
128GB+	GLM-4.5-Air	4-bit	云端竞争级性能

运行时选项

LM Studio

优点: 用户友好的 GUI，易于模型管理，内置服务器
缺点: UI 造成的内存开销，一次只能运行一个模型
最适合: 追求简单的桌面用户
设置指南 →

Ollama

优点: 基于命令行，较低的内存开销，可编写脚本
缺点: 需要熟悉终端，手动模型管理
最适合: 高级用户和服务器部署
设置指南 →

关键配置

所需设置

在 Cline 中

✅ 启用 “使用紧凑提示” - 将提示大小减少 90%
✅ 在设置中设置合适的模型
✅ 配置基本 URL 以匹配您的服务器

在 LM Studio 中

上下文长度: 262144 (最大值)
KV Cache 量化: OFF (对正常功能至关重要)
Flash Attention: ON (如果您的硬件支持)

在 Ollama 中

设置上下文窗口: num_ctx 262144
如果支持，启用 Flash attention

理解量化

量化降低了模型精度，以便在消费级硬件上运行

类型	大小减小	质量	用例
4-bit	~75%	好	大多数编码任务，有限 RAM
8-bit	~50%	更好	专业工作，更细微的差别
16-bit	无	最佳	最高质量，需要高 RAM

模型格式

GGUF (通用)

适用于所有平台（Windows、Linux、Mac）
广泛的量化选项
更广泛的工具兼容性
推荐给大多数用户

MLX (仅限 Mac)

针对 Apple Silicon (M1/M2/M3) 优化
利用 Metal 和 AMX 加速
在 Mac 上推理速度更快
需要 macOS 13+

性能预期

什么是正常的

初始加载时间: 模型预热需要 10-30 秒
Token 生成: 在消费级硬件上为 5-20 token/秒
上下文处理: 大型代码库较慢
内存使用: 接近您的量化大小

性能提示

使用紧凑提示 - 对本地推理至关重要
尽可能限制上下文 - 从较小的窗口开始
选择正确的量化 - 平衡质量与速度
关闭其他应用程序 - 为模型释放 RAM
使用 SSD 存储 - 更快的模型加载

使用案例对比

何时使用本地模型

✅ 最适合:

离线开发环境
隐私敏感项目
无需 API 费用的学习
无限制的实验
隔离环境
注重成本的开发

何时使用云端模型

☁️ 更适合:

非常大的代码库 (>256K token)
持续数小时的重构会话
需要一致性能的团队
最新的模型功能
时间紧迫的项目

故障排除

常见问题与解决方案

“Shell 集成不可用”

在 Cline 设置 → 终端 → 默认终端配置文件中切换到 bash
解决了 90% 的终端集成问题

“无法建立连接”

验证服务器是否正在运行（LM Studio 或 Ollama）
检查基本 URL 是否与服务器地址匹配
确保没有防火墙阻止连接
默认端口：LM Studio (1234)，Ollama (11434)

响应缓慢或不完整

本地模型的正常现象（通常为 5-20 token/秒）
尝试使用较小的量化（4-bit 而非 8-bit）
如果尚未启用，请启用紧凑提示
减小上下文窗口大小

模型混淆或错误

验证 KV Cache 量化是否为 OFF（LM Studio）
确保启用了紧凑提示
检查上下文长度是否设置为最大值
确认量化有足够的 RAM

性能优化

为了更快的推理速度

使用 4-bit 量化
启用 Flash Attention
如果不需要，减小上下文窗口
关闭不必要的应用程序
使用 NVMe SSD 存储模型

为了更好的质量

使用 8-bit 或更高量化
最大化上下文窗口
确保充分散热
为模型分配最大 RAM

高级配置

多 GPU 设置

如果您有多个 GPU，可以拆分模型层

LM Studio: 自动 GPU 检测
Ollama: 设置 num_gpu 参数

自定义模型

虽然推荐 Qwen3 Coder 30B，但您也可以尝试

DeepSeek Coder V2
Codestral 22B
StarCoder2 15B

注意：这些可能需要额外的配置和测试。

社区与支持

Discord: 加入我们的社区以获得实时帮助
Reddit: r/cline 进行讨论
GitHub: 报告问题

后续步骤

准备好开始了吗？选择您的路径

LM Studio 设置

用户友好的 GUI 方法，附带详细的配置指南

Ollama 设置

命令行设置，适用于高级用户和自动化

总结

现在，使用 Cline 的本地模型是真正实用的。虽然它们在速度上无法与顶级云 API 媲美，但它们提供了完全的隐私、零成本和离线能力。通过正确的配置和合适的硬件，Qwen3 Coder 30B 可以有效地处理大多数编码任务。关键在于正确的设置：足够的 RAM、正确的配置以及切合实际的期望。遵循本指南，您将拥有一个完全在您的硬件上运行的强大编码助手。

简介

入门

最佳实践

CLI

功能

模型与提供商配置

MCP 集成

Cline 工具参考

参考

使用 Cline 在本地运行模型

快速入门

硬件要求

推荐模型

首要推荐：Qwen3 Coder 30B

为什么不使用较小的模型？

运行时选项

LM Studio

Ollama

关键配置

所需设置

理解量化

模型格式

性能预期

什么是正常的

性能提示

使用案例对比

何时使用本地模型

何时使用云端模型

故障排除

常见问题与解决方案

性能优化

高级配置

多 GPU 设置

自定义模型

社区与支持

后续步骤

LM Studio 设置

Ollama 设置

总结

简介

入门

最佳实践

CLI

功能

模型与提供商配置

MCP 集成

Cline 工具参考

参考

​使用 Cline 在本地运行模型

​快速入门

​硬件要求

​推荐模型

​首要推荐：Qwen3 Coder 30B

​为什么不使用较小的模型？

​运行时选项

​LM Studio

​Ollama

​关键配置

​所需设置

​理解量化

​模型格式

​性能预期

​什么是正常的

​性能提示

​使用案例对比

​何时使用本地模型

​何时使用云端模型

​故障排除

​常见问题与解决方案

​性能优化

​高级配置

​多 GPU 设置

​自定义模型

​社区与支持

​后续步骤

LM Studio 设置

Ollama 设置

​总结

使用 Cline 在本地运行模型

快速入门

硬件要求

推荐模型

首要推荐：Qwen3 Coder 30B

为什么不使用较小的模型？

运行时选项

LM Studio

Ollama

关键配置

所需设置

理解量化

模型格式

性能预期

什么是正常的

性能提示

使用案例对比

何时使用本地模型

何时使用云端模型

故障排除

常见问题与解决方案

性能优化

高级配置

多 GPU 设置

自定义模型

社区与支持

后续步骤

总结