Cerebras

Cerebras 通过其革命性的晶圆级芯片架构提供世界上最快的 AI 推理。与传统 GPU 需要将模型权重从外部存储器中来回传输不同，Cerebras 将整个模型存储在芯片上，消除了带宽瓶颈，实现了每秒高达 2,600 个 tokens 的速度——通常比 GPU 快 20 倍。 网站： https://cloud.cerebras.ai/

获取 API 密钥

注册/登录： 访问 Cerebras Cloud 并创建账户或登录。
导航至 API 密钥： 在仪表板中访问 API 密钥部分。
创建密钥： 生成一个新的 API 密钥。给它一个描述性的名称（例如“Cline”）。
复制密钥： 立即复制 API 密钥。妥善保管。

支持的模型

Cline 支持以下 Cerebras 模型

zai-glm-4.6 - 智能通用模型，速度为 1,500 tokens/秒
qwen-3-235b-a22b-instruct-2507 - 高级指令遵循模型
qwen-3-235b-a22b-thinking-2507 - 具有分步思考的推理模型
llama-3.3-70b - 针对速度优化的 Meta 的 Llama 3.3 模型
qwen-3-32b - 适用于一般任务的紧凑而强大的模型

在 Cline 中配置

打开 Cline 设置： 单击 Cline 面板中的设置图标 (⚙️)。
选择提供商： 从“API 提供商”下拉列表中选择“Cerebras”。
输入 API 密钥： 将 Cerebras API 密钥粘贴到“Cerebras API 密钥”字段中。
选择模型： 从“模型”下拉列表中选择您想要的模型。
（可选）自定义基本 URL： 大多数用户无需调整此设置。

Cerebras 的晶圆级优势

Cerebras 从根本上重新构想了 AI 硬件架构，以解决推理速度问题

晶圆级架构

传统 GPU 使用单独的芯片进行计算和内存，迫使它们不断地来回传输模型权重。Cerebras 构建了世界上最大的 AI 芯片——一个晶圆级引擎，将整个模型存储在芯片上。没有外部内存，没有带宽瓶颈，无需等待。

革命性的速度

每秒高达 2,600 个 tokens - 通常比 GPU 快 20 倍
一秒内推理 - 以前需要几分钟的事情现在瞬间完成
实时应用 - 推理模型变得适用于交互式使用
无带宽限制 - 整个模型存储在芯片上消除了内存瓶颈

Cerebras 扩展定律

Cerebras 发现更快的推理能够实现更智能的 AI。现代推理模型在回答之前会生成数千个 tokens 作为“内部独白”。在传统硬件上，这对于实时使用来说太慢了。Cerebras 使推理模型足够快，可用于日常应用。

质量毫不妥协

与其他牺牲精度的速度优化不同，Cerebras 在提供前所未有的速度的同时保持了完整的模型质量。您将获得前沿模型的智能和轻量级模型的响应速度。通过 Cerebras 的博客文章了解有关其技术的更多信息：

Cerebras 代码计划

Cerebras 为开发人员提供专门的计划

Code Pro（50 美元/月）

访问 Qwen3-Coder，实现快速、高上下文的完成
每天多达 2400 万个 tokens
非常适合独立开发者和周末项目
每天 3-4 小时的不间断编码

Code Max（200 美元/月）

重型编码工作流支持
每天多达 1.2 亿个 tokens
非常适合全职开发和多代理系统
无每周限制，无 IDE 锁定

特殊功能

免费层级

qwen-3-coder-480b-free 模型提供对高性能推理的免费访问——这在注重速度的提供商中独一无二。

实时推理

像 qwen-3-235b-a22b-thinking-2507 这样的推理模型可以在不到一秒的时间内完成复杂的多步推理，使其适用于交互式开发工作流。

编码专业化

Qwen3-Coder 模型经过专门优化，适用于编程任务，在编码基准测试中的性能可与 Claude Sonnet 4 和 GPT-4.1 相媲美。

无 IDE 锁定

适用于任何兼容 OpenAI 的工具——Cursor、Continue.dev、Cline 或任何其他支持 OpenAI 端点的编辑器。

提示和注意事项

速度优势： Cerebras 擅长使推理模型适用于实时使用。非常适合需要多次 LLM 调用的代理工作流。
免费层级： 从免费模型开始体验 Cerebras 的速度，然后再升级到付费计划。
上下文窗口： 模型支持从 64K 到 128K tokens 的上下文窗口，以包含大量的代码上下文。
速率限制： 慷慨的速率限制专为开发工作流设计。请查看您的仪表板以了解当前的限制。
定价： 具有显著速度优势的竞争性定价。请访问 Cerebras Cloud 了解当前费率。
实时应用： 非常适合 AI 响应时间至关重要的应用——代码生成、调试和交互式开发。

简介

入门

最佳实践

CLI

功能

模型与提供商配置

MCP 集成

Cline 工具参考

参考

获取 API 密钥

支持的模型

在 Cline 中配置

Cerebras 的晶圆级优势

晶圆级架构

革命性的速度

Cerebras 扩展定律

质量毫不妥协

Cerebras 代码计划

Code Pro（50 美元/月）

Code Max（200 美元/月）

特殊功能

免费层级

实时推理

编码专业化

无 IDE 锁定

提示和注意事项

简介

入门

最佳实践

CLI

功能

模型与提供商配置

MCP 集成

Cline 工具参考

参考

​获取 API 密钥

​支持的模型

​在 Cline 中配置

​Cerebras 的晶圆级优势

​晶圆级架构

​革命性的速度

​Cerebras 扩展定律

​质量毫不妥协

​Cerebras 代码计划

​Code Pro（50 美元/月）

​Code Max（200 美元/月）

​特殊功能

​免费层级

​实时推理

​编码专业化

​无 IDE 锁定

​提示和注意事项

获取 API 密钥

支持的模型

在 Cline 中配置

Cerebras 的晶圆级优势

晶圆级架构

革命性的速度

Cerebras 扩展定律

质量毫不妥协

Cerebras 代码计划

Code Pro（50 美元/月）

Code Max（200 美元/月）

特殊功能

免费层级

实时推理

编码专业化

无 IDE 锁定

提示和注意事项