Groq

Groq 通过其定制的 LPU™（语言处理单元）架构提供超快的 AI 推理，该架构是专为推理而构建，而非从训练硬件改造而来。Groq 托管了来自各种提供商的开源模型，包括 OpenAI、Meta、DeepSeek、Moonshot AI 等。 网站： https://groq.com/

获取 API 密钥

注册/登录： 访问 Groq 并创建账户或登录。
导航至控制台： 访问 Groq 控制台以访问您的仪表板。
创建密钥： 导航至 API 密钥部分并创建一个新的 API 密钥。为您的密钥设置一个描述性名称（例如，“Cline”）。
复制密钥： 立即复制 API 密钥。您将无法再次看到它。请安全存储。

支持的模型

Cline 支持以下 Groq 模型

llama-3.3-70b-versatile (Meta) - 平衡性能，具有 131K 上下文
llama-3.1-8b-instant (Meta) - 快速推理，具有 131K 上下文
openai/gpt-oss-120b (OpenAI) - 特色旗舰模型，具有 131K 上下文
openai/gpt-oss-20b (OpenAI) - 特色紧凑模型，具有 131K 上下文
moonshotai/kimi-k2-instruct (Moonshot AI) - 1 万亿参数模型，带有提示缓存
deepseek-r1-distill-llama-70b (DeepSeek/Meta) - 针对推理优化的模型
qwen/qwen3-32b (Alibaba Cloud) - 针对问答任务增强
meta-llama/llama-4-maverick-17b-128e-instruct (Meta) - 最新的 Llama 4 变体
meta-llama/llama-4-scout-17b-16e-instruct (Meta) - 最新的 Llama 4 变体

在 Cline 中配置

打开 Cline 设置： 单击 Cline 面板中的设置图标 (⚙️)。
选择提供商： 从“API 提供商”下拉菜单中选择“Groq”。
输入 API 密钥： 将您的 Groq API 密钥粘贴到“Groq API 密钥”字段中。
选择模型： 从“模型”下拉列表中选择您想要的模型。

Groq的速度革命

Groq 的 LPU 架构与传统的基于 GPU 的推理相比，具有多项关键优势

LPU架构

与从训练工作负载改造而来的 GPU 不同，Groq 的 LPU 是专为推理而构建的。这消除了传统系统中导致延迟的架构瓶颈。

无与伦比的速度

亚毫秒级延迟，在不同流量、地区和工作负载下保持一致
静态调度，通过预先计算的执行图消除运行时协调延迟
张量并行，针对低延迟的单个响应进行优化，而不是高吞吐量批处理

质量与性能兼得

TruePoint 数值计算，仅在不影响准确性的区域降低精度
100 位中间累加，确保无损计算
战略性精度控制，在保持质量的同时实现比 BF16 快 2-4 倍的速度提升

内存架构

SRAM 作为主要存储（而非缓存），芯片上具有数百兆字节
消除 DRAM/HBM 延迟，这是传统加速器面临的难题
实现真正的张量并行，将层拆分到多个芯片上

在 Groq 的 LPU 架构博客文章中了解更多关于 Groq 技术的信息。

特殊功能

提示缓存

Kimi K2 模型支持提示缓存，这可以显著降低重复提示的成本和延迟。

视觉支持

选定的模型支持图像输入和视觉功能。请在 Groq 控制台中查看模型详细信息以了解具体功能。

推理模型

一些模型（如 DeepSeek 变体）通过逐步思考过程提供增强的推理能力。

提示和注意事项

模型选择： 根据您的具体用例和性能要求选择模型。
速度优势： Groq 擅长单请求延迟，而不是高吞吐量批处理。
OSS 模型提供商： Groq 在其快速基础设施上托管来自多个提供商（OpenAI、Meta、DeepSeek 等）的开源模型。
上下文窗口： 大多数模型提供大上下文窗口（高达 131K 令牌），以便包含大量代码和上下文。
定价： Groq 提供具有速度优势的竞争性定价。请查看 Groq 定价页面了解当前费率。
速率限制： Groq 具有慷慨的速率限制，但请根据您的使用级别查看其文档以了解当前限制。

简介

入门

最佳实践

CLI

功能

模型与提供商配置

MCP 集成

Cline 工具参考

参考

获取 API 密钥

支持的模型

在 Cline 中配置

Groq的速度革命

LPU架构

无与伦比的速度

质量与性能兼得

内存架构

特殊功能

提示缓存

视觉支持

推理模型

提示和注意事项

简介

入门

最佳实践

CLI

功能

模型与提供商配置

MCP 集成

Cline 工具参考

参考

​获取 API 密钥

​支持的模型

​在 Cline 中配置

​Groq的速度革命

​LPU架构

​无与伦比的速度

​质量与性能兼得

​内存架构

​特殊功能

​提示缓存

​视觉支持

​推理模型

​提示和注意事项

获取 API 密钥

支持的模型

在 Cline 中配置

Groq的速度革命

LPU架构

无与伦比的速度

质量与性能兼得

内存架构

特殊功能

提示缓存

视觉支持

推理模型

提示和注意事项