跳过主要内容Groq 通过其定制的 LPU™(语言处理单元)架构提供超快的 AI 推理,该架构是专为推理而构建,而非从训练硬件改造而来。Groq 托管了来自各种提供商的开源模型,包括 OpenAI、Meta、DeepSeek、Moonshot AI 等。 网站: https://groq.com/获取 API 密钥
- 注册/登录: 访问 Groq 并创建账户或登录。
- 导航至控制台: 访问 Groq 控制台 以访问您的仪表板。
- 创建密钥: 导航至 API 密钥部分并创建一个新的 API 密钥。为您的密钥设置一个描述性名称(例如,“Cline”)。
- 复制密钥: 立即复制 API 密钥。您将无法再次看到它。请安全存储。
支持的模型
Cline 支持以下 Groq 模型
llama-3.3-70b-versatile (Meta) - 平衡性能,具有 131K 上下文
llama-3.1-8b-instant (Meta) - 快速推理,具有 131K 上下文
openai/gpt-oss-120b (OpenAI) - 特色旗舰模型,具有 131K 上下文
openai/gpt-oss-20b (OpenAI) - 特色紧凑模型,具有 131K 上下文
moonshotai/kimi-k2-instruct (Moonshot AI) - 1 万亿参数模型,带有提示缓存
deepseek-r1-distill-llama-70b (DeepSeek/Meta) - 针对推理优化的模型
qwen/qwen3-32b (Alibaba Cloud) - 针对问答任务增强
meta-llama/llama-4-maverick-17b-128e-instruct (Meta) - 最新的 Llama 4 变体
meta-llama/llama-4-scout-17b-16e-instruct (Meta) - 最新的 Llama 4 变体
在 Cline 中配置
- 打开 Cline 设置: 单击 Cline 面板中的设置图标 (⚙️)。
- 选择提供商: 从“API 提供商”下拉菜单中选择“Groq”。
- 输入 API 密钥: 将您的 Groq API 密钥粘贴到“Groq API 密钥”字段中。
- 选择模型: 从“模型”下拉列表中选择您想要的模型。
Groq的速度革命
Groq 的 LPU 架构与传统的基于 GPU 的推理相比,具有多项关键优势
LPU架构
与从训练工作负载改造而来的 GPU 不同,Groq 的 LPU 是专为推理而构建的。这消除了传统系统中导致延迟的架构瓶颈。
无与伦比的速度
- 亚毫秒级延迟,在不同流量、地区和工作负载下保持一致
- 静态调度,通过预先计算的执行图消除运行时协调延迟
- 张量并行,针对低延迟的单个响应进行优化,而不是高吞吐量批处理
质量与性能兼得
- TruePoint 数值计算,仅在不影响准确性的区域降低精度
- 100 位中间累加,确保无损计算
- 战略性精度控制,在保持质量的同时实现比 BF16 快 2-4 倍的速度提升
内存架构
- SRAM 作为主要存储(而非缓存),芯片上具有数百兆字节
- 消除 DRAM/HBM 延迟,这是传统加速器面临的难题
- 实现真正的张量并行,将层拆分到多个芯片上
在 Groq 的 LPU 架构博客文章中了解更多关于 Groq 技术的信息。
特殊功能
提示缓存
Kimi K2 模型支持提示缓存,这可以显著降低重复提示的成本和延迟。
视觉支持
选定的模型支持图像输入和视觉功能。请在 Groq 控制台中查看模型详细信息以了解具体功能。
推理模型
一些模型(如 DeepSeek 变体)通过逐步思考过程提供增强的推理能力。
提示和注意事项
- 模型选择: 根据您的具体用例和性能要求选择模型。
- 速度优势: Groq 擅长单请求延迟,而不是高吞吐量批处理。
- OSS 模型提供商: Groq 在其快速基础设施上托管来自多个提供商(OpenAI、Meta、DeepSeek 等)的开源模型。
- 上下文窗口: 大多数模型提供大上下文窗口(高达 131K 令牌),以便包含大量代码和上下文。
- 定价: Groq 提供具有速度优势的竞争性定价。请查看 Groq 定价页面了解当前费率。
- 速率限制: Groq 具有慷慨的速率限制,但请根据您的使用级别查看其文档以了解当前限制。