跳过主要内容
Groq 通过其定制的 LPU™(语言处理单元)架构提供超快的 AI 推理,该架构是专为推理而构建,而非从训练硬件改造而来。Groq 托管了来自各种提供商的开源模型,包括 OpenAI、Meta、DeepSeek、Moonshot AI 等。 网站: https://groq.com/

获取 API 密钥

  1. 注册/登录: 访问 Groq 并创建账户或登录。
  2. 导航至控制台: 访问 Groq 控制台 以访问您的仪表板。
  3. 创建密钥: 导航至 API 密钥部分并创建一个新的 API 密钥。为您的密钥设置一个描述性名称(例如,“Cline”)。
  4. 复制密钥: 立即复制 API 密钥。您将无法再次看到它。请安全存储。

支持的模型

Cline 支持以下 Groq 模型
  • llama-3.3-70b-versatile (Meta) - 平衡性能,具有 131K 上下文
  • llama-3.1-8b-instant (Meta) - 快速推理,具有 131K 上下文
  • openai/gpt-oss-120b (OpenAI) - 特色旗舰模型,具有 131K 上下文
  • openai/gpt-oss-20b (OpenAI) - 特色紧凑模型,具有 131K 上下文
  • moonshotai/kimi-k2-instruct (Moonshot AI) - 1 万亿参数模型,带有提示缓存
  • deepseek-r1-distill-llama-70b (DeepSeek/Meta) - 针对推理优化的模型
  • qwen/qwen3-32b (Alibaba Cloud) - 针对问答任务增强
  • meta-llama/llama-4-maverick-17b-128e-instruct (Meta) - 最新的 Llama 4 变体
  • meta-llama/llama-4-scout-17b-16e-instruct (Meta) - 最新的 Llama 4 变体

在 Cline 中配置

  1. 打开 Cline 设置: 单击 Cline 面板中的设置图标 (⚙️)。
  2. 选择提供商: 从“API 提供商”下拉菜单中选择“Groq”。
  3. 输入 API 密钥: 将您的 Groq API 密钥粘贴到“Groq API 密钥”字段中。
  4. 选择模型: 从“模型”下拉列表中选择您想要的模型。

Groq的速度革命

Groq 的 LPU 架构与传统的基于 GPU 的推理相比,具有多项关键优势

LPU架构

与从训练工作负载改造而来的 GPU 不同,Groq 的 LPU 是专为推理而构建的。这消除了传统系统中导致延迟的架构瓶颈。

无与伦比的速度

  • 亚毫秒级延迟,在不同流量、地区和工作负载下保持一致
  • 静态调度,通过预先计算的执行图消除运行时协调延迟
  • 张量并行,针对低延迟的单个响应进行优化,而不是高吞吐量批处理

质量与性能兼得

  • TruePoint 数值计算,仅在不影响准确性的区域降低精度
  • 100 位中间累加,确保无损计算
  • 战略性精度控制,在保持质量的同时实现比 BF16 快 2-4 倍的速度提升

内存架构

  • SRAM 作为主要存储(而非缓存),芯片上具有数百兆字节
  • 消除 DRAM/HBM 延迟,这是传统加速器面临的难题
  • 实现真正的张量并行,将层拆分到多个芯片上
在 Groq 的 LPU 架构博客文章中了解更多关于 Groq 技术的信息。

特殊功能

提示缓存

Kimi K2 模型支持提示缓存,这可以显著降低重复提示的成本和延迟。

视觉支持

选定的模型支持图像输入和视觉功能。请在 Groq 控制台中查看模型详细信息以了解具体功能。

推理模型

一些模型(如 DeepSeek 变体)通过逐步思考过程提供增强的推理能力。

提示和注意事项

  • 模型选择: 根据您的具体用例和性能要求选择模型。
  • 速度优势: Groq 擅长单请求延迟,而不是高吞吐量批处理。
  • OSS 模型提供商: Groq 在其快速基础设施上托管来自多个提供商(OpenAI、Meta、DeepSeek 等)的开源模型。
  • 上下文窗口: 大多数模型提供大上下文窗口(高达 131K 令牌),以便包含大量代码和上下文。
  • 定价: Groq 提供具有速度优势的竞争性定价。请查看 Groq 定价页面了解当前费率。
  • 速率限制: Groq 具有慷慨的速率限制,但请根据您的使用级别查看其文档以了解当前限制。