跳过主要内容
Fireworks AI 是一个领先的生成式 AI 基础设施平台,致力于通过优化的推理能力提供卓越的性能。与替代平台相比,推理速度快达 4 倍,并支持 40 多种不同的 AI 模型,Fireworks 消除了大规模运行 AI 模型的操作复杂性。 网站: https://fireworks.ai/

获取 API 密钥

  1. 注册/登录: 访问 Fireworks AI 并创建账户或登录。
  2. 导航至 API 密钥: 在您的仪表板中访问 API 密钥部分。
  3. 创建密钥: 生成一个新的 API 密钥。给它一个描述性的名称(例如“Cline”)。
  4. 复制密钥: 立即复制 API 密钥。安全存储。

支持的模型

Fireworks AI 支持各种类别的模型。热门模型包括: 文本生成模型:
  • Llama 3.1 系列 (8B, 70B, 405B)
  • Mixtral 8x7B 和 8x22B
  • Qwen 2.5 系列
  • 具有推理能力的 DeepSeek 模型
  • 用于编程任务的 Code Llama 模型
视觉模型
  • Llama 3.2 视觉模型
  • Qwen 2-VL 模型
嵌入模型
  • 用于语义搜索的各种文本嵌入模型
该平台通过自定义内核和推理优化来策划、优化和部署模型,以实现最大性能。

在 Cline 中配置

  1. 打开 Cline 设置: 单击 Cline 面板中的设置图标 (⚙️)。
  2. 选择提供商: 从“API 提供商”下拉列表中选择“Fireworks”。
  3. 输入 API 密钥: 将您的 Fireworks API 密钥粘贴到“Fireworks API Key”字段中。
  4. 输入模型 ID: 指定您要使用的模型(例如,“accounts/fireworks/models/llama-v3p1-70b-instruct”)。
  5. 配置令牌: 可选设置最大完成令牌和上下文窗口大小。

Fireworks AI 的性能焦点

Fireworks AI 的竞争优势集中在性能优化和开发者体验上

闪电般的推理速度

  • 推理速度比替代平台快达 4 倍
  • 吞吐量比开源推理引擎高 250%
  • 速度快 50%,延迟显著降低
  • 成本比 HuggingFace Endpoints 低 6 倍,生成速度快 2.5 倍

先进的优化技术

  • 自定义内核和推理优化提高了每张 GPU 的吞吐量
  • Multi-LoRA 架构实现了高效的资源共享
  • 数百种微调模型变体可以在共享的基础模型基础设施上运行
  • 轻资产模式侧重于优化软件而非昂贵的 GPU 所有权

全面的模型支持

  • 40 多种不同 AI 模型经过精心策划和优化以实现性能
  • 支持多种 GPU 类型:A100、H100、H200、B200、AMD MI300X
  • 按 GPU 秒计费,无需额外收取启动时间费用
  • 与 OpenAI API 兼容,实现无缝集成

定价结构

Fireworks AI 采用按使用量付费的定价模式,费率具有竞争力

文本和视觉模型 (2025)

参数量每 100 万输入令牌价格
小于 4B 参数$0.10
4B - 16B 参数$0.20
大于 16B 参数$0.90
MoE 0B - 56B 参数$0.50

微调服务

基础模型大小每 100 万训练令牌价格
高达 16B 参数$0.50
16.1B - 80B 参数$3.00
DeepSeek R1 / V3$10.00

专用部署

GPU 类型每小时价格
A100 80GB$2.90
H100 80GB$5.80
H200 141GB$6.99
B200 180GB$11.99
AMD MI300X$4.99

特殊功能

微调能力

Fireworks 提供复杂的微调服务,可通过 CLI 接口访问,支持来自 MongoDB Atlas 等数据库的 JSON 格式数据。微调模型的推理成本与基础模型相同。

开发者体验

  • 用于直接模型交互的浏览器游乐场
  • 具有 OpenAI 兼容性的 REST API
  • 包含即用型配方的综合食谱
  • 从无服务器到专用 GPU 的多种部署选项

企业级功能

  • 针对受监管行业的 HIPAA 和 SOC 2 Type II 合规性
  • 针对开发者的自助入职
  • 针对大型部署的企业销售
  • 后付费账单选项和商业层级

推理模型支持

通过 <think> 标签处理和推理内容提取,高级支持推理模型,使复杂的**多步推理**适用于实时应用程序。

性能优势

Fireworks AI 的优化带来了可衡量的改进
  • 吞吐量比开源引擎高 250%
  • 速度快 50%,延迟降低
  • 成本比替代方案降低 6 倍
  • 每次请求的生成速度提高 2.5 倍

提示和注意事项

  • 模型选择:根据您的具体用例选择模型 - 较小的模型用于速度,较大的模型用于复杂推理。
  • 性能焦点:Fireworks 通过高级优化,使 AI 推理既快速又经济高效。
  • 微调:利用微调功能,使用您的专有数据提高模型准确性。
  • 合规性:HIPAA 和 SOC 2 Type II 合规性使其可用于受监管行业。
  • 定价模式:按使用量付费的定价模式随您的成功而扩展,而非传统的按席位付费模式。
  • 开发者资源:广泛的文档和食谱可加快实施速度。
  • GPU 选项:可根据性能需求为专用部署提供多种 GPU 类型。