Fireworks AI

Fireworks AI 是一个领先的生成式 AI 基础设施平台，致力于通过优化的推理能力提供卓越的性能。与替代平台相比，推理速度快达 4 倍，并支持 40 多种不同的 AI 模型，Fireworks 消除了大规模运行 AI 模型的操作复杂性。 网站： https://fireworks.ai/

获取 API 密钥

注册/登录： 访问 Fireworks AI 并创建账户或登录。
导航至 API 密钥： 在您的仪表板中访问 API 密钥部分。
创建密钥： 生成一个新的 API 密钥。给它一个描述性的名称（例如“Cline”）。
复制密钥： 立即复制 API 密钥。安全存储。

支持的模型

Fireworks AI 支持各种类别的模型。热门模型包括： 文本生成模型：

Llama 3.1 系列 (8B, 70B, 405B)
Mixtral 8x7B 和 8x22B
Qwen 2.5 系列
具有推理能力的 DeepSeek 模型
用于编程任务的 Code Llama 模型

视觉模型

Llama 3.2 视觉模型
Qwen 2-VL 模型

嵌入模型

用于语义搜索的各种文本嵌入模型

该平台通过自定义内核和推理优化来策划、优化和部署模型，以实现最大性能。

在 Cline 中配置

打开 Cline 设置： 单击 Cline 面板中的设置图标 (⚙️)。
选择提供商： 从“API 提供商”下拉列表中选择“Fireworks”。
输入 API 密钥： 将您的 Fireworks API 密钥粘贴到“Fireworks API Key”字段中。
输入模型 ID： 指定您要使用的模型（例如，“accounts/fireworks/models/llama-v3p1-70b-instruct”）。
配置令牌： 可选设置最大完成令牌和上下文窗口大小。

Fireworks AI 的性能焦点

Fireworks AI 的竞争优势集中在性能优化和开发者体验上

闪电般的推理速度

推理速度比替代平台快达 4 倍
吞吐量比开源推理引擎高 250%
速度快 50%，延迟显著降低
成本比 HuggingFace Endpoints 低 6 倍，生成速度快 2.5 倍

先进的优化技术

自定义内核和推理优化提高了每张 GPU 的吞吐量
Multi-LoRA 架构实现了高效的资源共享
数百种微调模型变体可以在共享的基础模型基础设施上运行
轻资产模式侧重于优化软件而非昂贵的 GPU 所有权

全面的模型支持

40 多种不同 AI 模型经过精心策划和优化以实现性能
支持多种 GPU 类型：A100、H100、H200、B200、AMD MI300X
按 GPU 秒计费，无需额外收取启动时间费用
与 OpenAI API 兼容，实现无缝集成

定价结构

Fireworks AI 采用按使用量付费的定价模式，费率具有竞争力

文本和视觉模型 (2025)

参数量	每 100 万输入令牌价格
小于 4B 参数	$0.10
4B - 16B 参数	$0.20
大于 16B 参数	$0.90
MoE 0B - 56B 参数	$0.50

微调服务

基础模型大小	每 100 万训练令牌价格
高达 16B 参数	$0.50
16.1B - 80B 参数	$3.00
DeepSeek R1 / V3	$10.00

专用部署

GPU 类型	每小时价格
A100 80GB	$2.90
H100 80GB	$5.80
H200 141GB	$6.99
B200 180GB	$11.99
AMD MI300X	$4.99

特殊功能

微调能力

Fireworks 提供复杂的微调服务，可通过 CLI 接口访问，支持来自 MongoDB Atlas 等数据库的 JSON 格式数据。微调模型的推理成本与基础模型相同。

开发者体验

用于直接模型交互的浏览器游乐场
具有 OpenAI 兼容性的 REST API
包含即用型配方的综合食谱
从无服务器到专用 GPU 的多种部署选项

企业级功能

针对受监管行业的 HIPAA 和 SOC 2 Type II 合规性
针对开发者的自助入职
针对大型部署的企业销售
后付费账单选项和商业层级

推理模型支持

通过 <think> 标签处理和推理内容提取，高级支持推理模型，使复杂的**多步推理**适用于实时应用程序。

性能优势

Fireworks AI 的优化带来了可衡量的改进

吞吐量比开源引擎高 250%
速度快 50%，延迟降低
成本比替代方案降低 6 倍
每次请求的生成速度提高 2.5 倍

提示和注意事项

模型选择：根据您的具体用例选择模型 - 较小的模型用于速度，较大的模型用于复杂推理。
性能焦点：Fireworks 通过高级优化，使 AI 推理既快速又经济高效。
微调：利用微调功能，使用您的专有数据提高模型准确性。
合规性：HIPAA 和 SOC 2 Type II 合规性使其可用于受监管行业。
定价模式：按使用量付费的定价模式随您的成功而扩展，而非传统的按席位付费模式。
开发者资源：广泛的文档和食谱可加快实施速度。
GPU 选项：可根据性能需求为专用部署提供多种 GPU 类型。

简介

入门

最佳实践

CLI

功能

模型与提供商配置

MCP 集成

Cline 工具参考

参考

获取 API 密钥

支持的模型

在 Cline 中配置

Fireworks AI 的性能焦点

闪电般的推理速度

先进的优化技术

全面的模型支持

定价结构

文本和视觉模型 (2025)

微调服务

专用部署

特殊功能

微调能力

开发者体验

企业级功能

推理模型支持

性能优势

提示和注意事项

简介

入门

最佳实践

CLI

功能

模型与提供商配置

MCP 集成

Cline 工具参考

参考

​获取 API 密钥

​支持的模型

​在 Cline 中配置

​Fireworks AI 的性能焦点

​闪电般的推理速度

​先进的优化技术

​全面的模型支持

​定价结构

​文本和视觉模型 (2025)

​微调服务

​专用部署

​特殊功能

​微调能力

​开发者体验

​企业级功能

​推理模型支持

​性能优势

​提示和注意事项

获取 API 密钥

支持的模型

在 Cline 中配置

Fireworks AI 的性能焦点

闪电般的推理速度

先进的优化技术

全面的模型支持

定价结构

文本和视觉模型 (2025)

微调服务

专用部署

特殊功能

微调能力

开发者体验

企业级功能

推理模型支持

性能优势

提示和注意事项