跳过主要内容Fireworks AI 是一个领先的生成式 AI 基础设施平台,致力于通过优化的推理能力提供卓越的性能。与替代平台相比,推理速度快达 4 倍,并支持 40 多种不同的 AI 模型,Fireworks 消除了大规模运行 AI 模型的操作复杂性。 网站: https://fireworks.ai/获取 API 密钥
- 注册/登录: 访问 Fireworks AI 并创建账户或登录。
- 导航至 API 密钥: 在您的仪表板中访问 API 密钥部分。
- 创建密钥: 生成一个新的 API 密钥。给它一个描述性的名称(例如“Cline”)。
- 复制密钥: 立即复制 API 密钥。安全存储。
支持的模型
Fireworks AI 支持各种类别的模型。热门模型包括: 文本生成模型:
- Llama 3.1 系列 (8B, 70B, 405B)
- Mixtral 8x7B 和 8x22B
- Qwen 2.5 系列
- 具有推理能力的 DeepSeek 模型
- 用于编程任务的 Code Llama 模型
视觉模型
- Llama 3.2 视觉模型
- Qwen 2-VL 模型
嵌入模型
该平台通过自定义内核和推理优化来策划、优化和部署模型,以实现最大性能。
在 Cline 中配置
- 打开 Cline 设置: 单击 Cline 面板中的设置图标 (⚙️)。
- 选择提供商: 从“API 提供商”下拉列表中选择“Fireworks”。
- 输入 API 密钥: 将您的 Fireworks API 密钥粘贴到“Fireworks API Key”字段中。
- 输入模型 ID: 指定您要使用的模型(例如,“accounts/fireworks/models/llama-v3p1-70b-instruct”)。
- 配置令牌: 可选设置最大完成令牌和上下文窗口大小。
Fireworks AI 的竞争优势集中在性能优化和开发者体验上
闪电般的推理速度
- 推理速度比替代平台快达 4 倍
- 吞吐量比开源推理引擎高 250%
- 速度快 50%,延迟显著降低
- 成本比 HuggingFace Endpoints 低 6 倍,生成速度快 2.5 倍
先进的优化技术
- 自定义内核和推理优化提高了每张 GPU 的吞吐量
- Multi-LoRA 架构实现了高效的资源共享
- 数百种微调模型变体可以在共享的基础模型基础设施上运行
- 轻资产模式侧重于优化软件而非昂贵的 GPU 所有权
全面的模型支持
- 40 多种不同 AI 模型经过精心策划和优化以实现性能
- 支持多种 GPU 类型:A100、H100、H200、B200、AMD MI300X
- 按 GPU 秒计费,无需额外收取启动时间费用
- 与 OpenAI API 兼容,实现无缝集成
定价结构
Fireworks AI 采用按使用量付费的定价模式,费率具有竞争力
文本和视觉模型 (2025)
| 参数量 | 每 100 万输入令牌价格 |
|---|
| 小于 4B 参数 | $0.10 |
| 4B - 16B 参数 | $0.20 |
| 大于 16B 参数 | $0.90 |
| MoE 0B - 56B 参数 | $0.50 |
微调服务
| 基础模型大小 | 每 100 万训练令牌价格 |
|---|
| 高达 16B 参数 | $0.50 |
| 16.1B - 80B 参数 | $3.00 |
| DeepSeek R1 / V3 | $10.00 |
专用部署
| GPU 类型 | 每小时价格 |
|---|
| A100 80GB | $2.90 |
| H100 80GB | $5.80 |
| H200 141GB | $6.99 |
| B200 180GB | $11.99 |
| AMD MI300X | $4.99 |
特殊功能
微调能力
Fireworks 提供复杂的微调服务,可通过 CLI 接口访问,支持来自 MongoDB Atlas 等数据库的 JSON 格式数据。微调模型的推理成本与基础模型相同。
开发者体验
- 用于直接模型交互的浏览器游乐场
- 具有 OpenAI 兼容性的 REST API
- 包含即用型配方的综合食谱
- 从无服务器到专用 GPU 的多种部署选项
企业级功能
- 针对受监管行业的 HIPAA 和 SOC 2 Type II 合规性
- 针对开发者的自助入职
- 针对大型部署的企业销售
- 后付费账单选项和商业层级
推理模型支持
通过 <think> 标签处理和推理内容提取,高级支持推理模型,使复杂的**多步推理**适用于实时应用程序。
Fireworks AI 的优化带来了可衡量的改进
- 吞吐量比开源引擎高 250%
- 速度快 50%,延迟降低
- 成本比替代方案降低 6 倍
- 每次请求的生成速度提高 2.5 倍
提示和注意事项
- 模型选择:根据您的具体用例选择模型 - 较小的模型用于速度,较大的模型用于复杂推理。
- 性能焦点:Fireworks 通过高级优化,使 AI 推理既快速又经济高效。
- 微调:利用微调功能,使用您的专有数据提高模型准确性。
- 合规性:HIPAA 和 SOC 2 Type II 合规性使其可用于受监管行业。
- 定价模式:按使用量付费的定价模式随您的成功而扩展,而非传统的按席位付费模式。
- 开发者资源:广泛的文档和食谱可加快实施速度。
- GPU 选项:可根据性能需求为专用部署提供多种 GPU 类型。