4月 12, 2026

【OpenClaw 手冊】02-2-2 AI 模型的選擇（二）：營運維度

AI 模型的選擇（二）：營運維度

前言

當您決定要用哪個 AI 模型，心裡可能會有這樣的疑惑：

「這些 AI 是怎麼收費的？」

「什麼是 per-token 計費？我會不會用一用就爆預算？」

「聽說有 RPM、TPM...這些是什麼？」

「為什麼我的請求有時候特別慢？」

這些問題問得非常好。這篇文章就是要直接了當地回答：評估 AI 模型時，需要了解的營運層面維度。

先說結論

簡單來說：

選擇 AI 模型時代四大營運維度：(1) 費用結算方式、(2) Rate Limits 限制、(3) 延遲速度、(4) 額外功能成本。

用比喻說明

情境一：傳統瓦斯費 vs 喫到飽

以前的 AI 服務收費方式就像傳統瓦斯費：

❌ 按照用量精確計費 — 用多少算多少，帳單來了才知道多少錢
❌ 隱藏費用多 — 超出用量罰款、特殊功能加價
❌ 難以預測 — 這個月多用了一些，帳單就爆表

情境二：現在的 AI 服務（月費制）

現在的 AI 服務更像喫到飽餐廳：

✅ 月費制 — 付一個固定金額，用到飽
✅ 額度透明 — 清楚知道每個月可以用多少次
✅ 預算可控 — 不會突然帳單爆表

但別忘了：

⚠️ 不同功能的費用不同 — 有些要額外付費

詳細說明

突破一：成本 — 計費方式

兩種主要計費模式

1. 訂閱制（月費）

特點	說明
固定費用	每月付固定金額
額度固定	每月有固定用量上限
適合場景	穩定、可預測的使用量

2. Per-token 計費（用多少算多少）

特點	說明
浮動費用	按照實際用量計費
彈性大	用多少付多少
適合場景	用量不穩定、間歇性使用

月費制 AI 服務一覽（2026 年最新）

如果不想盯著用量數字，月費制是最輕鬆的選擇！

📌 匯率參考：1 USD ≈ NT$32（2026 年 4 月）

① Claude 訂閱方案已於 2026.04.04 停止支援 OpenClaw

② OpenAI / ChatGPT 訂閱方案（2026 年 4 月官網）

方案	價格	Codex 用量	特色
Free	免費	❌ 無	有限額 GPT-4o
Go	$8/月 ≈ NT$256/月	❌ 無	基礎版
Plus	$20/月 ≈ NT$640/月	標準額度	熱門選擇
Pro ($100)	$100/月 ≈ NT$3,200/月	5 倍 Plus	新！進階版
Pro ($200)	$200/月 ≈ NT$6,400/月	20 倍 Plus	旗艦版
Enterprise	客製報價	無限	企業方案

💡 建議：個人使用選 Plus，企業使用選 Enterprise

③ MiniMax 訂閱方案（2026 年 4 月官網）

方案	特色	適合場景
Plus 月度套餐	全功能訂閱制	圖片生成、語音合成、影片生成、一站式多模態服務

💡 建議：需要圖片、語音、影片、音樂生成 → 選 MiniMax Plus

④ 月費制 vs Per-token 計費比較

比較維度	月費制（訂閱）	Per-token 計費
費用可預測性	🟢 固定月費	🟡 視用量浮動
適合用量	中等穩定	高峯/間歇性
超出額度	通常另計/降速	依實際用量收費
最低成本	NT$500-600/月	可能更低（用量少時）
最高彈性	🟡 受額度限制	🟢 完全按需使用

💡 省錢建議：

用量波動大 → 選 Per-token 計費
想要最便宜 → MiniMax Plus（套餐制，CP 值最高）

Input / Output Token 價格差異（2026 年最新）

重要觀念：AI 費用分為「輸入」和「輸出」兩種，通常輸出費用是輸入的 5-10 倍。

📌 匯率參考：1 USD ≈ NT$32（2026 年 4 月）

模型	Input 費用	Output 費用	比例
Claude Opus 4.6	$5 ≈ NT$160 / MTok	$25 ≈ NT$800 / MTok	1:5
Claude Sonnet 4.6	$3 ≈ NT$96 / MTok	$15 ≈ NT$480 / MTok	1:5
Claude Haiku 4.5	$1 ≈ NT$32 / MTok	$5 ≈ NT$160 / MTok	1:5
OpenAI GPT-5.4	$2.50 ≈ NT$80 / MTok	$15 ≈ NT$480 / MTok	1:6
OpenAI GPT-5.4 mini	$0.75 ≈ NT$24 / MTok	$4.50 ≈ NT$144 / MTok	1:6
Groq Llama 3.1 8B	$0.05 ≈ NT$1.6 / MTok	$0.08 ≈ NT$2.6 / MTok	1:1.6
Groq Llama 3.3 70B	$0.59 ≈ NT$19 / MTok	$0.79 ≈ NT$25 / MTok	1:1.3

💡 省錢重點：輸出費用遠高於輸入，所以縮短輸出長度可以大幅省錢！

Tool Call 計費方式

重要：很多 provider 把 tool call 的結果也算作 input token！

以 Claude 為例（2026 年官方文件）：

項目	費用說明
`tools` 參數	計入 input token
`tool_use` 內容區塊	計入 input token
`tool_result` 內容區塊	計入 input token
Tool use system prompt	Claude Opus 4.6：346 tokens

Claude 官方說明：

Tool use requests are priced based on:

1. The total number of input tokens sent to the model (including in the tools parameter)

2. The number of output tokens generated

3. For server-side tools, additional usage-based pricing (e.g., web search charges per search performed)

Cache（快取）機制 — 省錢法寶

操作	費用倍率	說明
5 分鐘 cache write	1.25x base input	快取有效 5 分鐘
1 小時 cache write	2x base input	快取有效 1 小時
Cache read (hit)	0.1x base input	只要十分之一的價格！

Claude 官方建議：

Cache hits cost 10% of the standard input price, which means caching pays off after just one cache read for the 5-minute duration.

各家特殊計費

OpenAI Web Search

$10 ≈ NT$320 / 1,000 次搜尋
搜尋內容的 token 另計

Claude Web Search

$10 ≈ NT$320 / 1,000 次搜尋
搜尋結果計入 input token

Groq Llama 3.3 70B

Input: $0.59 ≈ NT$19 / MTok
Output: $0.79 ≈ NT$25 / MTok
特色：Output 只比 Input 貴 33%，適合長輸出任務

突破二：Rate Limits — 用量限制

什麼是 Rate Limits？

Rate Limits 是一段時間內的用量上限，避免單一用戶壟斷資源。

常見的衡量單位

單位	全名	說明
RPM	Requests Per Minute	每分鐘可以發送多少請求
RPD	Requests Per Day	每天可以發送多少請求
TPM	Tokens Per Minute	每分鐘可以處理多少 tokens
TPD	Tokens Per Day	每天可以處理多少 tokens

各家 Rate Limits（2026 年最新）

Groq（最透明）

模型	RPM	TPM	RPD
Llama 3.1 8B	30	6K	14.4K
Llama 3.3 70B	30	12K	1K
Kimi K2	60	10K	300K
Qwen3-32B	60	6K	500K

💡 注意：到達任一限制就會被阻擋！例如 RPM=30 且 TPM=6K，先觸發任一都會被拒絕。

超出限制的降級策略

當 Rate Limit 被觸發時：

平臺	預設行為	解決方式
Groq	回傳 429 錯誤	等到下個時間段自動重置
OpenAI	回傳 429 錯誤	可選 Batch API 或 Flex Processing
Claude	回傳 429 錯誤	可選 Batch API（5 折）
MiniMax	回傳錯誤	升級方案或等待

OpenAI 的替代方案：

方案	費用	延遲	適合場景
Batch API	5 折	最長 24 小時	非即時任務
Flex Processing	更低	可變動	非生產環境
Priority Processing	原價	快速	即時任務

突破三：延遲與速度

什麼是 TTFT？

TTFT = Time To First Token，是第一個回應字元出現的時間。

比喻：

TTFT 短：助理馬上開始回答，讓你知道系統有在運作
TTFT 長：助理想了很久才開口，你以為當機了

各家速度比較（2026 年最新）

模型	速度	TTFT	特色
Groq Llama 3.3 70B	280 tokens/s	極快	地表最快的 LLM 推論
Groq Llama 4 Scout	750 tokens/s	極快	速度之王
Groq Qwen3-32B	400 tokens/s	很快	兼顧速度與品質
Claude Sonnet 4.6	中等	中等	平衡型
MiniMax M2.5	中等	中等	多模態優先

Streaming 支援

Streaming = 即時輸出，讓你看到 AI 打字的速度。

平臺	Streaming 支援	說明
OpenAI	✅ 完整支援	建議使用
Claude	✅ 完整支援	建議使用
Groq	✅ 完整支援	原生高速
MiniMax	✅ 支援	建議使用

💡 建議：無論用哪個平臺，都開啟 Streaming，體驗好很多！

長時間任務的穩定性

平臺	長時間任務穩定性	建議
OpenAI	🟢 非常穩定	生態系成熟
Claude	🟢 非常穩定	適合長 context
Groq	🟢 穩定	速度快但要控制長度
MiniMax	🟡 穩定	注意超時設定

突破四：額外功能成本

常見的隱藏費用

功能	說明	費用
Web Search	即時網路搜尋	$10 ≈ NT$320 / 1k 次
Code Execution	程式碼執行	Claude：免費（搭配 web search）、其餘 $0.05 ≈ NT$1.6 / 小時
Data Residency	資料區域限制	Claude：1.1x 費用
Fast Mode	加速模式	Claude Opus 4.6：6x 原價（$30 ≈ NT$960 / $150 ≈ NT$4,800 per MTok）
Session Runtime	Claude Managed Agents	$0.08 ≈ NT$2.6 / 每小時 session

省錢建議

多用 Cache：同樣的 system prompt 用 Cache 可以省 90%
控制輸出長度：輸出比輸入貴 5-10 倍
選擇 Batch API：非即時任務用 Batch 可以省 50%
避免不必要的 Web Search：每次搜尋約 NT$320，要用得精準

實際對話範例

情境一：控制預算

您：「我想每天讓 AI 幫我整理今日新聞，但要控制在每月 NT$320 以內...」
站長：「建議用 MiniMax 或 Groq，性價比最高。然後開啟 Cache 功能，省 90% 費用。」

情境二：遇到 Rate Limit

您：「AI 突然說他太忙了，這是什麼意思？」
站長：「這是 Rate Limit，表示您在短時間內發送太多請求了。可以等幾分鐘再試，或者升級方案。」

情境三：速度優先

您：「我需要 AI 快速回應，延遲最低的選擇是什麼？」
站長：「用 Groq！Llama 4 Scout 可以跑到 750 tokens/秒，是目前最快的選項。」

總結

今天我們學會了四大營運維度：

維度	重點	誰最優
費用	Input/Output 分開計、Cache 省錢	Groq 性價比高、MiniMax 套餐便宜
Rate Limits	RPM/TPM 上限	Groq 最透明
延遲	TTFT、Streaming	Groq 速度最快
隱藏費用	Web Search、Code Execution	各家不同

搜尋此網誌

點點滴滴