02-2-2 AI 模型的選擇(二):營運維度
AI 模型的選擇(二):營運維度
前言
當您決定要用哪個 AI 模型,心裡可能會有這樣的疑惑:
「這些 AI 是怎麼收費的?」
「什麼是 per-token 計費?我會不會用一用就爆預算?」
「聽說有 RPM、TPM...這些是什麼?」
「為什麼我的請求有時候特別慢?」
這些問題問得非常好。這篇文章就是要直接了當地回答:評估 AI 模型時,需要了解的營運層面維度。
先說結論
簡單來說:
選擇 AI 模型時代四大營運維度:(1) 費用結算方式、(2) Rate Limits 限制、(3) 延遲速度、(4) 額外功能成本。
用比喻說明
情境一:傳統瓦斯費 vs 吃到飽
以前的 AI 服務收費方式就像傳統瓦斯費:
- ❌ 按照用量精確計費 — 用多少算多少,帳單來了才知道多少錢
- ❌ 隱藏費用多 — 超出用量罰款、特殊功能加價
- ❌ 難以預測 — 這個月多用了一些,帳單就爆表
情境二:現在的 AI 服務(月費制)
現在的 AI 服務更像吃到飽餐廳:
- ✅ 月費制 — 付一個固定金額,用到飽
- ✅ 額度透明 — 清楚知道每個月可以用多少次
- ✅ 預算可控 — 不會突然帳單爆表
但別忘了:
- ⚠️ 超出額度還是要付費 — 就像吃到飽餐廳加點時另計
- ⚠️ 不同功能的費用不同 — 有些要額外付費
詳細說明
突破一:成本 — 計費方式
兩種主要計費模式
1. 訂閱制(月費)
2. Per-token 計費(用多少算多少)
月費制 AI 服務一覽(2026 年最新)
如果不想盯著用量數字,月費制是最輕鬆的選擇!
📌 匯率參考:1 USD ≈ NT$32(2026 年 4 月)
① Claude 訂閱方案(2026 年 4 月官網)
💡 建議:個人使用選 Pro($17/月 ≈ NT$544)、團隊使用選 Team($20/人/月 ≈ NT$640)
② OpenAI / ChatGPT 訂閱方案(2026 年 4 月官網)
💡 建議:個人使用選 Plus、企業使用選 Business($20/人/月 ≈ NT$640)
③ MiniMax 訂閱方案(2026 年 4 月官網)
💡 建議:需要圖片、語音、影片、音樂生成 → 選 MiniMax Plus
④ 月費制 vs Per-token 計費 比較
💡 省錢建議:
- 用量穩定 → 選月費制(NT$500-600/月起)
- 用量波動大 → 選 Per-token 計費
- 想要最便宜 → MiniMax Plus(套餐制,CP 值最高)
Input / Output Token 價格差異(2026 年最新)
重要觀念:AI 費用分為「輸入」和「輸出」兩種,通常輸出費用是輸入的 5-10 倍。
📌 匯率參考:1 USD ≈ NT$32(2026 年 4 月)
💡 省錢重點:輸出費用遠高於輸入,所以縮短輸出長度可以大幅省錢!
Tool Call 計費方式
重要:很多 provider 把 tool call 的結果也算作 input token!
以 Claude 為例(2026 年官方文件):
Claude 官方說明:
Tool use requests are priced based on:
1. The total number of input tokens sent to the model (including in the tools parameter)
2. The number of output tokens generated
3. For server-side tools, additional usage-based pricing (e.g., web search charges per search performed)
Cache(快取)機制 — 省錢法寶
Claude 官方建議:
Cache hits cost 10% of the standard input price, which means caching pays off after just one cache read for the 5-minute duration.
各家特殊計費
OpenAI Web Search
- $10 ≈ NT$320 / 1,000 次搜尋
- 搜尋內容的 token 另計
Claude Web Search
- $10 ≈ NT$320 / 1,000 次搜尋
- 搜尋結果計入 input token
Groq Llama 3.3 70B
- Input: $0.59 ≈ NT$19 / MTok
- Output: $0.79 ≈ NT$25 / MTok
- 特色:Output 只比 Input 貴 33%,適合長輸出任務
突破二:Rate Limits — 用量限制
什麼是 Rate Limits?
Rate Limits 是一段時間內的用量上限,避免單一用戶壟斷資源。
常見的衡量單位
各家 Rate Limits(2026 年最新)
Groq(最透明)
💡 注意:到達任一限制就會被阻擋!例如 RPM=30 且 TPM=6K,先觸發任一都會被拒絕。
超出限制的降級策略
當 Rate Limit 被觸發時:
OpenAI 的替代方案:
突破三:延遲與速度
什麼是 TTFT?
TTFT = Time To First Token,是第一個回應字元出現的時間。
比喻:
- TTFT 短:助理馬上開始回答,讓你知道系統有在運作
- TTFT 長:助理想了很久才開口,你以為當機了
各家速度比較(2026 年最新)
Streaming 支援
Streaming = 即時輸出,讓你看到 AI 打字的速度。
💡 建議:無論用哪個平台,都開啟 Streaming,體驗好很多!
長時間任務的穩定性
突破四:額外功能成本
常見的隱藏費用
省錢建議
- 多用 Cache:同樣的 system prompt 用 Cache 可以省 90%
- 控制輸出長度:輸出比輸入貴 5-10 倍
- 選擇 Batch API:非即時任務用 Batch 可以省 50%
- 避免不必要的 Web Search:每次搜尋約 NT$320,要用得精準
實際對話範例
情境一:控制預算
您:「我想每天讓 AI 幫我整理今日新聞,但要控制在每月 NT$320 以內...」
站長:「建議用 MiniMax 或 Groq,性價比最高。然後開啟 Cache 功能,省 90% 費用。」
情境二:遇到 Rate Limit
您:「AI 突然說他太忙了,這是什麼意思?」
站長:「這是 Rate Limit,表示您在短時間內發送太多請求了。可以等幾分鐘再試,或者升級方案。」
情境三:速度優先
您:「我需要 AI 快速回應,延遲最低的選擇是什麼?」
站長:「用 Groq!Llama 4 Scout 可以跑到 750 tokens/秒,是目前最快的選項。」
總結
今天我們學會了四大營運維度:
下一步
了解技術維度和營運維度了!下一章我們會帶您做最終的模型選擇决策,根據您的需求推薦最適合的方案。
延伸閱讀:
- 第 17 章:站長的 AI 模型選擇
- 第 18 章:AI 模型的選擇(一)技術能力維度
留言
張貼留言
歡迎留下您的心靈足跡👍