02-2-2 AI 模型的選擇(二):營運維度

AI 模型的選擇(二):營運維度

前言

當您決定要用哪個 AI 模型,心裡可能會有這樣的疑惑:

「這些 AI 是怎麼收費的?」
「什麼是 per-token 計費?我會不會用一用就爆預算?」
「聽說有 RPM、TPM...這些是什麼?」
「為什麼我的請求有時候特別慢?」

這些問題問得非常好。這篇文章就是要直接了當地回答:評估 AI 模型時,需要了解的營運層面維度。


先說結論

簡單來說:

選擇 AI 模型時代四大營運維度:(1) 費用結算方式、(2) Rate Limits 限制、(3) 延遲速度、(4) 額外功能成本。

用比喻說明

情境一:傳統瓦斯費 vs 吃到飽

以前的 AI 服務收費方式就像傳統瓦斯費

  • 按照用量精確計費 — 用多少算多少,帳單來了才知道多少錢
  • 隱藏費用多 — 超出用量罰款、特殊功能加價
  • 難以預測 — 這個月多用了一些,帳單就爆表

情境二:現在的 AI 服務(月費制)

現在的 AI 服務更像吃到飽餐廳

  • 月費制 — 付一個固定金額,用到飽
  • 額度透明 — 清楚知道每個月可以用多少次
  • 預算可控 — 不會突然帳單爆表

但別忘了:

  • ⚠️ 超出額度還是要付費 — 就像吃到飽餐廳加點時另計
  • ⚠️ 不同功能的費用不同 — 有些要額外付費

詳細說明

突破一:成本 — 計費方式

兩種主要計費模式

1. 訂閱制(月費)

特點說明
固定費用每月付固定金額
額度固定每月有固定用量上限
適合場景穩定、可預測的使用量

2. Per-token 計費(用多少算多少)

特點說明
浮動費用按照實際用量計費
彈性大用多少付多少
適合場景用量不穩定、間歇性使用

月費制 AI 服務一覽(2026 年最新)

如果不想盯著用量數字,月費制是最輕鬆的選擇!

📌 匯率參考:1 USD ≈ NT$32(2026 年 4 月)


① Claude 訂閱方案(2026 年 4 月官網)

方案價格主要特色
Free免費基本聊天功能、有用量限制
Pro$17/月(年繳)<br>≈ NT$544/月包含 Claude Code、Claude Cowork<br>解鎖更多用量、更多模型存取
Max從 $100/月 ≈ NT$3,200/月5x 或 20x 更多用量、高流量優先權<br>搶先體驗新功能
Team$20/人/月(年繳)<br>≈ NT$640/人/月企業級功能、集中帳單管理<br>Google Docs 整合、SSO
Enterprise客製化報價大規模部署、自定義用量控制<br>HIPAA 合規、審計日誌

💡 建議:個人使用選 Pro($17/月 ≈ NT$544)、團隊使用選 Team($20/人/月 ≈ NT$640)


② OpenAI / ChatGPT 訂閱方案(2026 年 4 月官網)

方案價格主要特色
Free免費基本 GPT 功能、有用量限制
Plus月繳制GPT-4o 存取、Advanced Voice Mode<br>DALL-E 圖片生成
Pro高級定價完整模型存取、最高用量限額<br>搶先體驗新功能
Business$20/人/月(年繳)<br>≈ NT$640/人/月團隊管理、API 額度、集中帳單<br>SSO 與管理員控制
Enterprise客製化報價無限制用量、專屬支援<br>自定義資料保留政策

💡 建議:個人使用選 Plus、企業使用選 Business($20/人/月 ≈ NT$640)


③ MiniMax 訂閱方案(2026 年 4 月官網)

方案特色適合場景
Plus 月度套餐全功能訂閱制圖片生成、語音合成、影片生成<br>一站式多模態服務

💡 建議:需要圖片、語音、影片、音樂生成 → 選 MiniMax Plus


④ 月費制 vs Per-token 計費 比較

比較維度月費制(訂閱)Per-token 計費
費用可預測性🟢 固定月費🟡 視用量浮動
適合用量中等穩定高峰/間歇性
超出額度通常另計/降速依實際用量收費
最低成本NT$500-600/月可能更低(用量少時)
最高彈性🟡 受額度限制🟢 完全按需使用

💡 省錢建議

  • 用量穩定 → 選月費制(NT$500-600/月起)
  • 用量波動大 → 選 Per-token 計費
  • 想要最便宜 → MiniMax Plus(套餐制,CP 值最高)

Input / Output Token 價格差異(2026 年最新)

重要觀念:AI 費用分為「輸入」和「輸出」兩種,通常輸出費用是輸入的 5-10 倍

📌 匯率參考:1 USD ≈ NT$32(2026 年 4 月)

模型Input 費用Output 費用比例
Claude Opus 4.6$5 ≈ NT$160 / MTok$25 ≈ NT$800 / MTok1:5
Claude Sonnet 4.6$3 ≈ NT$96 / MTok$15 ≈ NT$480 / MTok1:5
Claude Haiku 4.5$1 ≈ NT$32 / MTok$5 ≈ NT$160 / MTok1:5
OpenAI GPT-5.4$2.50 ≈ NT$80 / MTok$15 ≈ NT$480 / MTok1:6
OpenAI GPT-5.4 mini$0.75 ≈ NT$24 / MTok$4.50 ≈ NT$144 / MTok1:6
Groq Llama 3.1 8B$0.05 ≈ NT$1.6 / MTok$0.08 ≈ NT$2.6 / MTok1:1.6
Groq Llama 3.3 70B$0.59 ≈ NT$19 / MTok$0.79 ≈ NT$25 / MTok1:1.3

💡 省錢重點:輸出費用遠高於輸入,所以縮短輸出長度可以大幅省錢!


Tool Call 計費方式

重要:很多 provider 把 tool call 的結果也算作 input token!

Claude 為例(2026 年官方文件):

項目費用說明
tools 參數計入 input token
tool_use 內容區塊計入 input token
tool_result 內容區塊計入 input token
Tool use system promptClaude Opus 4.6:346 tokens

Claude 官方說明

Tool use requests are priced based on:
1. The total number of input tokens sent to the model (including in the tools parameter)
2. The number of output tokens generated
3. For server-side tools, additional usage-based pricing (e.g., web search charges per search performed)

Cache(快取)機制 — 省錢法寶

操作費用倍率說明
5 分鐘 cache write1.25x base input快取有效 5 分鐘
1 小時 cache write2x base input快取有效 1 小時
Cache read (hit)0.1x base input只要十分之一的價格!

Claude 官方建議

Cache hits cost 10% of the standard input price, which means caching pays off after just one cache read for the 5-minute duration.

各家特殊計費

OpenAI Web Search

  • $10 ≈ NT$320 / 1,000 次搜尋
  • 搜尋內容的 token 另計

Claude Web Search

  • $10 ≈ NT$320 / 1,000 次搜尋
  • 搜尋結果計入 input token

Groq Llama 3.3 70B

  • Input: $0.59 ≈ NT$19 / MTok
  • Output: $0.79 ≈ NT$25 / MTok
  • 特色:Output 只比 Input 貴 33%,適合長輸出任務

突破二:Rate Limits — 用量限制

什麼是 Rate Limits?

Rate Limits 是一段時間內的用量上限,避免單一用戶壟斷資源。

常見的衡量單位

單位全名說明
RPMRequests Per Minute每分鐘可以發送多少請求
RPDRequests Per Day每天可以發送多少請求
TPMTokens Per Minute每分鐘可以處理多少 tokens
TPDTokens Per Day每天可以處理多少 tokens

各家 Rate Limits(2026 年最新)

Groq(最透明)

模型RPMTPMRPD
Llama 3.1 8B306K14.4K
Llama 3.3 70B3012K1K
Kimi K26010K300K
Qwen3-32B606K500K

💡 注意:到達任一限制就會被阻擋!例如 RPM=30 且 TPM=6K,先觸發任一都會被拒絕。


超出限制的降級策略

當 Rate Limit 被觸發時:

平台預設行為解決方式
Groq回傳 429 錯誤等到下個時間段自動重置
OpenAI回傳 429 錯誤可選 Batch API 或 Flex Processing
Claude回傳 429 錯誤可選 Batch API(5 折)
MiniMax回傳錯誤升級方案或等待

OpenAI 的替代方案

方案費用延遲適合場景
Batch API5 折最長 24 小時非即時任務
Flex Processing更低可變動非生產環境
Priority Processing原價快速即時任務

突破三:延遲與速度

什麼是 TTFT?

TTFT = Time To First Token,是第一個回應字元出現的時間。

比喻:

  • TTFT 短:助理馬上開始回答,讓你知道系統有在運作
  • TTFT 長:助理想了很久才開口,你以為當機了

各家速度比較(2026 年最新)

模型速度TTFT特色
Groq Llama 3.3 70B280 tokens/s極快地表最快的 LLM 推論
Groq Llama 4 Scout750 tokens/s極快速度之王
Groq Qwen3-32B400 tokens/s很快兼顧速度與品質
Claude Sonnet 4.6中等中等平衡型
MiniMax M2.5中等中等多模態優先

Streaming 支援

Streaming = 即時輸出,讓你看到 AI 打字的速度。

平台Streaming 支援說明
OpenAI✅ 完整支援建議使用
Claude✅ 完整支援建議使用
Groq✅ 完整支援原生高速
MiniMax✅ 支援建議使用

💡 建議:無論用哪個平台,都開啟 Streaming,體驗好很多!


長時間任務的穩定性

平台長時間任務穩定性建議
OpenAI🟢 非常穩定生態系成熟
Claude🟢 非常穩定適合長 context
Groq🟢 穩定速度快但要控制長度
MiniMax🟡 穩定注意超時設定

突破四:額外功能成本

常見的隱藏費用

功能說明費用
Web Search即時網路搜尋$10 ≈ NT$320 / 1k 次
Code Execution程式碼執行Claude:免費(搭配 web search)、其餘 $0.05 ≈ NT$1.6 / 小時
Data Residency資料區域限制Claude:1.1x 費用
Fast Mode加速模式Claude Opus 4.6:6x 原價($30 ≈ NT$960 / $150 ≈ NT$4,800 per MTok)
Session RuntimeClaude Managed Agents$0.08 ≈ NT$2.6 / 每小時 session

省錢建議

  1. 多用 Cache:同樣的 system prompt 用 Cache 可以省 90%
  2. 控制輸出長度:輸出比輸入貴 5-10 倍
  3. 選擇 Batch API:非即時任務用 Batch 可以省 50%
  4. 避免不必要的 Web Search:每次搜尋約 NT$320,要用得精準

實際對話範例

情境一:控制預算

您:「我想每天讓 AI 幫我整理今日新聞,但要控制在每月 NT$320 以內...」
站長:「建議用 MiniMax 或 Groq,性價比最高。然後開啟 Cache 功能,省 90% 費用。」

情境二:遇到 Rate Limit

您:「AI 突然說他太忙了,這是什麼意思?」
站長:「這是 Rate Limit,表示您在短時間內發送太多請求了。可以等幾分鐘再試,或者升級方案。」

情境三:速度優先

您:「我需要 AI 快速回應,延遲最低的選擇是什麼?」
站長:「用 Groq!Llama 4 Scout 可以跑到 750 tokens/秒,是目前最快的選項。」

總結

今天我們學會了四大營運維度:

維度重點誰最優
費用Input/Output 分開計、Cache 省錢Groq 性價比高、MiniMax 套餐便宜
Rate LimitsRPM/TPM 上限Groq 最透明
延遲TTFT、StreamingGroq 速度最快
隱藏費用Web Search、Code Execution各家不同

下一步

了解技術維度和營運維度了!下一章我們會帶您做最終的模型選擇决策,根據您的需求推薦最適合的方案。

延伸閱讀:

  • 第 17 章:站長的 AI 模型選擇
  • 第 18 章:AI 模型的選擇(一)技術能力維度

留言