4月 10, 2026

【OpenClaw 手册】11 模型的運作模式

OpenClaw 的 AI 模型的選擇（二)：模型的運作模式

前言

還記得前一章我們討論了如何「連接」AI 大腦嗎？除了連接方式之外，不同的 AI 模型還有不同的「工作模式」——有些只能處理文字，有些可以聽聲音、看得懂圖片，甚至能分析影片。

這就是所謂的 「多模態」（Multimodal） 能力。這篇文章會帶您了解：

各種類型的運作模式有什麼不同？
多模態能力是什麼？有多實用？
日常生活使用上會有什麼差異？
哪些模型支援多模態？

什麼是「運作模式」？

生活比喻：不同的工作人員

想像您開了一家小店，雇用工作人員：

工作人員類型	能力範圍
只能打字處理的助理	只能看文字、理解文字、回覆文字
有電話的助理	除了文字，還能聽聲音、說話
多功能的總管	能看文字、聽聲音、說話，還能看圖片和影片

AI 模型也是一樣——不同的模型有不同的「能力範圍」。

常見的運作模式

模式一：純文字模式（Text-Only）

能力： 只能處理文字輸入和輸出。

就像： 一個只能收發信件的助理。所有事情都必須用文字表達，沒有電話、沒有圖片。

無法做到的事：

❌ 無法分析您傳送的圖片
❌ 無法進行語音對話
❌ 無法看懂截圖或照片

模式二：語音對話模式（Voice/Speech）

能力： 可以聽懂您的聲音，並用語音回覆。

就像： 一個可以講電話的助理，您不用打字，直接說話就能溝通。

優點：

✅ 雙手可以空出來做其他事
✅ 打字不方便時（開車、做家事）也能使用
✅ 對不擅長打字的人更友善

模式三：多模態模式（Multimodal）

能力： 除了文字，還能處理圖片、音頻、影片等多種形式的資料。

就像： 一個全方位的總管，不只能看文件，還能看照片、看圖表、看影片，什麼都能理解。

哪些模型支援多模態？

圖片理解能力：部分模型支援

模型	圖片理解	說明
GPT-4o	✅ 支援	OpenAI 最新旗艦模型
GPT-4o-mini	✅ 支援	較平價的多模態模型
Claude 3.5 Sonnet	✅ 支援	Anthropic 的主力模型
Gemini 1.5 Pro	✅ 支援	Google 的旗艦多模態模型
GPT-3.5	❌ 不支援	純文字模型

結語

AI 模型的運作模式決定了您可以和它怎麼互動：

純文字模式： 只能打字輸入和輸出，適合簡單的問答和寫作
語音模式： 可以說話和聽回覆，雙手自由，適合不方便打字時使用
多模態模式： 能看圖片、看得懂截圖，適合需要分析視覺內容的工作

選擇哪種模式，取決於您的使用場景！🙂

推薦模型	特色	適合用途
GPT-4o	OpenAI 旗艦模型，能力強大	各種多模態任務
Claude 3.5 Sonnet	對話自然，理解能力強	圖片分析、長文分析
Gemini 1.5 Flash	免費額度高，CP 值高	日常使用、大量分析

搜尋此網誌

點點滴滴