【OpenClaw 手册】11 模型的運作模式
OpenClaw 的 AI 模型的選擇(二):模型的運作模式
前言
還記得前一章我們討論了如何「連接」AI 大腦嗎?除了連接方式之外,不同的 AI 模型還有不同的「工作模式」——有些只能處理文字,有些可以聽聲音、看得懂圖片,甚至能分析影片。
這就是所謂的 「多模態」(Multimodal) 能力。這篇文章會帶您了解:
- 各種類型的運作模式有什麼不同?
- 多模態能力是什麼?有多實用?
- 日常生活使用上會有什麼差異?
- 哪些模型支援多模態?
什麼是「運作模式」?
生活比喻:不同的工作人員
想像您開了一家小店,雇用工作人員:
AI 模型也是一樣——不同的模型有不同的「能力範圍」。
常見的運作模式
模式一:純文字模式(Text-Only)
能力: 只能處理文字輸入和輸出。
就像: 一個只能收發信件的助理。所有事情都必須用文字表達,沒有電話、沒有圖片。
無法做到的事:
- ❌ 無法分析您傳送的圖片
- ❌ 無法進行語音對話
- ❌ 無法看懂截圖或照片
模式二:語音對話模式(Voice/Speech)
能力: 可以聽懂您的聲音,並用語音回覆。
就像: 一個可以講電話的助理,您不用打字,直接說話就能溝通。
優點:
- ✅ 雙手可以空出來做其他事
- ✅ 打字不方便時(開車、做家事)也能使用
- ✅ 對不擅長打字的人更友善
模式三:多模態模式(Multimodal)
能力: 除了文字,還能處理圖片、音頻、影片等多種形式的資料。
就像: 一個全方位的總管,不只能看文件,還能看照片、看圖表、看影片,什麼都能理解。
哪些模型支援多模態?
圖片理解能力:部分模型支援
推薦的多模態模型
結語
AI 模型的運作模式決定了您可以和它怎麼互動:
- **純文字模式:** 只能打字輸入和輸出,適合簡單的問答和寫作
- **語音模式:** 可以說話和聽回覆,雙手自由,適合不方便打字時使用
- **多模態模式:** 能看圖片、看得懂截圖,適合需要分析視覺內容的工作
選擇哪種模式,取決於您的使用場景!🙂
留言
張貼留言
歡迎留下您的心靈足跡👍