左永安顧問安永經營管理商學院 EMBA 哈佛大學個案觀點台灣大學個案觀點: 2025 10 20 左永安顧問/講師/委員/宮主/秘書長/永續長/執行長/理事長人工智慧基礎概論 (L11) Gemini ChatGPT perplexity Claude 大型多模態模型多模態模型(Large Multimodal Models)是指能同時處理多種資料類型的機器學習模型，包括文字、圖像、音訊和視訊等。此類模型相較於傳統專注於單一資料類型的 AI模型，更強調跨模態協同以提升任務準確度。 • 在過去一年內，OpenAI、Anthropic、Perplexity 與 Google 先後發布能同時理解與生成文字、影像、語音甚至程式碼的新模型；這些新模型都已從單純的文字生成工具躍升為可支援多場域應用的大型多模態模型。

2025年10月20日星期一

大型多模態模型

多模態模型(Large Multimodal Models)

是指能同時處理 多種資料類型的 機器學習模型，

包括文字、圖像、音訊和視訊等。

此類模型相較於傳統 專注於單一資料類型的 AI模型，

更強調跨模態協同 以提升 任務準確度。

在過去一年內，OpenAI、Anthropic、Perplexity 與 Google

先後發布能同時 理解與生成

文字、影像、語音 甚至 程式碼 的新模型；

這些新模型都已 從單純的文字生成工具 躍升為

可支援 多場域應用 的大型多模態模型。

左永安顧問安永經營管理商學院 EMBA 哈佛大學個案觀點台灣大學個案觀點