2025年AI再進化兩大關鍵發展挑戰人類產業專家料監管趨嚴「今年為AI治理重要一年」

2025-01-01 06:00

AI技術日新月異下，近期就有內地商家利用技術偽造名人直播帶貨，不但形象真實、聲音更難分真偽，甚至成功售賣了1,200件商品；事實上，如今只需輸入一段文字，AI就能自動生成具有立體感的圖像、影片，以至同步產出相應旁白或音樂，甚或協同多種模型，自動完成複雜任務。對於來年發展方向，有AI業界表示，「多模態大模型」與「AI Agent協同技術」將成為引領未來發展的關鍵技術。

騰訊推出混元大模型升級版，重點強化其在遊戲開發、內容創作和社交媒體領域的應用。

字節跳動發布雲雀大模型，專注工業製造領域的智能化升級。

百度公司主打升級版文心一言4.0，除了強化多模態能力外，還推出專門服務企業的「文心一言企業版」，主打智慧商業分析和決策輔助。

OpenAI後續推出的GPT-o1及o3，不但在圖像與文字生成的品質上向前躍進，更讓AI的推理與理解能力直迫高等學府的博士水準。

「多模態大模型」與「AI Agent協同技術」將成為引領未來發展的關鍵技術。

AI音樂讓使用者只需輸入曲風、情感、速度等關鍵詞就能自動生成完整曲目，還能根據影片或圖像氛圍進行調整。

「多模態與協同」大降創作門檻

回顧深度學習和大型語言模型在2023年的蓬勃發展，2024年與過去最大的不同在於正式邁入「多模態與協同」的全新階段，本地AI科技公司DotAI行政總裁楊廣澤向《星島頭條》表示，以往用戶必須依賴不同的模型或工具，才能分別處理文字、圖像、聲音和影片；然而，今年初誕生的「多模態大模型」，將這些功能統整到同一學習架構內，讓用戶僅透過日常語言就能創造圖像、音樂或影片，甚至生成3D模型。

這項技術突破大幅降低了內容創作的門檻，用戶不必懂程式語言，也不需要各種繁瑣的後製工具，只要能說、能寫，就能運用「多模態大模型」完成複雜且多樣化的輸出。楊廣澤表示：「對於內容產業與創意領域而言，簡直是一場革命。」

這場革命已在各領域掀起波瀾，初創企業與垂直領域公司也紛紛推出創新應用。以內容創作和娛樂領域為例，AI音樂讓使用者只需輸入曲風、情感、速度等關鍵詞就能自動生成完整曲目，還能根據影片或圖像氛圍進行調整。AI數字分身則被企業用於虛擬主播或客服行銷，教育機構也藉此快速製作線上課程。聲紋技術更實現了精準的聲音辨識與合成，不僅可用於語音品牌或個人化AI助理，還支援聲紋安全認證。

「AI Agent」自動完成複雜任務

目前，AI已能直接操作使用者的電腦、整理檔案或啟動軟件，甚至連結多平台之間的雲端帳號，在多個系統間協同工作。在金融、法律、醫療、程式設計等專業領域中，這些模型不僅能快速閱讀、歸納龐大資料，也能主動提供分析建議。楊廣澤表示，它不只是更聰明的聊天機器人，而更像一位「大管家」，可以協同多種工具與模型，自動完成複雜的任務。

這項技術稱為「AI Agent」，有「能看、能聽、能做」的特質，正顛覆人們對AI的傳統想像，更突破的是，AI還能使用其他AI的功能，打造一種模型之間互助合作的生態。換句話說，「多模態大模型」提供了AI看、聽及創作共同進行的能力，而「AI Agent」讓AI能協同、決策與執行。它能整合多個模型，如文字生成、圖像識別、聲音合成等與第三方API（雲端服務、CRM、行銷平台等），協調並管理一連串自動化流程。

楊廣澤表示，對企業而言，「AI Agent」能將市場分析、文案生成、影片製作、客戶服務串聯成一個自動化操作管道。對個人而言，蘋果等公司則嘗試將「個人化AI」與Agent概念結合，讓行事曆、健身紀錄、語音助理跨裝置無縫共享，更好地管理工作與生活。

中美科技巨頭大舉佈局AI

看準這股趨勢，全球各大科技巨頭與初創公司今年紛紛佈局。OpenAI後續推出的GPT-o1及o3，不但在圖像與文字生成的品質上向前躍進，更讓AI的推理與理解能力直迫高等學府的博士水平。

Google則在搜尋與協同作業工具中，大量導入名為Gemini的多模態模型。由前OpenAI團隊組成的Anthropic，同樣借助Claude系列模型向更高維度的理解與表達前進。蘋果則利用自家硬件生態系的優勢，鎖定「個人化AI」並推出Apple Intelligence，主打隱私保護與操作便利的語音服務、健康管理等功能。

在地球的另一端，中國科技巨頭在AI領域也不甘示弱，各自推出大模型應用，廣泛應用於智能客服、教育培訓、行業諮詢、商業分析等領域。百度公司主打升級版文心一言4.0，除了強化多模態能力外，還推出專門服務企業的「文心一言企業版」，主打智慧商業分析和決策輔助。

此外，字節跳動發布雲雀大模型，專注工業製造領域的智能化升級。阿里雲發布通義千問2.0，整合了多模態理解與生成能力，並針對金融、醫療、教育等垂直領域推出定制化解決方案。騰訊推出混元大模型升級版，重點強化其在遊戲開發、內容創作和社交媒體領域的應用。華為則推出「昇騰智算平台」，為企業提供從芯片到軟件的全棧AI計算服務。

製造、金融業或更多AI方案推出

楊廣澤認為，自2024年開始，各大公司已達成共識，勢必要利用自身龐大數據基礎與技術底蘊，打造最強大、最智慧的多模態大模型。展望2025年，AI技術將朝向更深度的整合與應用方向發展，「多模態大模型」與「AI Agent」的結合將進一步成熟，可望在企業管理、醫療診斷、教育培訓等領域實現更精準的場景落地。

業界預計，將出現更多專注於特定垂直領域的AI解決方案，尤其在製造業、金融服務和創意產業方面。