2025年AI再进化两大关键发展挑战人类产业专家料监管趋严「今年为AI治理重要一年」

2025-01-01 06:00

AI技术日新月异下，近期就有内地商家利用技术伪造名人直播带货，不但形象真实、声音更难分真伪，甚至成功售卖了1,200件商品；事实上，如今只需输入一段文字，AI就能自动生成具有立体感的图像、影片，以至同步产出相应旁白或音乐，甚或协同多种模型，自动完成复杂任务。对于来年发展方向，有AI业界表示，「多模态大模型」与「AI Agent协同技术」将成为引领未来发展的关键技术。

腾讯推出混元大模型升级版，重点强化其在游戏开发、内容创作和社交媒体领域的应用。

字节跳动发布云雀大模型，专注工业制造领域的智能化升级。

百度公司主打升级版文心一言4.0，除了强化多模态能力外，还推出专门服务企业的「文心一言企业版」，主打智慧商业分析和决策辅助。

OpenAI后续推出的GPT-o1及o3，不但在图像与文字生成的品质上向前跃进，更让AI的推理与理解能力直迫高等学府的博士水准。

「多模态大模型」与「AI Agent协同技术」将成为引领未来发展的关键技术。

AI音乐让使用者只需输入曲风、情感、速度等关键词就能自动生成完整曲目，还能根据影片或图像氛围进行调整。

「多模态与协同」大降创作门槛

回顾深度学习和大型语言模型在2023年的蓬勃发展，2024年与过去最大的不同在于正式迈入「多模态与协同」的全新阶段，本地AI科技公司DotAI行政总裁杨广泽向《星岛头条》表示，以往用户必须依赖不同的模型或工具，才能分别处理文字、图像、声音和影片；然而，今年初诞生的「多模态大模型」，将这些功能统整到同一学习架构内，让用户仅透过日常语言就能创造图像、音乐或影片，甚至生成3D模型。

这项技术突破大幅降低了内容创作的门槛，用户不必懂程式语言，也不需要各种繁琐的后制工具，只要能说、能写，就能运用「多模态大模型」完成复杂且多样化的输出。杨广泽表示：「对于内容产业与创意领域而言，简直是一场革命。」

这场革命已在各领域掀起波澜，初创企业与垂直领域公司也纷纷推出创新应用。以内容创作和娱乐领域为例，AI音乐让使用者只需输入曲风、情感、速度等关键词就能自动生成完整曲目，还能根据影片或图像氛围进行调整。AI数字分身则被企业用于虚拟主播或客服行销，教育机构也藉此快速制作线上课程。声纹技术更实现了精准的声音辨识与合成，不仅可用于语音品牌或个人化AI助理，还支援声纹安全认证。

「AI Agent」自动完成复杂任务

目前，AI已能直接操作使用者的电脑、整理档案或启动软件，甚至连结多平台之间的云端帐号，在多个系统间协同工作。在金融、法律、医疗、程式设计等专业领域中，这些模型不仅能快速阅读、归纳庞大资料，也能主动提供分析建议。杨广泽表示，它不只是更聪明的聊天机器人，而更像一位「大管家」，可以协同多种工具与模型，自动完成复杂的任务。

这项技术称为「AI Agent」，有「能看、能听、能做」的特质，正颠覆人们对AI的传统想像，更突破的是，AI还能使用其他AI的功能，打造一种模型之间互助合作的生态。换句话说，「多模态大模型」提供了AI看、听及创作共同进行的能力，而「AI Agent」让AI能协同、决策与执行。它能整合多个模型，如文字生成、图像识别、声音合成等与第三方API（云端服务、CRM、行销平台等），协调并管理一连串自动化流程。

杨广泽表示，对企业而言，「AI Agent」能将市场分析、文案生成、影片制作、客户服务串联成一个自动化操作管道。对个人而言，苹果等公司则尝试将「个人化AI」与Agent概念结合，让行事历、健身纪录、语音助理跨装置无缝共享，更好地管理工作与生活。

中美科技巨头大举布局AI

看准这股趋势，全球各大科技巨头与初创公司今年纷纷布局。OpenAI后续推出的GPT-o1及o3，不但在图像与文字生成的品质上向前跃进，更让AI的推理与理解能力直迫高等学府的博士水平。

Google则在搜寻与协同作业工具中，大量导入名为Gemini的多模态模型。由前OpenAI团队组成的Anthropic，同样借助Claude系列模型向更高维度的理解与表达前进。苹果则利用自家硬件生态系的优势，锁定「个人化AI」并推出Apple Intelligence，主打隐私保护与操作便利的语音服务、健康管理等功能。

在地球的另一端，中国科技巨头在AI领域也不甘示弱，各自推出大模型应用，广泛应用于智能客服、教育培训、行业谘询、商业分析等领域。百度公司主打升级版文心一言4.0，除了强化多模态能力外，还推出专门服务企业的「文心一言企业版」，主打智慧商业分析和决策辅助。

此外，字节跳动发布云雀大模型，专注工业制造领域的智能化升级。阿里云发布通义千问2.0，整合了多模态理解与生成能力，并针对金融、医疗、教育等垂直领域推出定制化解决方案。腾讯推出混元大模型升级版，重点强化其在游戏开发、内容创作和社交媒体领域的应用。华为则推出「升腾智算平台」，为企业提供从芯片到软件的全栈AI计算服务。

制造、金融业或更多AI方案推出

杨广泽认为，自2024年开始，各大公司已达成共识，势必要利用自身庞大数据基础与技术底蕴，打造最强大、最智慧的多模态大模型。展望2025年，AI技术将朝向更深度的整合与应用方向发展，「多模态大模型」与「AI Agent」的结合将进一步成熟，可望在企业管理、医疗诊断、教育培训等领域实现更精准的场景落地。

业界预计，将出现更多专注于特定垂直领域的AI解决方案，尤其在制造业、金融服务和创意产业方面。