Databricks称企业重视资料安全 盼数据存储本地及训练自家模型
2024-05-02 10:21
ChatGPT掀起AI(人工智能)旋风,惟其基础是闭源大模型、不公开程式码,开发者需缴付月费、交出私有数据方能透过该模型进行后续开发。不过,考虑到数据私隐、商业机密等,有企业抱持保留态度。数据分析企业Databricks产品部高级副总裁David Meyer称,企业日益重视数据私有化,并依照数据训练自家专属模型,以提升商业效率,而在训练大模型时,数据的质素也越发重要。
不少科企「大撒币」推自家大模型,更致力于将其商业化以回收成本,故大模型闭源几成业内默契。但Databricks早前发布的通用大型语言模型DBRX主打开源,更称该模型在大多数基准测试中的表现胜于OpenAI训练出的GPT-3.5。该公司产品部高级副总裁David Meyer表示,DBRX使用「混合专家」(MoE)架构,可智能分配机器学习过程予不同子神经网络,令运作效率提升。操作上,企业员工只需一键上传CSV格式的数据文件,文件便会即时获解析,随后员工可用自然语言与模型对话,得出自己想要的运算结果,其速度比一般大语言模型更快。
「模型大小不代表一切」
另外,David Meyer指出,企业重视资料安全及成本效益,希望将数据存储于本地及训练自家模型,他相信DBRX能助企业依据自己资料训练衍生模型,更避免知识产权争端,成本则低至500美元起。
现时主流追逐参数较高甚至高至数千亿级的大模型,因参数较高意味着性能较强,不过David Meyer认为,模型大小不代表一切,有时就算是较小的开源模型,若以小批高质素资料训练微调,也能达至与大型语言模型同样的效果。
---
《星岛申诉王》推出全新项目「区区有申诉」,并增设「我要赞佢」栏目,现诚邀市民投稿赞扬身边好人好事,共建更有爱社区。立即「我要赞佢」︰ https://bit.ly/3uJ3yyF
想睇更多精彩内容,请立即浏览「区区有申诉」活动专页,https://bit.ly/41hgS9E
最新回应