Databricks称企业重视资料安全盼数据存储本地及训练自家模型

2024-05-02 10:21

ChatGPT掀起AI（人工智能）旋风，惟其基础是闭源大模型、不公开程式码，开发者需缴付月费、交出私有数据方能透过该模型进行后续开发。不过，考虑到数据私隐、商业机密等，有企业抱持保留态度。数据分析企业Databricks产品部高级副总裁David Meyer称，企业日益重视数据私有化，并依照数据训练自家专属模型，以提升商业效率，而在训练大模型时，数据的质素也越发重要。

不少科企「大撒币」推自家大模型，更致力于将其商业化以回收成本，故大模型闭源几成业内默契。但Databricks早前发布的通用大型语言模型DBRX主打开源，更称该模型在大多数基准测试中的表现胜于OpenAI训练出的GPT-3.5。该公司产品部高级副总裁David Meyer表示，DBRX使用「混合专家」（MoE）架构，可智能分配机器学习过程予不同子神经网络，令运作效率提升。操作上，企业员工只需一键上传CSV格式的数据文件，文件便会即时获解析，随后员工可用自然语言与模型对话，得出自己想要的运算结果，其速度比一般大语言模型更快。

「模型大小不代表一切」

另外，David Meyer指出，企业重视资料安全及成本效益，希望将数据存储于本地及训练自家模型，他相信DBRX能助企业依据自己资料训练衍生模型，更避免知识产权争端，成本则低至500美元起。

现时主流追逐参数较高甚至高至数千亿级的大模型，因参数较高意味着性能较强，不过David Meyer认为，模型大小不代表一切，有时就算是较小的开源模型，若以小批高质素资料训练微调，也能达至与大型语言模型同样的效果。

---

《星岛申诉王》推出全新项目「区区有申诉」，并增设「我要赞佢」栏目，现诚邀市民投稿赞扬身边好人好事，共建更有爱社区。立即「我要赞佢」︰ https://bit.ly/3uJ3yyF

想睇更多精彩内容，请立即浏览「区区有申诉」活动专页，https://bit.ly/41hgS9E

關鍵字

「新债王」料储局6月不会减息今年只会减息1次

3内企逆市申港上市富友支付去年多赚三成上海细胞治疗亏损收窄

Databricks称企业重视资料安全盼数据存储本地及训练自家模型

「模型大小不代表一切」

最新回应

订阅星岛日报

联络我们

广告表格及价目表