Databricks稱企業重視資料安全盼數據存儲本地及訓練自家模型

2024-05-02 10:21

ChatGPT掀起AI（人工智能）旋風，惟其基礎是閉源大模型、不公開程式碼，開發者需繳付月費、交出私有數據方能透過該模型進行後續開發。不過，考慮到數據私隱、商業機密等，有企業抱持保留態度。數據分析企業Databricks產品部高級副總裁David Meyer稱，企業日益重視數據私有化，並依照數據訓練自家專屬模型，以提升商業效率，而在訓練大模型時，數據的質素也越發重要。

不少科企「大撒幣」推自家大模型，更致力於將其商業化以回收成本，故大模型閉源幾成業內默契。但Databricks早前發布的通用大型語言模型DBRX主打開源，更稱該模型在大多數基準測試中的表現勝於OpenAI訓練出的GPT-3.5。該公司產品部高級副總裁David Meyer表示，DBRX使用「混合專家」（MoE）架構，可智能分配機器學習過程予不同子神經網絡，令運作效率提升。操作上，企業員工只需一鍵上傳CSV格式的數據文件，文件便會即時獲解析，隨後員工可用自然語言與模型對話，得出自己想要的運算結果，其速度比一般大語言模型更快。

「模型大小不代表一切」

另外，David Meyer指出，企業重視資料安全及成本效益，希望將數據存儲於本地及訓練自家模型，他相信DBRX能助企業依據自己資料訓練衍生模型，更避免知識產權爭端，成本則低至500美元起。

現時主流追逐參數較高甚至高至數千億級的大模型，因參數較高意味着性能較強，不過David Meyer認為，模型大小不代表一切，有時就算是較小的開源模型，若以小批高質素資料訓練微調，也能達至與大型語言模型同樣的效果。

---

《星島申訴王》推出全新項目「區區有申訴」，並增設「我要讚佢」欄目，現誠邀市民投稿讚揚身邊好人好事，共建更有愛社區。立即「我要讚佢」︰ https://bit.ly/3uJ3yyF

想睇更多精彩內容，請立即瀏覽「區區有申訴」活動專頁，https://bit.ly/41hgS9E

關鍵字

「新債王」料儲局6月不會減息今年只會減息1次

3內企逆市申港上市富友支付去年多賺三成上海細胞治療虧損收窄

Databricks稱企業重視資料安全盼數據存儲本地及訓練自家模型

「模型大小不代表一切」

最新回應

訂閱星島日報

聯絡我們

廣告表格及價目表