Databricks称企业重视资料安全,盼数据存储本地及训练自家模型

2024-05-02 15:05

ChatGPT掀起AI(人工智能)旋风,惟其基础是闭源大模型、不公开程式码,开发者需缴付月费、交出私有数据方能透过该模型进行后续开发。 不过,考虑到数据私隐、商业机密等,有企业抱持保留态度。 数据分析企业Databricks产品部高级副总裁David Meyer称,企业日益重视数据私有化,并依照数据训练自家专属模型,以提升商业效率,而在训练大模型时,数据的质素也越发重要。

不少科企“大撒币”推自家大模型,更致力于将其商业化以回收成本,故大模型闭源几成业内默契。 但Databricks早前发布的通用大型语言模型DBRX主打开源,更称该模型在大多数基准测试中的表现胜于OpenAI训练出的GPT-3.5。 该公司产品部高级副总裁David Meyer表示,DBRX使用“混合专家”(MoE)架构,可智能分配机器学习过程予不同子神经网络,令运作效率提升。 操作上,企业员工只需一键上传CSV格式的数据文件,文件便会实时获解析,随后员工可用自然语言与模型对话,得出自己想要的运算结果,其速度比一般大语言模型更快。

“模型大小不代表一切”

另外,David Meyer指出,企业重视资料安全及成本效益,希望将数据存储于本地及训练自家模型,他相信DBRX能助企业依据自己资料训练衍生模型,更避免知识产权争端,成本则低至500美元起。

现时主流追逐参数较高甚至高至数千亿级的大模型,因参数较高意味着性能较强,不过David Meyer认为,模型大小不代表一切,有时就算是较小的开源模型,若以小批高质素数据训练微调,也能达至与大型语言模型同样的效果。


相关阅读