在欧洲人工智能与大数据博览会召开之前,AI News 采访了Databricks高级解决方案架构师 Ivo Everts ,讨论了影响开源人工智能和数据治理未来的几个关键发展。
Databricks 的显著成就之一是DBRX模型,它为开放大型语言模型 (LLM) 设立了新的标准。
“发布后,DBRX 在标准基准测试中的表现优于所有其他领先的开放模型,推理速度比 Llama2-70B 等模型快 2 倍,”Everts 解释道。“得益于各种技术进步,它的训练效率更高。
“从质量的角度来看,我们认为 DBRX 是最好的开源模型之一,当我们提到‘最佳’时,这意味着广泛的行业基准,包括语言理解(MMLU)、编程(HumanEval)和数学(GSM8K)。”
该开源 AI 模型旨在“使定制 LLM 的培训不再局限于少数模型提供商,并向各大组织展示,他们可以以经济高效的方式利用自己的数据培训世界一流的 LLM”。
为了履行对开放生态系统的承诺,Databricks 还开源了Unity Catalog。
Everts 指出:“开源 Unity Catalog 增强了其在云平台(例如 AWS、Azure)和本地基础设施上的采用率。这种灵活性使组织能够统一应用数据治理策略,无论数据存储或处理在何处。”
Unity Catalog 通过各种功能解决数据蔓延和访问控制不一致的挑战:
该公司推出了Databricks AI/BI,这是一款新的商业智能产品,利用生成式人工智能来增强数据探索和可视化。Everts 认为,“真正智能的 BI 解决方案需要了解业务的独特语义和细微差别,才能有效地回答业务用户的问题。”
AI/BI系统包括两个关键组件:
Everts 表示,Databricks AI/BI 旨在提供“对数据语义的深刻理解,使组织中的每个人都能进行自助数据分析。” 他指出,它由“复合 AI 系统提供支持,该系统不断从组织整个数据堆栈的使用情况中学习,包括 ETL 管道、沿袭和其他查询。”
Databricks 还推出了Mosaic AI,Everts 将其描述为“一个用于构建、部署和管理机器学习和生成式 AI 应用程序的综合平台,集成企业数据以增强性能和治理。”
Mosaic AI 提供了几个关键组件,Everts 概述如下:
Everts 强调,Mosaic AI 对基础模型进行微调和定制的方法包括独特的功能,例如通过“利用集群内基础模型缓存”实现的“快速启动时间”、用户可以“跟踪模型的响应在整个训练过程中的变化”的“实时提示评估”,以及对“自定义预训练检查点”的支持。
这些创新的核心是数据智能平台,Everts 表示,该平台“通过使用人工智能模型深入了解企业数据的语义,从而改变数据管理。”该平台结合了数据湖和数据仓库的功能,利用 Delta Lake 技术进行实时数据处理,并结合 Delta Sharing 实现跨组织边界的安全数据交换。
Everts 解释说,数据智能平台通过提供以下功能在支持新的人工智能和数据共享计划中发挥着至关重要的作用:
作为欧洲人工智能与大数据博览会的主要赞助商,Databricks 计划在活动期间展示其开源人工智能和数据治理解决方案。
“在我们的展台,我们还将展示如何使用 Lakehouse 应用程序从头开始创建和部署自定义 GenAI 应用程序,该应用程序使用了来自 Hugging Face 的开源模型和来自 Unity Catalog 的数据,”Everts 说道。
“通过我们的 GenAI 应用程序,您可以生成自己的卡通图片,所有这些都在数据智能平台上运行。”