AI会吞噬所有软件:Databricks CEO 阿里·戈德西专访

Databricks的联合创始人兼CEO阿里·戈德西(Ali Ghodsi)在最近一次访谈中,阿里回顾了他个人的成长经历、Databricks的创办历程,以及AI技术对未来软件发展的深远影响。本文将详细解析这些关键点,并探讨数据的重力、湖仓(Data Lakehouse)的概念,以及企业级模型的发展趋势。

一、阿里·戈德西的成长经历

阿里·戈德西出生于伊朗伊斯兰革命期间的1978年,在伊朗度过了前五年,然后全家逃往瑞典。在瑞典,他接触到了计算机科学,并在七年级时学习了Pascal语言。2009年,他来到美国,在加州大学伯克利分校进行研究,与同事们共同创立了Apache Spark项目,这是一个用于大规模数据分析的开源引擎。

二、Databricks的创办历程

1. Apache Spark的诞生

阿里和他的团队最初是为了展示Mesos集群操作系统的价值而开发了Spark,然而最终Spark因其在机器学习和人工智能上的卓越表现成为了主要项目。起初,虽然学术界和开源社区对Spark的反应冷淡,但随着Databricks的成立和Spark性能的逐步提升,Spark逐渐被广泛采用。

2. Databricks的商业化之路

在创建Databricks时,阿里和团队面临了诸多挑战,尤其是在商业化方面。2014年公司成立后的初期收入并不高,但他们坚持不懈,通过不断改进产品和技术,逐渐实现了商业成功。彼得·蒂尔(Peter Thiel)曾提到,一个产品要想从零到一打开市场,需要做到比现有产品好十倍,而Spark在某些情况下甚至做到了百倍的提升。

三、数据湖仓(Data Lakehouse)的概念

1. 数据湖和数据仓库的融合

在企业中,传统的数据存储主要分为结构化数据的数仓和非结构化数据的数据湖。这两者基本上是完全独立的,而Databricks提出的湖仓概念正是为了统一这两种数据存储形式。湖仓不仅能够处理结构化数据,还可以处理文本、图像等非结构化数据,使数据处理更加高效和统一。

2. 开源策略的挑战和优势

虽然开源策略带来了广泛的用户基础,但阿里也指出,开源本身并不足以确保商业成功。Databricks通过引入Photon引擎,进一步提升了性能和效率,与Spark完全兼容但速度提升了十倍。这种创新不仅提高了计算效率,也降低了企业的使用成本。

四、AI对软件的深远影响

1. AI与大语言模型

阿里谈到,人工智能特别是大语言模型(如ChatGPT)的出现,彻底改变了软件开发和应用的模式。Databricks通过收购Mosaic ML,进一步增强了在企业级AI模型方面的能力。Mosaic ML专注于帮助企业构建定制化的大语言模型,从而使企业能够充分利用自身的数据资源。

2. 数据的重力与安全

数据具有重力,一旦沉淀下来就很难移动。Databricks通过提供安全、稳定的数据处理平台,使企业不必担心数据泄露或被不当使用。此外,随着生成式AI和大语言模型的普及,数据隐私和安全性变得比以往任何时候都更加重要。Databricks致力于确保客户数据的安全,赢得了广泛的信任。

五、企业级模型的发展趋势

1. 定制化与轻量级模型

对于许多企业而言,完全通用的大模型并不总是必要的。Databricks提供了从轻量级微调到复杂的混合专家架构等多种定制化模型解决方案,帮助企业实现高效、低成本的AI应用。

2. 云计算与本地计算的取舍

Databricks坚持云上GPU方案,以确保客户能够使用最新的硬件资源,同时避免了与客户本地基础设施的混杂。这种策略不仅提升了计算效率,也简化了维护和更新的过程。

六、未来展望

阿里认为,未来的软件将逐渐垂直化,人工智能将重新定义所有的SaaS应用,逐步吞噬传统的软件开发模式。随着AI技术的不断进步,Databricks将在这一过程中扮演重要角色,继续推动数据和AI技术的创新和应用。