

一个优秀的云,除了优秀的软件以外,也需要有足够强大的硬件底座。大家对Oracle硬件的映像,除了当年收购了SUN以外,最多了解的可能就是数据库一体机,主要包含Oracle Exadata和Oracle Database Application(ODA)。在Oracle云(Oracle Cloud Infrastructure,OCI)上,Exadata也作为硬件底座,为云上提供强劲的数据库服务,通过多云合作,还在多个公有云实现了相同的数据库能力。结合Oracle Database 23ai提供的融合数据库与AI向量搜索能力,为AI提供了强劲的数据处理能力。
当然本期不仅是谈OCI上的Exadata,AI时代除了数据处理能力以外,还有一样东西也是AI急需的,那就是算力,而目前的AI技术架构中主要需要的就是GPU。以前Oracle也是有一个大型机的硬件架构——SuperCluster,这个东西我确实是没见过。

随着X86 CPU的飞速发展,Oracle也逐渐放弃了SPARC CPU,SuperCluster似乎也逐渐远离我们的视线。但是随着Oracle云上战略重心的变化,AI成为核心发展方向,SuperCluster用另一种形态回归——AI算力集群。
OCI上的SuperCluster带来了以下能力:

在网络层面,通过RDMA(RoCE)实现了:



除了网络以外,通过OCI文件存储(OCI File Storage)及其新的高性能装载目标(HPMT)功能,在单个文件系统中实现每秒TB的吞吐量。还将很快推出一个完全托管的Lustre文件服务,每秒可以支持数十TB。为了匹配增加的存储吞吐量,OCI GPU计算前端网络容量从H100 GPU加速实例的100 Gbps增加到H200 GPU加速实例中的200Gbps,B200 GPU和GB200实例的每个实例为400Gbps(每个NVL72机架的总容量为7200Gbps)。
通过多方位的硬件整合,OCI为所有AI应用提供了高算力、高吞吐、低延迟、高IO且智能化的稳定的GPU算力集群,配合Oracle Database 23ai+Exadata提供的强大的融合数据库,在AI时代披荆斩棘。