TDWI与AB Periasamy的问答:成功的公司为何首先考虑数据
几个月前,TDWI的James Powell与MinIO联合创始人兼首席执行官AB Periasamy坐下来讨论了数据领域的趋势和挑战。原始采访(来自TDWI的Upside)可在此处找到,但出于后代考虑,我们将其包括在下面。
优势:如果要在当今的企业中具有竞争力,哪种技术或方法必须成为企业数据战略的一部分?为什么?
Anand Babu Periasamy:精通机器学习和AI必须位于榜首。话虽如此,对AI和ML的掌握是一个旅程,而且需要时间,这不仅是从技能获取的角度,而且还从业务执行的角度。
企业今天需要做的是开发基础数据结构以支持这一目标。任何规模的ML / AI野心都将需要对象存储。对象存储是云的事实存储,并且是生产级ML / AI的事实存储。您可以对块和文件进行沙盒工作,但是在生产设置中,整个生态系统围绕对象旋转。
重要的是要注意,当我说对象时,我指的不是老派设备供应商提供数据备份和恢复,而是指高性能,云原生,兼容S3的对象存储,可以在Kubernetes管理的容器中运行并适合定义现代DevOps环境的微服务架构。
这是提高竞争力的最重要技术。它今天可以派发红利(优越的经济性,类似Hadoop的速度),并且可以为企业提供至少十年的保险。此外,追求现代对象存储为混合云现实提供了关键的桥梁。现在,本地环境的外观和性能可以像公共云一样,为将来的技术策略提供了出色的可选项。
您最激动并且认为最具潜力的一项新兴技术是什么?这项技术有什么特别之处?
我们深信Kubernetes。它不仅仅是一种技术-它是构建/打包/部署框架的另一种方法,并且专门针对不断变化的环境而设计。它以促进开发,运营和IT之间协作的方式从应用程序堆栈中提取物理基础结构。这就是为什么整个公司(例如VMware)都开始采用这种技术的原因。
今天企业面临的最大挑战是什么?大多数企业如何响应(并且有效)?
最大的挑战是他们需要管理的数据量。CEO谈论的每个问题,每个问题都与数据有关:如何存储它,如何从中获取价值,保留多长时间,如何保护它以及如何使对它的访问民主化。一切都围绕数据。
企业在这项任务上做得很平庸。每个CIO / CTO / CEO / CFO调查基本上都说相同的话;“我们通常知道我们想要什么,但似乎无法始终如一地大规模执行。”
问题的核心是部落主义。DevOps对IT的看法不容乐观。IT部门认为DevOps无法理解其职责或安全要求。业务部门的人们继续问:“为什么我们不能……”。没有理解困难和含义。那些同样的商人也出于政治原因ho积数据。数据科学是一个新兴的部落,它们有自己的工具,偏见和议程。
结果就是影子IT。影子数据科学。大量重复和效率低下。企业花太多时间试图放牧,而没有足够的时间往后退几步,问“我的体系结构应该如何交付x …?”
今天有许多公司正在这样做,它们将成为未来的榜样。他们正在构建下一个十年的体系结构,而不是帮助他们拥有的体系结构。这些公司从根本上意识到,无论外界所说的是银行,制造业,工作室还是通讯公司,它们都是数据公司。成功的公司首先考虑数据。每个人都首先说客户,但仔细想想,每个客户互动都是一个数据事件。
您可能会想到,Google的模式很好。他们有数据的产品经理。这些产品经理负责构建新数据产品和创建新数据体系结构时所做出的独特的战略和战术决策。他们受到激励来推动其数据产品的访问和消费。这将推动与其他数据产品经理的协作,并引入IT和DevOps共同解决问题。
数据和分析中是否有一项新技术正在带来比大多数人意识到的更多的挑战?企业应如何调整其方法?
如前所述,Kubernetes正在席卷整个企业。这是一把双刃剑。我刚才谈到了好处,但是另一方面,随着企业采用这种新范式,许多现有技术和角色将被淘汰。传统的IT模型根本与Kubernetes架构不兼容。传统上,我们是指购买数据仓库应用程序以及购买SAN或NAS设备。
Kubernetes正在破坏设备供应商。它们不能通过Kubernetes进行容器化和编排。
这就是为什么诸如Presto,Spark,Splunk,Teradata,Vertica之类的软件供应商正在努力将状态留给对象存储以使其成为容器就绪的原因,从而使它们变得无状态。结果,对象存储正在迅速取代SAN和NAS。您会在Teradata的NOS和Splunk的SmartStore中看到这一点。
开明的企业正面临那些困难的决定。迁移到云有效地使这些旧解决方案陷入困境,并改变了IT的性质,从而影响了DevOps的人们。大多数组织会将部分(如果不是全部)数据保留在本地。使用Kubernetes的现代私有云实现将导致这些设备的淘汰以及管理它们的团队的发展。
这是一个艰难的过渡。大多数IT人员只是想订购他们现有的另一片刀片,这使他们的工作更加轻松。但是,这并不能使企业长期受益。需要部署的架构是软件定义的,通常是开源的,微服务友好的,与S3兼容且可扩展的。这些不是与设备供应商关联的术语。
您的组织在今天花费最多时间/资源的是什么计划?您的企业关注哪些内部项目,以便您从自己的数据或业务分析中受益?
MinIO有超过12,000个组织在运行其软件,并且大多数组织都有多个实例。这是一个巨大的信息源,MinIO着眼于GitHub,Slack和Remix以推动其产品管理功能。尽管GitHub(2.2万个星)和Slack(近8000个用户)是众所周知的,但Remix是一个本土的分析平台。
MinIO从MixPanel开始,但是我们的部署规模使其不可行,因此我们构建了自己的。Remix使我们能够了解组织类型,配置类型,硬件类型,使用情况,更新频率等。Remix与GitHub和Slack集成使我们能够实时确定功能和错误的优先级。这很重要,因为MinIO每周都会发布一个新版本。
此外,这些工具使我们能够确定要删除的功能。作为一家重视简单性的公司,删除的内容与添加的内容一样受关注。通过不断分析数据,我们可以确定未使用的功能并将其删除或改进。
您如何看待2020年及以后的分析和数据管理方向?我们还没有听说过什么呢?
2020年,分析和AI / ML将成为云原生,并向高性能对象存储转移。在接下来的12个月中,这将使NVMe SSD成为主要的存储介质。金融服务业已经对总拥有成本进行了数学计算,并将大部分工作量转移到了那里。其他行业已经注意到了这一点,并将开始朝着这个方向转移他们的大部分支出(云计算和本地存储)。
性能和可靠性超过了迅速缩小的成本差异。反过来,这将驱动更多的100GbE网络,并在性能方面引发一场军备竞赛-正如更多的AI / ML程序开始扩展一样。预计将在2020年看到PB规模的大规模NVMe部署。
到2020年,我们仍将拥有磁带,但明年硬盘将开始看起来更像磁带。
描述您的产品/解决方案及其为企业解决的问题。
MinIO是一种高性能的分布式对象存储,旨在在私有云部署中实现大规模扩展。与S3兼容的100%开源解决方案是业界增长最快的对象存储,并且在《财富》 500强企业中有超过一半的人都在使用它。
MinIO是专门为仅服务对象而构建的,并且是可用的最快的对象存储,在小型NVMe群集上最高可达183 GB / s。这种速度意味着企业可以直接在对象存储上运行Spark,Presto,Tensorflow和H2O.ai,使其成为主要存储解决方案,同时支持诸如数据备份和恢复之类的传统用例。