【圆桌对话】面对“去IOE”和数据安全,分布式数据库如何发光发热

9月16日,Distributed Cloud|2021全球分布式云大会·上海站隆重召开。在全球分布式云大会不懈布道下,云计算行业对分布式云的关注度愈发高涨,以全球分布式云联盟成员为代表,涌现出了大量分布式云技术和实践成果,为分布式云计算发展夯实了基础。

2021全球分布式云大会为分布式云计算发展再添强大推力,本次大会共设有分布式云主题报告会、边缘云论坛、云原生专题论坛、分布式数据库论坛四大论坛,围绕分布式云、边缘算力、云原生、分布式架构等技术与实践展开。全球分布式云联盟联合阿里云、腾讯云、Google Cloud、中兴通讯、京东云、安迈云、网心科技等国内外分布式云顶尖技术服务商,共话分布式云创新新趋势,共谋云计算变革新未来,共享分布式云计算新红利!

在9月16日下午召开的分布式数据库论坛上,嘉宾精彩的分享结束后,中国DBA联盟(ACDU)理事长   盖国强、腾讯云数据库产品专家  梁文灿、京东云 数据库中间件产品负责人/StarDB架构师  徐力权、 云和恩墨(北京)信息技术有限公司高级研发工程师  刘伟就分布式数据库的技术发展和商业生态等话题进行了深度探讨。

【圆桌对话】面对“去IOE”和数据安全,分布式数据库如何发光发热-云投网

主持人:盖国强

Oracle数据库是集中的数据库,它今天仍然统治着全球数据库市场,市场占有率最高。今天嘉宾们演讲的主题是分布式数据库,大家觉得分布式数据库的机会在哪里?如何才能够获得像集中式数据库那样取得过的巨大成功?首先有请云和恩墨刘总。

嘉宾:刘伟

我之前从事互联网DBA工作,之后再云和恩墨参与了很多To  B的场景。Oracle从开始到现在还是无法被超越的,从MySQL到现在的分布式数据库,更多倾向于低成本,另一个是扩展性更好,不需要像Oracle那样,起步就有很高的成本。以典型的游戏服务为例,如果一开始就告知游戏厂商,数据库的费用高达数百万,厂商可能比较难接受;但是如果厂商可以用10万先进行测试服务,之后再根据实际运营情况扩容,接受度会比较高一些。

主持人:盖国强

你的观点是分布式数据库在成本上有优势?

嘉宾:刘伟

我认为应该说是起步成本。如果都是超大规模级的,涉及很多其他情况,就不一定了。

主持人:盖国强

下面请徐老师谈谈看法。

嘉宾:徐力权

我的想法,用三国演义里的话讲,天下大势,分久必合,合久必分。分布式数据库,从哲学角度去看,它处于分的时代,Oracle是合的时代。未来的时代,我觉得还是会走到合的终点,那个合可能不再是像Oracle一样提供单机数据库,这种“合”更多地体现在云计算的云资源,把现有的整个基础资源和能力整合到一起,提供一个完整、智能、自动化的数据库产品。

“合”的另外一层体现,现在会区分TP、AP,但未来随着基础能力不断提升,肯定到某一个时间点,这两者可以融合。未来的终极的数据库,它既有完整的基础能力,又有像简单的关系型数据库这样一个应用场景。分布式数据库的目标,可能也是逐渐往这个方向靠拢,分布式带来的好处是很强的计算能力,缺点是运营成本、运维成本都会往上提。数据库再往后发展,把当前数据库产品结合到一起,既有各自的优点,又有整体产品化的提升。

主持人:盖国强

也就是说,数据库虽然分分合合,但未来的数据库将会消除内部的复杂性,让外在看起来是透明的、集中式的,就像全世界最理想的只有计算机?

嘉宾:徐力权

对。

主持人:盖国强

谢谢你,下面有请梁文灿老师。

嘉宾:梁文灿

我个人觉得,分布式也好,集中式也好,都是一种架构的变化。Oracle数据库,从技术角度来讲,依然是顶级的数据库。但从大环境的变化来看,现在刚好处于国家在信息安全方面着力的环境下,这一点对于国产分布式数据库来说是一个机遇。

第二个是生态。Oracle也有Sharding,在中国电信有案例,但其他案例鲜有耳闻。国内的分布式数据库,跟各种生态打通,现在优秀的案例非常多。产能能不能做好跟生态的结合,跟上下游的打通有很大关联。只有形成生态,有很好的案例,才能走得更远。从这个角度来讲,国产数据库也占优势。

第三个是技术架构演进。分布式数据库跟云紧密联系、结合在一起的,属于新时代的产物,因此具备先天的优越性。

我想说的就是以上三点。

主持人:盖国强

梁文灿老师讲的三点,我觉得很透彻。我再简单概括一下,分布式在中国取得了先机,这个先机跟整个生态的应用紧密连接在一起,有大量的案例,有实打实的用户,有最大规模真实场景的考验。这些真实的考验,让中国的数据库在这方面获得世界级的领先性。如果我们在集中式方面去追赶,其实很难超越巅峰的Oracle杰作。

云的架构本身所生长出来的数据库,天然就应该是分布式的。今天也有来自Google  Cloud的郭斌老师的分享,分布式理论最重要的三篇论文就是Google 诞生的,因为Google有全球布局的大规模的云基础设施。

我们今天谈分布式数据库,在分布式数据库出现之前,用的最多的是Superserve吗?

嘉宾:徐力权

以前也是Oracle,当年很多数据库从业者面临的第一个挑战就是去Oracle。

主持人:盖国强

去IOE概念在中国提出至今已经超过十年了,事实上在绝大部分用户的场景里,Oracle仍然是具有优势的。目前,去IOE依然是一项极具挑战的事业,如何完成去IOE里面最难的一环,实现商业数据库的替换,大家有什么新的看法?这次从梁老师开始。

嘉宾:梁文灿

就我们现在的客户而言,出发点有三个,一个是信创试点,一般客户会选择全站的迁移,包括从服务器CPU,到操作系统,到中间件,到整个数据库,上述应用都会部署在容器里,这个趋势现在看起来是很明显的。

第二,整个数据库领域环境的变化,如果要去IOE,从架构上考虑,我觉得客户更多的会在做应用适配上面,需要做更多的考虑,包括触发器、存储过程、函数等应用。如果说是一些新的应用,其实迁移到固态上都还是比较容易的,没有那么大的难度。

第三,如今我们和友商已经形成了联盟,互相之间有迁移的工具和方法,能够快速评估出系统是否适合迁移,迁移的工作量多大,有多少数据不能被迁移,之后再配合开发做重点的改造。改造完之后,经过大量生产的并行环境的性能的验证,就可以做整个的并行切割,一般来讲现在客户会这么去做。

主持人:盖国强

谢谢文灿。力权你回答一下,刚才有人问,第一次听说京东云在做数据库,是一直坚持云上?还是会到线下来?

嘉宾:徐力权

我先回答关于去IOE的问题,对于去IOE这个动作,大家知道Oracle现在占有率还是很高的,像银行的核心业务还是在用Oracle。这是因为分布式的系统跟集中式的系统,天然就有比较对立的地方。采用分布式之后,必然要面对分布式带来的问题,要去IOE,更多的是怎么样把这些问题给解决了。最典型的一个问题,分布式事务存储过程,在分布式场景下,其实很难完全达到像Oracle那样强的一致性。一般在做分布式数据库的时候,可能更多的会跟业务做一些交流,在业务设计的时候,尽量往分布式方向去靠。

然后说回产品本身,分布式数据库本身也是需要往这个方向去做。虽然有难度,但对于数据库来说,最终可能会殊途同归。

第二个问题,京东云StarDB的实用形态的问题,StarDB以前推广得少,这两年才开始出现在大家的视野中。以前我们更偏向于产品在内部的使用打磨,做一些沉淀、积累。现在整个国产数据库百家争鸣的时代已经出现,StarDB具有分布式的能力,是能够解决用户的一些问题的,所以京东云也想将StarDB开放给大家去使用。

关于形态,StarDB在设计时,就考虑过它的方式。StarDB有三种方式,这三种方式可以自由组合使用。我们在设计的过程中,最开始主要是积累,从积累中看数据库到底用什么方式去做比较好,于是我们在灵活性上做了些调整。在服务形态上,用户可以在云上去使用StarDB,也可以在线下以自由化的方式去使用。

主持人:盖国强

谢谢!下面请刘伟老师谈谈。

嘉宾:刘伟

我说下个人看法。去IOE这个话题本身比较长,我自己也是从事编写数据库内核的,感受主要有两个方面,一是数据库从内向外的视角,从数据库作者来说,肯定更希望把兼容性做好,比如可以承接原先Oracle的SQL,但这只是从下往上看,如果从外往里看,比如一个业务团队,它可能只关心数据库需要从Oracle数据库迁到国产化分布式平台,它迁移的时候,最大的问题是它原先都在一套数据库里面,它的TP和AP可能都在一套里面,如果是说业务量不是特别大,其实还好。包括刚才的MogDB,它其实单机的性能已经非常高了。但是如果它有TB、百TB的数据,前面是一套Sharding分库分表的结构,最后还得做数据增量复制,这些对客户的研发、运维、架构设计都有比较大的挑战。做这种事情的人经历多起来,大家知道什么情况下该怎么去做,因此,人才的培养也比较重要。

主持人:盖国强

对于厂商来说,要想替代Oracle数据库是非常难的,因为它在易用性、功能性上的表现太优秀了。国产数据库起步非常晚,要做到高兼容性非常难。这件事情的破局,我认为大家应该坚持到拐点到来,在拐点到来之前用户会因为种种因素,不愿意选择分布式数据库。大家需要一直坚持到那个拐点到来的时候,我觉得所有国产数据库厂商应该一起努力,只要拐点到来,不会有人纠结旧时代怎么样,新时代应该怎么样,这是我的观点。

下一个问题,请嘉宾们从个人角度出发来回答。现在国内有300多家数据库厂商,但是大家所做的很多工作都是类似的,对于行业整体而言,其实存在着研发力量的浪费的问题。从个人观点出发,抛开大家各自所属公司的限制,请大家谈谈如何解决这一行业整体问题呢?

嘉宾:刘伟

纯粹个人观点,首先,我认为需要制定一些精确的信创标准,这些标准如果能细化到比如SQL标准,如果符合这个SQL标准的所有细节,那就满足信创。

第二点,分布式数据库目前国内有一些类似白皮书的结构性的一致性约束。尽管存在一定的重复工作,我个人其实更倾向于现在的模式,这种模式的好处在于十个人能够发挥十个人的作用,一旦让十个人一起去做同一件事,更多的讨论只会拖延工作的进度,导致十个人可能只发挥了两个人的工作效率。我们需要的是保证往前迈出的这一步即是正确的一步,就可以了,这是我的个人观点。

嘉宾:徐力权

从我个人角度去看,如果要达到群策群力,大家往一个方向去做,在上位,也就是政府甚至国家层面,对这个领域做集中的调控。因为这不是一个公司能够解决的问题,也不是一个大厂能解决的问题,而是整个行业,整个社会要去解决的问题。所以最好是政府能够制定类似于信创或行业协会的标准,然后才能够带领各企业,有钱的出钱,有力的出力;然后再像刘伟老师讲的,制定标准,把这些本来就比较稀缺的人才聚集合力。这样的话,盖老师说的拐点,应该很快就能到来。

嘉宾:梁文灿

我说两点,第一个我觉得还是竞争,竞争自然而然就会淘汰一些企业,然后促使其他企业提升自身水平。盖老师提出的问题,要通过市场的竞争、人才的竞争,最终优胜劣汰。这个一定是趋势,就像很多的行业竞争一样,最终会落到两到三家,最多三到四家,就跟公有云一样,我感觉这个趋势会非常明显,最终一定会到人才竞争上。

第二个,盖老师讲大家都在做同一个东西,其实还是跟竞争有关系。现在厂商在做重点客户,为了满足头部功能需求,厂家不得不去做同样的事,不做竞争就失败了。现在国产化的投入非常大,用以满足客户要求,但是从整个产品规划来看,长远规划或前瞻技术领先方面,我觉得现在国内还需要继续努力。这是我的个人观点。

主持人:盖国强

还有一个问题,其实想跟几位稍微探讨一下。我相信在座的大家也都会关心数据安全的问题。大家可能注意到了今年9月1号生效的《数据安全法》。数据实关每一个公民,它的安全性是不是能够获得有效保护,其实是非常重要的事情,我们最后来探讨一下,如何去看数据安全?再回到各自的数据库产品里面,大家如何控制数据安全?

嘉宾:梁文灿

数据安全的问题很大,安全很重要,现在国家也提出了明确的安全需求,比如数据的透明加密。大型的银行在海外有分支,支持国秘,也就是国家在安全推行的国秘算法。一些客户也会要求支持国秘,这说明现在中国政府越来越关注和重视数据安全领域。

第二个,整个数据的安全性,涉及到权限管理是不是足够精细、自动管控平台是否足够精细,会不会有风险等,这些都很重要。

第三个,审计。腾讯TDSQL,客户要求审计,现在在PAXOS上审计,推送到大数据平台。整套链路里,数据是不是合规安全,是不是不同客户能访问,这些问题客户都很关心,对于出海业务更加重要。

嘉宾:徐力权

数据安全不光是数据库。去年9月,我们经历了一轮大规模的护网行动,京东在安全方面是业内做得比较优秀的。很多数据看着是在手机上,其实也在互联网上,京东有专门的安全团队,不停地去扫瞄数据和存储内容,确保敏感数据不以明文形式存储。StarDB支持数据加密脱敏,也有很多实战经验积累,安全是关系到每个用户切身利益的,所以我个人,包括整个公司都比较赞同和支持国家去对这个数据做加密,做智能化存储。

嘉宾:刘伟

安全这一块,刚才两位提到的都是云上数据库,云下数据库情况不一样。如果对传统的数据库的安全有了解的话,就会知道一种叫做TDE透明数据加密的方式。数据在内存里面是明文的,但落地变成密文了,这是最开始的手段,但后来要求内存里也得是密文。

随着行业不断内卷,在OpenGauss上出现了最新形态——客户端和服务端全链路全体系的加密。我不确定这个方向对不对,但这的确是我见过最完美的做法。在客户端上解析完SQL,把客户端通过动态密钥加密,服务端获得密文,落地也是密文。通过只在客户端才是明文这么一种方式,去解决数据在传输和云上丢失的问题。

观众提问:

数据安全三个层面,一个是应用数据的安全,一个是元数据的安全,还有一个看量子计算。量子计算的解密能力非常强,未来应该如何应对?

主持人:盖国强

这个话题我觉得已经超越了目前数据库的技术范畴,很难去解释。真进入量子计算的时代,现在计算机网会被颠覆。量子计算也是国家“十四五”里面重要的攻关的方向之一,如果真的实现了,量子计算机来到现实,就像是关系型数据库来到数据库的世界一样,它把过去的数据库全部击溃了,是划时代意义的东西。

观众:

数据在内存上面进行加密,我在编程的时候,怎样选择?比如说我选择go,C++,我有可能保证我的内存,我选择RAST,一方面架构设计,一方面落地到语言也是战略性选择。

主持人:盖国强

所以我说那种方式做得非常极端,事实上服务端数据的加解密,那个比较会放在单独芯片里面去做,拿RAST写了个插件丢进去,还是有问题。

观众:

兼容性还是有问题?

嘉宾:刘伟

不止兼容性。因为把客户的信息解析和加密都放在客户端,任何一个语言要用它,你的客户端的得自己负责解析和加密,以及整套的加密算法。

观众:

事实上形成硬件加密?

嘉宾:刘伟

最终在服务端在硬件的空间里面做解密比较,那块空间常规编程手段管不到。

主持人:盖国强

不知道是不是解答了你的疑问。这是目前软件领域实现的一些东西,其实在OpenGauss即将发布的版本里,区块链表实现了。Oracle在21的版本里实现了区块链表,是靠单库来实现的;现在高斯通过三副本来做健全。如果未来国产数据库大家一起能干点新鲜的事,而不是基础的事,也挺值得期待的。

*文章为作者独立观点,不代表云投网立场
发表评论

坐等沙发
相关文章
应“云”而生,思特奇PhotonBase助力企业搭建数智化转型数据底座
应“云”而生,思特奇PhotonBase助力企业…
国产开源分布式关系数据库TiDB整体架构
国产开源分布式关系数据库TiDB整体架构
银行数字化又一重要突破口:分布式数据库
银行数字化又一重要突破口:分布式数据库
华为联合发布:面向分布式数据库的创新存储方案
华为联合发布:面向分布式数据库的创新…
领航国产分布式数据库!OceanBase 3.2版发布
领航国产分布式数据库!OceanBase 3.2版…
陆金所 王剑:平安集团数据库规范管理平台 bettle 最佳实践
陆金所 王剑:平安集团数据库规范管理平…
我还没有学会写个人说明!

24小时排行

  • 暂无文章