1. 关系型数据库(SQL)
关系型数据库是指采用了关系模型来组织数据的数据库。简单来说,关系模式就是二维表格模型。
主要代表:SQL Server、Oracle、MySQL、PostgreSQL。
优点:
(1)容易理解,二维表的结构非常贴近现实世界,二维表格,容易理解。
(2)使用方便,通用的sql语句使得操作关系型数据库非常方便。
(3)易于维护,数据库的ACID属性,大大降低了数据冗余和数据不一致的概率。
数据库事务必须具备ACID特性(Atomic原子性,Consistency一致性,Isolation隔离性,Durability持久性)。
MVCC(Multi-Version Concurrency Control) 多版本并发控制(一致性)
MVCC 是一种并发控制的方法,MVCC维持一个数据的多个版本使读写操作没有冲突,实现对数据库的并发访问。可将MVCC看成行级别锁的一种妥协,它在许多情况下避免了使用锁,同时可以提供更小的开销。根据实现的不同,它可以允许非阻塞式读,在写操作进行时只锁定必要的记录。
使用MVCC多版本并发控制比锁定模型的主要优点是在MVCC里, 对检索(读)数据的锁要求与写数据的锁要求不冲突, 所以读不会阻塞写,而写也从不阻塞读。
在数据库里也有表和行级别的锁定机制, 用于给那些无法轻松接受 MVCC 行为的应用。恰当地使用 MVCC 总会提供比锁更好地性能。
缺点:
1).高并发读写需求: 并发性非常高的系统,硬盘I/O是一个很大的瓶颈
2). 海量数据的高效率读写: 海量数据表的查询效率是非常低
3). 高扩展性和可用性: 对数据库系统进行升级和扩展往往需要停机维护和数据迁移。
2. 非关系型数据库(NoSQL)
NoSQL最常见的解释是“non-relational”、 “Not Only SQL”。NoSQL泛指非关系型的、分布式的数据库,区别于关系数据库,它们不保证关系数据的ACID特性。主要代表MongoDB,Redis、CouchDB。
以放宽ACID原则为代价,NoSQL采取的是最终一致性原则,而不是像关系型数据库那样地严格遵守着ACID的原则,这意味着如果在特定时间段内没有特定数据项的更新,则最终对其所有的访问都将返回最后更新的值。
NoSQL优点:
易扩展,NoSQL数据库去掉关系数据库的关系型特性。数据之间无关系,这样就非常容易扩展。大数据量,高性能,NoSQL数据库都具有非常高的读写性能。
NoSQL分类
非关系数据库大部分是开源的,根据结构化方法和应用场景的不同,分为以下几类。
(1)面向高性能并发读写的key-value数据库: 主要特点是具有极高的并发读写性能,例如Redis。
(2)面向海量数据访问的面向文档数据库: 特点是,可以在海量的数据库快速的查询数据。例如MongoDB。
(3)面向可拓展的分布式数据库: 解决的主要问题是传统数据库的扩展性上的缺陷, 例如TBASE,MPP。
NoSQL缺点
由于Nosql约束少,也不能够像sql那样提供where字段属性的查询。因此适合存储较为简单的数据。
有一些不能够持久化数据,所以需要和关系型数据库结合。
3. 分布式数据库(NewSQL)
NewSQL 是对各种新的可扩展/高性能数据库的简称,这类数据库不仅具有NoSQL对海量数据的存储管理能力,还保持了传统数据库支持ACID和SQL等特性。
NewSQL是指这样一类新式的关系型数据库管理系统,针对OLTP(读-写)工作负载,追求提供和NoSQL系统相同的扩展性能,且仍然保持ACID和SQL等特性(scalable and ACID and (relational and/or sql -access))。
目前国内主要的开源的分布式数据库有:TiDB,SequoiaDB巨杉数据库
商用的分布式数据库有: OceanBase,TDSQL
分布式数据库一般遵守CAP 理论 和 BASE理论。
3.1 CAP 理论
CAP原则又称CAP定理,指的是在一个分布式系统中,一致性(Consistency)、可用性(Availability)、分区容错性(Partition tolerance)。CAP 原则指的是,这三个要素最多只能同时实现两点,不可能三者兼顾。
- 一致性(C):在分布式系统中的所有数据备份,在同一时刻是否同样的值。(等同于所有节点访问同一份最新的数据副本)
- 可用性(A):在集群中一部分节点故障后,集群整体是否还能响应客户端的读写请求。(对数据更新具备高可用性)
- 分区容忍性(P):以实际效果而言,分区相当于对通信的时限要求。系统如果不能在时限内达成数据一致性,就意味着发生了分区的情况,必须就当前操作在C和A之间做出选择。
3.2 BASE理论
BASE理论是由eBay架构师提出,是Basically Available(基本可用)、Soft state(软状态)和Eventually consistent(最终一致性)三个要素的缩写。
BASE理论是对CAP中一致性和可用性权衡的结果,其来源于对大规模互联网系统分布式实践的总结, 是基于CAP定理逐步演化而来的。BASE理论的核心思想是:即使无法做到强一致性,但每个应用都可以根据自身业务特点,采用适当的方式来使系统达到最终一致性。
3.2.1 Basically Available(基本可用)
基本可用是指分布式系统在出现不可预知故障的时候,允许损失部分可用性。注意,这绝不等价于系统不可用。比如:
- 响应时间上的损失。正常情况下,一个在线搜索引擎需要在0.5秒之内返回给用户相应的查询结果,但由于出现故障,查询结果的响应时间增加了1~2秒
- 系统功能上的损失:正常情况下,在一个电子商务网站上进行购物的时候,消费者几乎能够顺利完成每一笔订单,但是在一些节日大促购物高峰的时候,由于消费者的购物行为激增,为了保护购物系统的稳定性,部分消费者可能会被引导到一个降级页面。
3.2.2 Soft state(软状态)
软状态指允许系统中的数据存在中间状态,并认为该中间状态的存在不会影响系统的整体可用性,即允许系统在不同节点的数据副本之间进行数据同步的过程存在延时。
3.2.3 Eventually consistent(最终一致性)
最终一致性强调的是所有的数据副本,在经过一段时间的同步之后,最终都能够达到一个一致的状态。因此,最终一致性的本质是需要系统保证最终数据能够达到一致,而不需要实时保证系统数据的强一致性。
总的来说,BASE理论面向的是大型高可用可扩展的分布式系统,和传统的事物ACID特性是相反的,它完全不同于ACID的强一致性模型,而是通过牺牲强一致性来获得可用性,并允许数据在一段时间内是不一致的,但最终达到一致状态。但同时,在实际的分布式场景中,不同业务单元和组件对数据一致性的要求是不同的,因此在具体的分布式系统架构设计过程中,ACID特性和BASE理论往往又会结合在一起。
版权声明:本文为博主原创文章,未经博主允许不得转载。