数据存储：行式与列式

添码座原创大约 5 分钟

行式存储

之前在HBase中对于行式存储与列式存储的区别并没有讲的很清楚，这里把它们彻底搞清楚。

还是之前那张前台登记表。

来访登记表的数据记录方式非常符合人的阅读和记忆习惯：从上到下，从左到右。

而且每一行数据的不同列之间，也是有明显的关联关系的：单位、联系方式都必定从属于某个来访者。

大多数的计算机数据库系统也是这么存储数据的，例如Oracle、SQL Server和MySQL，因此这类用“行”的方式来存储数据，且每一行的数据之间有关联关系的数据库系统，又叫关系型数据库（Relational Database Management System，RDBMS）系统。

在计算机技术发展的早期，这种方式运行的很好。但在网络时代，就暴露出了一个很严重的问题：不够灵活，且性能太拉胯了。

以存储商品数据的表格为例。

每一列能够存储的数据量是固定的：假设编号数据会占用10B（B是Byte的缩写，表示字节，10B表示10个字节）、商品名称会占用300B，这样合计下来，一条完整的商品信息将占用2060B，也就是2KB多一点。
对于行式存储来说，任何一行数据都是不可分割的，也就是说，如果它需要读取一条商品信息，例如可口可乐，要么把它所有的属性列全部取出来，要么一个属性列都不取（有点像捆绑销售）。
这就产生了一个问题：哪怕仅仅只想看看价格，也不得不把其他不相干的数据列也拿出来。这是因为计算机没有眼睛，它无法像人一样看到并取出数据，它只能依靠蛮力查找——也就是纯粹的计算，而且它的内存分配方式也不允许它只拿部分。
所以，当要读取商品名称和价格时，为了这600B的数据，就不得不把剩下的1460B也拿出来。
这就好比某人去旅行时本来只用带衣服，却不得不把整个衣柜都打包带上一样，简直要命——这种效率可想而知——事实上，当前的互联网应用中的所有用于OLAP的行式存储数据库都是这么干的。