什么是拉链表
对于订单、账单流水这类数据表,如果将它们导入到数据仓库中会有一些比较特殊的地方。
-
它们的数据量比较大。尤其是处于大促或者某些运营活动期间,每天的订单量数据可能会非常多。
-
它们有一些中间字段。例如,订单状态、支付状态等。记录更新前后除了状态字段的值不同,其他字段的值完全一样。
-
不能单纯按照时间来采集数据,因为用户可能今天下单,但转钟隔夜(也就是第二天才)支付。
所以如果每天都对它们执行全量导入
,不仅非常浪费磁盘空间,而且统计的结果也可能不准确,但又不能用增量导入
的方式,因为Hive是不支持数据更新的。