数据计算指标分析

添码座原创大约 2 分钟

整体的数据计算指标需求如下。

任务1：将数据库中的粉丝历史关注数据follow_00 ~ follow_09批量导入到Neo4j中，这个任务在初始化的时候只需要执行一次。
任务2：通过Spark实时维护粉丝的关注与取消关注数据，它的数据源自于Kafka中的user_follow这个Topic，它的计算结果也保存到Neo4j。
任务3：通过Spark每天计算并更新用户的活跃时间，如果当天活跃过，就更新最近活跃时间为当前日期，这是针对主播和粉丝都会进行的计算任务，它的数据源自于HDFS中的user_active，计算结果保存到Neo4j。
任务4：通过Spark每天计算并更新主播等级数据，这项计算任务仅针对主播，它的数据源自于HDFS中的user_level，计算结果保存到Neo4j。
任务5：通过Spark每周计算主播最近30天的内容评级，它的数据源自于HDFS中的live_info，计算结果保存到Neo4j。
任务6：通过Spark每周计算主播近一个周的三度关系列表，参与计算的主播需要满足下面几个前提条件。
- 主播近一周内处于活跃状态。
- 主播等级 > 10。
- 主播近30天至少3条内容评价满足A+。
- 主播粉丝列表关注重合度 > 2。
任务7：每周将计算结果导出到MySQL。

感谢支持

更多内容，请移步《超级个体》。