标签: 大数据风控

-- 创建数据库
:) CREATE DATABASE IF NOT EXISTS dwd;

-- 创建数据同步表
:) DROP TABLE IF EXISTS dwd.event_middle;
:) CREATE TABLE IF NOT EXISTS dwd.event_middle (
       eid UInt64,
       etype String,
       ename String,
       esource String,
       etime DateTime,
       userid UInt64,
       aid UInt64,
       aname String,
       tid String,
       tname String,
       context String
   ) ENGINE = Kafka() SETTINGS 
     kafka_broker_list = '172.16.185.176:9092',
     kafka_topic_list = 'eventbus',
     kafka_group_name = 'clickhouse',
     kafka_format = 'JSONEachRow';

-- 创建物化视图
:) DROP VIEW IF EXISTS dwd.event_materialized_view;
:) CREATE MATERIALIZED VIEW IF NOT EXISTS dwd.event_materialized_view
   TO dwd.event_table
   SELECT
       userid, ename, etime
   FROM dwd.event_middle;

-- 创建用户行为数据表
:) DROP TABLE IF EXISTS dwd.event_table;
:) CREATE TABLE IF NOT EXISTS dwd.event_table (
       userid UInt64,
       ename String,
       etime DateTime
   ) ENGINE = MergeTree()
     ORDER BY userId;

添码座原创大约 11 分钟

事件总线的数据

事件总线中的数据包括两大类。

客户端埋点上报的数据（原始数据保存在/var/logs/client_upload.log）。
服务端接口调用的数据（原始数据保存在/var/logs/*_api.log）。

这些原始数据经过ETL工具的即时合并和简单清洗后，结果被保存在/var/logs/eventbus.log文件中，格式统一如下。

添码座原创大约 2 分钟

风控项目说明

项目背景

薅羊毛在大多数情况下都只是一句玩笑话，但职业的羊毛党，或由此而衍生出来的黑灰产们，是让许多互联网公司都非常头疼的存在。

添码座原创大约 5 分钟