博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
通过DataWorks数据集成归档日志服务数据至MaxCompute进行离线分析
阅读量:6454 次
发布时间:2019-06-23

本文共 1214 字,大约阅读时间需要 4 分钟。

hot3.png

通过DataWorks归档日志服务数据至MaxCompute

官方指导文档:

但是会遇到大家在分区上或者DataWorks调度参数配置问题,具体拿到真实的case模拟如下:

v2-42bc57359b57f2bdc221b13785ef5e03_hd.jpg

创建数据源:

步骤1 进入数据集成,点击作业数据源,进入Tab页面。

 

v2-d2de3ca4eafe4bef026a5fa757a198cd_hd.jpg

 

步骤2 点击右上角

新增数据源,选择消息队列 loghub。

v2-66bf0e535e2c398c2df489ab5e002131_hd.jpg

v2-1ee9201ee6979d14e44e9ab77ca03afb_hd.jpg

步骤3 编辑LogHub数据源中的必填项,包括数据源名称、LogHub

Endpoint、Project、AK信息等,并点击 测试连通性。
 

创建目标表:

步骤1 在左侧tab也中找到临时查询,并右键>新建ODPS SQL节点。

 

v2-06e428e99b4918ae5dae5c7699dde487_hd.jpg

 

步骤2 编写建表DDL。

步骤3 点击
执行 按钮进行创建目标表,分别为ods_client_operation_log、ods_vedio_server_log、ods_web_tracking_log。

步骤4 直到日志打印成本,表示三条DDL语句执行完毕。

 

v2-53bc90d0c545408084d3e965934b1d18_hd.jpg

 

步骤5 可以通过desc 查看创建的表。

 

v2-ccf02eb8f0d5984cbefdda58e7ddcd9f_hd.jpg

 

其他两张表也可以通过desc 进行查询。确认数据表的存在情况。

创建数据同步任务

数据源端以及在DataWorks中的数据源连通性都已经配置好,接下来就可以通过数据同步任务进行采集数据到MaxCompute上。

操作步骤
步骤1 点击
新建业务流程 并 确认提交,名称为 直播日志采集。
 

v2-05f805276e24613bf8dbdc196ca415ed_hd.png

 

步骤2 在业务流程开发面板中依次创建如下依赖并命名。

 

v2-c3cedebbd9c57562a09a927a5aa96c2c_hd.jpg

 

依次配置数据同步任务节点配置:web_tracking_log_syn、client_operation_log_syn、vedio_server_log_syn。

步骤3 双击

web_tracking_log_syn 进入节点配置,配置项包括数据源(数据来源和数据去向)、字段映射(源头表和目标表)、通道控制。
 

v2-103d96b3b26312d8cd21b8764822b5e9_hd.jpg

v2-01e8a18eb5d4e68989a10a05d89519c7_hd.jpg

 

根据采集的时间窗口自定义参数为:

当然其消费点位也可以按照自定义设置5分钟调度一次,从00:00到23:59,startTme=[yyyymmddhh24miss−10/24/60]系统前10分钟到endTime=[yyyymmddhh24miss-5/24/60]系统前5分钟时间(注意与上图消费数据定位不同),那么应该配置为ds=[yyyymmdd-5/24/60],hr=[hh24-5/24/60],min=[mi-5/24/60]。

步骤4 可以点击高级运行进行测试。
 

v2-a7a09aff16138cb3b5f3918dddbdf898_hd.jpg

 

可以分别手工收入自定义参数值进行测试。

 

v2-92185e57443fb41bfff8a94d1a5afb01_hd.jpg

 

步骤3 使用SQL脚本确认是否数据已经写进来。如下图所示:

 

v2-a7080185b5b5af1e4dabbc099a9ca7b5_hd.jpg

 

日志服务的日志正式的被采集入库,接下来就可以进行数据加工。

比如可以通过上述来统计热门房间、地域分布和卡顿率,如下所示:

v2-82c03d03a0e177944ce913436a22bd29_hd.jpg

 

具体SQL逻辑不在这里展开,可以根据具体业务需求来统计分析。依赖关系配置如上图所示。

 

本文为云栖社区原创内容,未经允许不得转载。

转载于:https://my.oschina.net/u/3889140/blog/3034137

你可能感兴趣的文章
Unity3D NGUI 给button按钮添加单间事件
查看>>
C# 使用各种API
查看>>
密码的校验.大小写字母,数字,特殊字符中的至少3种
查看>>
ios 不同sdk4.3 6.0版本号,关于方法的兼容性的通用方法
查看>>
Shell编程学习总结
查看>>
070、如何定制Calico 网络policy(2019-04-15 周一)
查看>>
构建之法阅读笔记02
查看>>
Webstorm常用快捷键备忘
查看>>
js滚动加载到底部
查看>>
关于mac远程链接window服务器以及实现共享文件
查看>>
Redis慢查询,redis-cli,redis-benchmark,info
查看>>
Virtualbox 虚拟机网络不通
查看>>
java概念基础笔记整理
查看>>
self parent $this关键字分析--PHP
查看>>
CC_UNUSED_PARAM 宏含义的解释
查看>>
leetcode124二叉树最大路径和
查看>>
AngularJS笔记整理 内置指令与自定义指令
查看>>
shell与正则表达式
查看>>
第三篇:白话tornado源码之请求来了
查看>>
10分钟搞定支付宝和微信支付的各种填坑
查看>>