博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Docker时代——如何实现日志数据一键上云
阅读量:6832 次
发布时间:2019-06-26

本文共 2337 字,大约阅读时间需要 7 分钟。

一、 准备工作

1.1 开通MaxCompute服务

参考

1.2 开通Datahub服务

进入,创建project(注意:首次使用的用户需要申请开通)

1.3 安装Docker环境

Docker官方说明了在不同操作系统下安装Docker的方法,您可以查看。

在阿里云ECS上,以CentOS 7.2为例,安装方式如下:

sudo yum install dockersudo systemctl enable dockersudo systemctl start docker

二、 运行数据采集的Docker镜像

以Web服务器Nginx的日志采集为例,假设Nginx的日志在服务器的路径为/var/www/all.log,日志样例如下所示:

192.168.1.6 - - [10/Feb/2017:10:51:09 +0800] "GET /ubuntu.iso HTTP/1.0" 0.000 129 404 168 "-" "Wget/1.11.4 Red Hat modified"

运行如下的命令,配置其中ACCESS_ID,ACCESS_KEY, DATAHUB_PROJECT,MAXCOMPUTE_PROJECT和MAXCOMPUTE_TABLE等必要的参数,即可启动日志采集插件的docker镜像,实现将指定的日志按行导入Datahub,并自动归档到MaxCompute的表中。

docker run  -v /var/www:/var/www:ro -e DATA_COLLECTOR_TYPE=classic -e ACCESS_ID={YOUR_ACCESS_ID} -e ACCESS_KEY={YOUR_ACCESS_KEY} -e DATAHUB_PROJECT={YOUR_DATAHUB_PROJECT} -e MAXCOMPUTE_PROJECT={YOUR_MAXCOMPUTE_PROJECT}  -e MAXCOMPUTE_TABLE={YOUR_MAXCOMPUTE_TABLENAME} -e DATA_FILE_PATH=/var/www/.*.log  registry.cn-hangzhou.aliyuncs.com/aliyun_maxcompute/data_collectors:1.0

该日志采集插件会监控所指定的日志文件,不断地将新增的日志上传,在正常情况下,Datahub的project里会自动创建一个名为maxcompute_data_collect_topic的topic,MaxCompute的project中会自动创建指定名字的表,表的schema如下所示:

+------------------------------------------------------------------------------------+| Native Columns:                                                                    |+------------------------------------------------------------------------------------+| Field           | Type       | Label | Comment                                     |+------------------------------------------------------------------------------------+| line            | string     |       |                                             |+------------------------------------------------------------------------------------+| Partition Columns:                                                                 |+------------------------------------------------------------------------------------+| pt              | string     |                                                     |+------------------------------------------------------------------------------------+

三、 数据分析

在docker镜像跑起来后,日志数据就源源不断地导入MaxCompute的表中了,数据默认会按照采集的时间按天进行分区。例如我们想知道20170210这天192.168.1.6这个ip的访问次数可以简单的用下面的SQL完成。

select count(*) from YOUR_MAXCOMPUTE_TABLENAME where pt = '20170210' and instr(line, '192.168.1.6') > 0;

更多复杂的分析,可以通过编写UDF或者MR作业来完成,可以参考了解更多。

四、相关阅读

转载地址:http://jnikl.baihongyu.com/

你可能感兴趣的文章
10月第4周中国五大顶级域名净增约4.2万 美国净减14.5万
查看>>
12月14日中国域名商解析量17强:易名增幅最大
查看>>
全球六大国际域名解析总量突破1.6亿 共净增48万
查看>>
HTML5+CSS3 loading 效果收集
查看>>
雅虎确认网站管理员工具 Site Explorer 将于11月21日关闭
查看>>
优质实用的开源项目推荐
查看>>
我的友情链接
查看>>
Linux服务器安全防护十个方面
查看>>
LVS+Keepalived
查看>>
SoO of EIGRP
查看>>
常用Category
查看>>
Mysql性能测试 Mysql性能
查看>>
单例模式
查看>>
搜狗输入法漏洞获取系统权限0day再述
查看>>
常见的WebPack文件、什么是WebPack
查看>>
DVD刻录机的使用与维护
查看>>
乌班图的世界——建立文件夹和空文件
查看>>
构建Postfix邮件系统(二) -- SMTP认证发信+SquirrelMail
查看>>
Oracle 使用concat函数需要注意的地方
查看>>
数据库默认排序
查看>>