Files
geedge-jira/md/GIT-74.md
2025-09-14 22:27:11 +00:00

8.0 KiB
Raw Blame History

哪吒系统监控信息港与华严设备负载-王宇

ID Creation Date Assignee Status
GIT-74 2020-07-24T14:23:07.000+0800 王宇 完成

需求: 1、信息港、华严办公环境服务器添加入信息港哪吒系统内 2、服务器有现与使用人的对应关系 3、资源负载监控包括系统CPU、MEM、硬盘消耗报告出每一项损耗的TOP5其他检测项后续补充

     以上监测要求在NEZHA做出对应的图表展示panel 4、有资源消耗负载导出功能

5、提出使用NEZHA对虚拟资源进行监测的方案

6、做出TSG整体的流程图类似galaxy的整体流程图如下

!image-2020-07-24-16-20-50-777.png!

注: 1、服务器列表与机架位置详细信息由[~chenglei]、[~yangyang]、[~yinfutao]配合确定 2、检测项及需求由[~fangshunjian]提供支持 3、及时更新进度huangyuanyuan commented on 2020-07-24T15:28:29.705+0800:

麻烦知道的人在本ISSUE备注出本套NEZHA的访问地址[~majingxue]

[|http://192.168.40.118/]

 


majingxue commented on 2020-07-24T15:43:24.422+0800:

[~huangyuanyuan]好目前信息港NEZHA登录界面URL为http://192.168.40.118/#/login 系统部署情况由[~wangyu]补充,后续若有变动会及时更新。


wangyu commented on 2020-07-28T20:10:40.047+0800:

工作进度:

目前Assets信息港数据中心服务器添加完毕共61台。有5台ping不通需要确认原因。华严数据中心服务器添加完毕共35台。有9台ping不通需要确认原因。

交换机目前没有ip过一段时间添加。


wangyu commented on 2020-07-29T21:08:21.664+0800:

工作进度:

目前正在确认华严几台机器的用户名和密码。

集群40.117的prometheus不正常Projects无法获取到数据正在处理。


wangyu commented on 2020-07-31T13:44:29.680+0800:

工作进度:

1. 信息港、华严服务器已添加到信息港哪吒系统内资产类型参数也重新做过调整。在资产标签中添加了使用人、所属部门、UUID等后期资产名称会更改为单位的资产编号标签中还会添加资产所属的单位。

  1. cpu、mem、硬盘使用情况已监控已在nezha形成图表。

  2. nezha对虚拟机资源的监控方案方案1.在资产添加中可以添加0U位置的主机这样直接对主机进行监控。方案2. 单独创建一个专属虚拟机的机柜1-128U,创建一个内存多大的虚拟机就在机柜写几U。

目前存在的问题:

1.  目前cpu、mem、硬盘使用情况只对信息港的服务器进行了监控华严还需要一个prometheus监控节点目前刚在华严创建了一个虚拟机我正在安装prometheus监控节。

  1. 信息港有两台40.27和40.28服务器无发启动nezha插件我目前还在研究原因后期可能需要开发的帮助。

  2. 华严有些机器挂了所以ping不通目前程磊和高明月在处理。

 


wangyu commented on 2020-07-31T13:49:48.261+0800:

根据目前存在的问题和需要一一确认每台服务器的SN码完成时间需要延期。


wangyu commented on 2020-08-03T21:08:34.932+0800:

工作进度:

对华严节点的prometheus进行了部署。

华严机器目前有3个ip没有用户名密码所以无法远程监控。程磊正在查找。

对信息港服务器的使用人进行了更新。

华严10.80服务器有启动错误,无法正常启动,问题已经报告程磊。 !image-2020-08-03-20-56-40-033.png|width=448,height=252!

40.27和40.28目前还是有问题,我正在处理。

nezha监控表格目前只能对已有的参数进行配置目前无法新增。 !image-2020-08-03-21-08-01-324.png|width=663,height=157!


wangyu commented on 2020-08-05T02:16:58.967+0800:

今天处理机房网络没有处理nezha。


majingxue commented on 2020-08-05T11:36:13.176+0800:

异常服务器处理需要时长先延期到8月15日后续整理好需要开发内容根据开发周期进行延期


wangyu commented on 2020-08-05T20:04:57.993+0800:

工作进度:

编辑了监控脚本新添加了磁盘IO、服务器用户登录日志的监控和mysql、redis、api的服务保活报警。

华严服务器11.242硬件故障目前杨阳正在上报。10.80需要重装系统。剩余服务器以及正常。

添加服务器用户登录日志时发现有大量124.28IP在8月2日凌晨时登录服务器失败信息。公司90%的服务器登录日志都有124.28的登录失败记录。


wangyu commented on 2020-08-06T19:04:06.055+0800:

工作进度:

华严服务器11.242已经正常。

添加虚拟机监控目前正在40.117上部署telegraf+influxdb+grafana架构。通过telegraf的vsphere插件对虚拟机进行监控。

遇见的问题:

       1. telegraf启动正常后无法往influxdb写入数据目前还在寻找原因。

       2. 监控发现40.118一直在连接40.131,目前还在寻找原因。 

 


wangyu commented on 2020-08-08T03:57:02.590+0800:

工作进度:

部署telegraf+influxdb+grafana架构。

解决40.118一直连接40.131的问题。问题原因:配置文件中缺少参数。

         

遇见问题:

      1. telegraf运行后采集的虚拟机数据与现实时间不同。报错Error: ServerFaultCode: A specified parameter was not correct: entity目前还在查找原因。

       尝试解决办法1. 同步esxi时间。2. 修改telegraf.conf配置文件。

!image-2020-08-08-03-56-43-959.png|width=432,height=227!

   


wangyu commented on 2020-08-10T21:16:44.774+0800:

工作进度:

1. telegraf+influxdb+grafana部署完毕。telegraf采集的数据时间问题已解决。 !image-2020-08-10-21-14-17-035.png|width=489,height=249!

  1. 目前正在把TSG软件流程图做成动态监控模式。

wangyu commented on 2020-08-11T18:29:53.828+0800:

工作进度:

目前grafana模板编辑完毕还需要编辑监控脚本传输正确的监控数据。 !image-2020-08-11-18-29-30-986.png|width=664,height=315!


wangyu commented on 2020-08-13T18:28:53.090+0800:

工作进度:

编辑流程图监控脚本。

编辑esxi系统监控文档。

编辑grafana制作流程图报警文档。


wangyu commented on 2020-08-14T19:21:44.821+0800:

工作总结:

部署nezha。

严和信息港主机。

添加监控指标。

监控esxi虚拟机。

实现tsg流程图监控。

nezha添加登录用户。

[^任务总结.docx]


Attachments

Attachment: image-2020-07-24-16-20-50-777.png

image-2020-07-24-16-20-50-777.png

Attachment: image-2020-08-03-20-56-40-033.png

image-2020-08-03-20-56-40-033.png

Attachment: image-2020-08-03-21-08-01-324.png

image-2020-08-03-21-08-01-324.png

Attachment: image-2020-08-08-03-56-43-959.png

image-2020-08-08-03-56-43-959.png

Attachment: image-2020-08-10-21-14-17-035.png

image-2020-08-10-21-14-17-035.png

Attachment: image-2020-08-11-18-29-30-986.png

image-2020-08-11-18-29-30-986.png

Attachment: 任务总结.docx

任务总结.docx