Tagged articles

Monitoring

2256 articles · Page 21 of 23

Jan 2, 2018 · Operations

Common Zabbix Monitoring Items: Chinese‑English Reference Guide

This article provides a Chinese‑English reference of frequently used Zabbix monitoring items, covering host groups, system metrics, file checks, network traffic, CPU/memory usage, and service checks, helping users configure and customize their Zabbix monitoring views.

IT OperationsMonitoringZabbix

0 likes · 5 min read

Common Zabbix Monitoring Items: Chinese‑English Reference Guide

Practical DevOps Architecture

Jan 2, 2018 · Operations

Configuring Zabbix Alert Notifications via WeChat Using a Shell Script

This guide explains how to create and deploy a Bash script that retrieves a WeChat corporate token and sends Zabbix alarm messages to all users through the WeChat API, enabling automated monitoring alerts via the corporate WeChat platform.

AlertingMonitoringOperations

0 likes · 3 min read

Configuring Zabbix Alert Notifications via WeChat Using a Shell Script

MaGe Linux Operations

Dec 29, 2017 · Operations

What Top Companies Ask in Linux Ops & Cloud Engineer Interviews – Answers Inside

This article compiles the job description, required skills, and a full set of interview questions with detailed answers for Linux operations and cloud engineering positions, helping candidates prepare effectively for technical assessments at major internet firms.

Cloud ComputingMonitoringsystem-administration

0 likes · 13 min read

What Top Companies Ask in Linux Ops & Cloud Engineer Interviews – Answers Inside

37 Interactive Technology Team

Dec 25, 2017 · Operations

Design and Implementation of a Unified Monitoring Dashboard – A Case Study from 37 Interactive Entertainment

In just over a month, 37 Interactive Entertainment transformed its fragmented monitoring wall into a unified, twelve‑screen dashboard by consolidating game and service data into Elasticsearch, creating a single API, and employing modular JavaScript, custom ECharts visualizations and a 3D map, delivering real‑time insights with a cohesive sci‑fi inspired UI.

Case StudyData VisualizationELK

0 likes · 7 min read

Design and Implementation of a Unified Monitoring Dashboard – A Case Study from 37 Interactive Entertainment

Dada Group Technology

Dec 22, 2017 · Operations

Performance Testing Process, Plans, and Best Practices for High‑Traffic Events

This article explains the purpose of performance (stress) testing, compares four testing approaches, details the chosen proportional‑deployment strategy, and provides comprehensive preparation steps, script guidelines, metric analysis, and practical tips for ensuring system stability during large‑scale traffic spikes.

MonitoringOperationscapacity planning

0 likes · 10 min read

Performance Testing Process, Plans, and Best Practices for High‑Traffic Events

21CTO

Dec 21, 2017 · Operations

Why We Switched to Nginx for L4 Load Balancing: A Practical Migration Guide

This article details a company's migration from commercial load balancers to an open‑source Nginx‑based Layer‑4 solution, covering project background, technical selection, architecture design, network and Nginx configurations, operational scripts, health‑check automation, performance testing, and data analysis using Elasticsearch and Grafana.

L4MonitoringOSPF

0 likes · 11 min read

Why We Switched to Nginx for L4 Load Balancing: A Practical Migration Guide

Alibaba Cloud Infrastructure

Dec 21, 2017 · Operations

Stability Monitoring Practices for Double 11 2017

The 2017 Double 11 stability monitoring project introduced a four‑layer monitoring architecture—including customer & sentiment, business, system water‑level, and infrastructure monitoring—along with data archiving and system‑level reliability measures to detect, respond to, and mitigate issues far faster than traditional manual processes.

MonitoringOperationsStability

0 likes · 14 min read

Stability Monitoring Practices for Double 11 2017

Efficient Ops

Dec 18, 2017 · Operations

How WiFi Key Built a Million‑User Monitoring Platform: Architecture and Best Practices

This article describes how WiFi 万能钥匙 designed and implemented the Roma monitoring platform to handle billions of daily requests, covering background challenges, architectural principles, component design, data collection, transmission, storage, alerting, and future directions for large‑scale observability.

MicroservicesMonitoringObservability

0 likes · 16 min read

How WiFi Key Built a Million‑User Monitoring Platform: Architecture and Best Practices

dbaplus Community

Dec 14, 2017 · Big Data

Scaling Vipshop’s Big Data Platform: Monitoring, Multi‑HDFS, Yarn Optimization & Capping

In 2017 Vipshop’s senior big‑data architect shares how the company grew its Hadoop‑based platform from zero to a thousand‑node cluster, detailing cluster health monitoring, multi‑HDFS deployment via Hive, Yarn container allocation improvements, and a hook‑driven Capping resource‑control system to boost stability and efficiency.

Big DataHDFSMonitoring

0 likes · 15 min read

Scaling Vipshop’s Big Data Platform: Monitoring, Multi‑HDFS, Yarn Optimization & Capping

Alibaba Cloud Developer

Dec 13, 2017 · Operations

How Alibaba’s StarOps Transforms Operations with Automated DevOps Tools

This article explains how Alibaba’s StarOps platform integrates DevOps automation, CMDB, release management, monitoring, host operations, bastion security and fault handling to enable large‑scale, unmanned, data‑driven operations across hybrid cloud environments.

CMDBMonitoringOperations

0 likes · 12 min read

How Alibaba’s StarOps Transforms Operations with Automated DevOps Tools

dbaplus Community

Dec 11, 2017 · Backend Development

How 58 Express Scaled from Startup to Industry Leader: Architecture, Sharding, and AI Dispatch

This article recounts the technical evolution of 58 Express from its early startup days through rapid growth to an intelligent dispatch era, detailing challenges, database sharding, service decomposition, big‑data analytics, AI‑driven order routing, monitoring, and lessons learned for building a high‑performance backend system.

Monitoringdatabase shardingintelligent dispatch

0 likes · 21 min read

How 58 Express Scaled from Startup to Industry Leader: Architecture, Sharding, and AI Dispatch

Efficient Ops

Dec 7, 2017 · Operations

How Multi-Dimensional Root Cause Analysis Boosts Monitoring Efficiency with AI

This article introduces the challenges of multi-dimensional monitoring, explains the limitations of traditional alerting, and presents the MDRCA algorithm—combining K‑means clustering, Explanatory Power, and Surprise metrics—to pinpoint root causes efficiently, while sharing practical AI integration experiences for large‑scale monitoring platforms.

AIBig DataKMeans

0 likes · 15 min read

How Multi-Dimensional Root Cause Analysis Boosts Monitoring Efficiency with AI

360 Zhihui Cloud Developer

Dec 7, 2017 · Operations

How 360’s Private Cloud Powers Elasticsearch: Architecture, Security, and Scaling

This article explains how 360’s Hulk private cloud platform deploys Elasticsearch with a dedicated master architecture, load‑balancing, per‑business isolated clusters, SearchGuard security, dynamic tokenization, self‑service user features, and advanced monitoring to achieve high‑performance, scalable search services.

ElasticsearchMonitoringPrivate Cloud

0 likes · 6 min read

How 360’s Private Cloud Powers Elasticsearch: Architecture, Security, and Scaling

Node Underground

Dec 7, 2017 · Backend Development

Build a Node.js Performance Tracing Tool with Async Hooks and Performance API

This article explains how to combine Node.js's experimental Async Hooks and Performance Timing APIs to create a simple tracing and performance monitoring tool, eliminating manual timing and offering a foundation that can be extended into a custom solution, while also noting an open‑source Pandora.js utility.

MonitoringNode.jsPerformance API

0 likes · 3 min read

Build a Node.js Performance Tracing Tool with Async Hooks and Performance API

Efficient Ops

Dec 5, 2017 · Operations

How Alibaba’s Sunfire Achieves Second‑Level Monitoring at Trillion‑Transaction Scale

This article explains how Alibaba’s Sunfire monitoring platform processes terabytes of logs per minute, uses a pull‑based architecture with Brain‑Reduce‑Map roles, tackles scalability and reliability challenges, and outlines future directions such as MQL standardization and intelligent baselines.

Large ScaleLog ProcessingMonitoring

0 likes · 17 min read

How Alibaba’s Sunfire Achieves Second‑Level Monitoring at Trillion‑Transaction Scale

Efficient Ops

Nov 30, 2017 · Databases

How a Nighttime Hot‑Key Surge Overwhelmed a Database Server—and the Ops Fixes That Saved It

A DBA on call discovers a sudden traffic spike caused by a few massive hot keys on a storage server, quickly isolates the issue, migrates data, applies throttling and caching, and outlines automation ideas to prevent future overloads, illustrating practical database operations and incident response.

Data MigrationHot KeyMonitoring

0 likes · 9 min read

How a Nighttime Hot‑Key Surge Overwhelmed a Database Server—and the Ops Fixes That Saved It

360 Quality & Efficiency

Nov 23, 2017 · Operations

Ten Micro‑Metrics to Strengthen Performance Testing Reports

This article explains why traditional macro performance metrics are insufficient, introduces ten essential micro‑metrics covering memory, thread, and network aspects, and shows how to capture them using GC logs, thread dumps, and tools like netstat or open‑source APM solutions.

APMMonitoringNetwork

0 likes · 8 min read

Ten Micro‑Metrics to Strengthen Performance Testing Reports

Tongcheng Travel Technology Center

Nov 23, 2017 · Backend Development

Design and Implementation of a Search Open Platform for Rapid Interface Provision

The article describes the requirements, architecture, data‑sync strategy, monitoring, and operational workflow of a search open platform that enables fast, zero‑code creation of searchable interfaces, supporting real‑time indexing, customizable ranking, and extensible backend services.

Backend DevelopmentData synchronizationIndexing

0 likes · 12 min read

Design and Implementation of a Search Open Platform for Rapid Interface Provision

UCloud Tech

Nov 22, 2017 · Backend Development

Master Go Microservices: gRPC, TLS, Tracing & Prometheus Monitoring

This article shares practical Go microservice building experiences, covering gRPC-based communication, TLS security, request tracing, and comprehensive monitoring with Prometheus, including metric selection, alerting, and log management using Logrus and Graylog, to help reduce coupling and improve system observability.

LoggingMicroservicesMonitoring

0 likes · 10 min read

Master Go Microservices: gRPC, TLS, Tracing & Prometheus Monitoring

Zhuanzhuan Tech

Nov 21, 2017 · Frontend Development

Building an Efficient Operational Frontend Architecture: Component Platform, Node.js Middleware, and Monitoring

The article describes how a startup tackled rapid MVP development and frequent changes by establishing a component‑based frontend platform, a Node.js middleware layer for Java services, and performance and error monitoring to streamline operations and improve development efficiency.

Monitoringnodejsoperational tools

0 likes · 10 min read

Building an Efficient Operational Frontend Architecture: Component Platform, Node.js Middleware, and Monitoring

dbaplus Community

Nov 19, 2017 · Operations

Designing Scalable Monitoring with ELK and GPE: A Practical Guide

This article outlines a large‑scale monitoring solution for distributed microservice environments, comparing traditional ELK logging with a custom GPE stack (Grafana, Prometheus, Exporter, Consul), detailing architecture, components, workflows, and practical considerations for reliable observability.

ELKMonitoringgrafana

0 likes · 10 min read

Designing Scalable Monitoring with ELK and GPE: A Practical Guide

ITPUB

Nov 17, 2017 · Operations

Master Bash Scripting: Tips and Ready‑to‑Use Monitoring Scripts

This guide presents essential Bash scripting best practices and a collection of practical monitoring scripts—including random string generation, user creation, package checks, service status, host reachability, CPU/memory/disk usage, and website availability—complete with debugging tips and naming conventions for reliable automation.

AutomationMonitoringbash

0 likes · 5 min read

Master Bash Scripting: Tips and Ready‑to‑Use Monitoring Scripts

Qunar Tech Salon

Nov 8, 2017 · Operations

Evolution of Ele.me's Operations Infrastructure: From 1.0 to 2.0 – Standardization, Automation, and Data‑Driven Management

The article recounts Ele.me's rapid growth and the resulting operational challenges, describing how the company progressed from ad‑hoc 1.0 practices to a standardized, automated 2.0 infrastructure built on ZStack private cloud, fine‑grained operations, and data‑driven management to improve quality, efficiency, and cost.

MonitoringResource ManagementStandardization

0 likes · 21 min read

Evolution of Ele.me's Operations Infrastructure: From 1.0 to 2.0 – Standardization, Automation, and Data‑Driven Management

MaGe Linux Operations

Oct 31, 2017 · Operations

Build Custom Zabbix Dashboards with Python and ECharts

This tutorial walks through using the Zabbix API with the pyzabbix Python library to retrieve monitoring data, then visualizes it with ECharts, showing step‑by‑step how to create personalized monitoring pages for better operational insight.

APIAutomationECharts

0 likes · 9 min read

Build Custom Zabbix Dashboards with Python and ECharts

Architecture Digest

Oct 27, 2017 · Operations

Key Practices and Principles of DevOps from the “Cloud Development and Operations Best Practices” Talk

The article summarizes a DevOps talk, outlining eight guiding principles—configuration over hard‑coding, redundancy over single points, restartability, whole‑stack delivery, statelessness, standardization, automation, and unattended operation—while sharing concrete tools, architectures, and real‑world experiences from a cloud provider.

AutomationCloudMonitoring

0 likes · 16 min read

Key Practices and Principles of DevOps from the “Cloud Development and Operations Best Practices” Talk

Meituan Technology Team

Oct 26, 2017 · Operations

Evolution of Payment Channel Automation Management at Meituan-Dianping

Meituan‑Dianping’s payment team progressed from manual fault alerts to a fully automated channel management system that detects failures, disables affected banks, conducts controlled ramp‑up tests, and restores service, dramatically cutting response times, manpower costs, and secondary‑failure risks while boosting overall availability.

MonitoringOperationsRouting

0 likes · 14 min read

Evolution of Payment Channel Automation Management at Meituan-Dianping

Qunar Tech Salon

Oct 26, 2017 · Operations

Evolution of Pinterest's Monitoring System: From Time-Series Metrics to Distributed Tracing

Over seven years, Pinterest’s monitoring team built and refined a three‑pronged observability platform—time‑series metrics, log search, and distributed tracing—scaling from a single‑machine system to handling millions of data points per second across tens of thousands of AWS VMs, while addressing reliability, cost, and usability challenges.

Distributed TracingMonitoringObservability

0 likes · 19 min read

Evolution of Pinterest's Monitoring System: From Time-Series Metrics to Distributed Tracing

MaGe Linux Operations

Oct 25, 2017 · Operations

80+ Essential Linux Monitoring Tools Every Sysadmin Should Know

Discover a comprehensive collection of over 80 Linux monitoring and debugging utilities—including command‑line, system, network, and log tools—detailing their purpose, key features, and typical use cases to help you efficiently manage and troubleshoot server performance.

MonitoringNetwork Toolssystem-administration

0 likes · 13 min read

80+ Essential Linux Monitoring Tools Every Sysadmin Should Know

Efficient Ops

Oct 24, 2017 · Operations

How Pinterest Scaled Its Monitoring, Logging, and Tracing Over Seven Years

This article chronicles Pinterest's seven‑year evolution from a single‑machine time‑series monitor to a multi‑component system that integrates metrics, log search, and distributed tracing, sharing architectural choices, scaling challenges, and lessons learned for building reliable, high‑performance operations platforms.

Distributed TracingMonitoringOperations

0 likes · 24 min read

How Pinterest Scaled Its Monitoring, Logging, and Tracing Over Seven Years

MaGe Linux Operations

Oct 20, 2017 · Operations

Essential Linux Ops Skills: 10 Must‑Master Tools for Every Sysadmin

This article shares a seasoned Linux sysadmin’s ten‑point roadmap—from mastering rsync, network services, and scripting to mastering sed/awk, MySQL, firewalls, monitoring tools, clustering, and backup—plus essential security and operational mindsets for thriving in modern infrastructure.

AutomationMonitoringtools

0 likes · 19 min read

Essential Linux Ops Skills: 10 Must‑Master Tools for Every Sysadmin

Efficient Ops

Oct 18, 2017 · Operations

How Bilibili Scaled Its Log System to 10TB Daily with Elastic Stack

This article details Bilibili's Billions log platform—from its fragmented origins and design goals to the elastic‑stack‑based architecture, shard management, log sampling, custom Go splitters, and monitoring enhancements—highlighting the challenges faced and the roadmap for future improvements.

Big DataElastic StackMonitoring

0 likes · 17 min read

How Bilibili Scaled Its Log System to 10TB Daily with Elastic Stack

Qunar Tech Salon

Oct 18, 2017 · Cloud Computing

Gome Group’s Cloud Computing and Operations Automation Practices

This article details Gome Group’s transition to cloud computing and operations automation, describing its corporate background, new operational strategies, the establishment of Gome Cloud, IAAS product architecture, monitoring solutions, automation standards, and deployment practices such as gray releases and Docker integration.

Cloud ComputingIaSMonitoring

0 likes · 15 min read

Gome Group’s Cloud Computing and Operations Automation Practices

MaGe Linux Operations

Oct 17, 2017 · Operations

Step-by-Step Guide: Build a Zabbix Monitoring System from Scratch

This article walks you through the complete process of setting up Zabbix on a Linux server—including preparing the environment, installing LAMP, configuring the Zabbix server and agent, creating databases, defining templates, items, triggers, graphs, and custom script alerts—to achieve real‑time network traffic monitoring and automated notifications.

AlertingMonitoringNetwork Traffic

0 likes · 9 min read

Step-by-Step Guide: Build a Zabbix Monitoring System from Scratch

dbaplus Community

Oct 16, 2017 · Operations

How Ele.me Scaled Operations: Key Lessons from Incident Management and Capacity Planning

This article details Ele.me's rapid expansion challenges and shares a three‑stage technical operations journey—fine‑grained division, stability maintenance, and efficiency gains—highlighting real incidents, monitoring upgrades, capacity testing, and practical insights for reliable large‑scale delivery platforms.

Incident ManagementMonitoringOperations

0 likes · 14 min read

How Ele.me Scaled Operations: Key Lessons from Incident Management and Capacity Planning

Efficient Ops

Oct 16, 2017 · Cloud Computing

How Gome Used Cloud Computing & Automation to Revolutionize IT Ops

At Gome Group, a traditional retailer with over 30,000 employees, the IT team built a unified cloud platform and automated operations, consolidating resources across dozens of subsidiaries to cut costs, boost efficiency, and enable rapid service delivery through IAAS, standardized processes, and custom monitoring tools.

Cloud ComputingMonitoringOperations Automation

0 likes · 16 min read

How Gome Used Cloud Computing & Automation to Revolutionize IT Ops

ITFLY8 Architecture Home

Oct 12, 2017 · Backend Development

How Taobao Scaled Its Backend Architecture Over Time

This article outlines Taobao's learning objectives, traces the evolution of its backend architecture from V1.0 to V3.0, highlights the technical challenges faced at each stage, and explains the architectural decisions—such as modularization, service‑oriented frameworks, distributed storage, and large‑scale monitoring—that enabled massive scalability, reliability, and performance improvements.

Big DataMonitoringarchitecture

0 likes · 6 min read

How Taobao Scaled Its Backend Architecture Over Time

58 Tech

Oct 12, 2017 · Cloud Computing

Design and Implementation of 58 Private Cloud Platform Using Container Technology

The article details 58's private cloud platform built on container technology, explaining the motivations, overall architecture, and core module designs such as container management, network model, image repository, logging, and monitoring, illustrating how Docker and Kubernetes enable efficient resource utilization, rapid scaling, and streamlined deployment.

MonitoringPrivate Cloudcloud architecture

0 likes · 12 min read

Design and Implementation of 58 Private Cloud Platform Using Container Technology

ITPUB

Oct 7, 2017 · Operations

13 Must‑Have Linux Ops Tools and Quick Installation Guides

This guide introduces thirteen essential Linux operation utilities—including Nethogs, IOZone, IOTop, IPtraf, IFTop, HTop, NMON, MultiTail, Fail2ban, Tmux, Agedu, NMap and Httperf—providing brief descriptions, download links and step‑by‑step commands to install and use each tool for monitoring, performance testing, security and session management.

LinuxMonitoringsecurity

0 likes · 12 min read

13 Must‑Have Linux Ops Tools and Quick Installation Guides

Architecture Digest

Oct 1, 2017 · Big Data

Kafka End-to-End Auditing: Overview of Chaperone, Confluent Control Center, and Kafka Monitor

This article explains Kafka end‑to‑end auditing, compares three products (Chaperone, Confluent Control Center, Kafka Monitor), describes timestamp and index embedding techniques, and outlines their architectures, metrics, and implementation details for detecting data loss, duplication, and latency.

MetricsMonitoringaudit

0 likes · 11 min read

Kafka End-to-End Auditing: Overview of Chaperone, Confluent Control Center, and Kafka Monitor

ITFLY8 Architecture Home

Sep 30, 2017 · Operations

Why Trust Less? Defensive Strategies for High‑Performance, High‑Availability Systems

The article explores how adopting a "don't trust" mindset—through rigorous input validation, defensive coding, thorough testing, gradual rollouts, and comprehensive monitoring—helps build resilient, high‑performance systems and avoid common pitfalls in development and operations.

Defensive ProgrammingMonitoringdeployment

0 likes · 13 min read

Why Trust Less? Defensive Strategies for High‑Performance, High‑Availability Systems

Tongcheng Travel Technology Center

Sep 29, 2017 · Big Data

Evolution of Monitoring Architecture and Traffic Alert Algorithms at Tongcheng Travel

This article describes how Tongcheng Travel’s monitoring system evolved from a monolithic design to a distributed and big‑data‑based architecture, introducing real‑time processing with Storm, machine‑learning‑enhanced alerts, and a multivariate linear regression model that dramatically improves traffic anomaly detection accuracy.

Big DataMonitoringReal-time Processing

0 likes · 10 min read

Evolution of Monitoring Architecture and Traffic Alert Algorithms at Tongcheng Travel

Dada Group Technology

Sep 29, 2017 · Operations

Overwatch: A Distributed System Monitoring Platform for Real‑Time RPC Visibility

Overwatch is an open‑source distributed monitoring platform built by Dada‑Jingdong Home that collects, aggregates, and visualizes RPC traffic across thousands of micro‑services in real time, enabling engineers to quickly pinpoint the root cause of system failures using directed‑graph visualizations and CQRS‑based data queries.

CQRSMonitoringRPC

0 likes · 10 min read

Overwatch: A Distributed System Monitoring Platform for Real‑Time RPC Visibility

Meitu Technology

Sep 28, 2017 · Operations

Inside Meipai’s 3‑D Monitoring System: Scaling 150M Users with Unified Observability

This article examines how Meipai, a popular live‑streaming and short‑video platform with over 150 million monthly active users, engineered a comprehensive, three‑dimensional monitoring architecture that spans client to server, integrates unified dashboards, and leverages both private and public cloud resources to ensure reliable, scalable operations.

CloudMeipaiMonitoring

0 likes · 3 min read

Inside Meipai’s 3‑D Monitoring System: Scaling 150M Users with Unified Observability

Meitu Technology

Sep 28, 2017 · Industry Insights

Inside Meitu’s 6th Tech Salon: Deep Dive into Meipai’s Recommendation, Monitoring, and Live‑Streaming Architecture

The sixth Meitu Internet Technology Salon in Beijing showcased Meipai’s evolution, with senior engineers detailing the platform’s recommendation system, real‑time background segmentation, monitoring framework, live‑streaming and bullet‑screen architecture, offering practical insights and best‑practice lessons for building and optimizing large‑scale video services.

Live StreamingMeipaiMonitoring

0 likes · 7 min read

Inside Meitu’s 6th Tech Salon: Deep Dive into Meipai’s Recommendation, Monitoring, and Live‑Streaming Architecture

Full-Stack DevOps & Kubernetes

Sep 27, 2017 · Operations

How to Install Grafana 4 and Integrate Zabbix for Real‑Time Monitoring

This step‑by‑step guide shows how to install Grafana 4 on a Linux server, configure it to start on boot, add required fonts, install the Grafana‑Zabbix and clock‑panel plugins, and create a dashboard that visualizes Zabbix metrics such as memory usage.

InstallationMonitoringPlugins

0 likes · 6 min read

How to Install Grafana 4 and Integrate Zabbix for Real‑Time Monitoring

21CTO

Sep 26, 2017 · Operations

Why You Should Never Trust Any Component in Your System—and How to Protect It

In programming and operations, every element—from services and dependencies to requests, machines, data centers, power, networks, and humans—can fail unexpectedly, so you must assume distrust and implement defensive measures such as monitoring, redundancy, rate limiting, fallback strategies, backups, and automated deployment.

MonitoringOperationsReliability

0 likes · 9 min read

Why You Should Never Trust Any Component in Your System—and How to Protect It

Efficient Ops

Sep 25, 2017 · Operations

How Qunar Scaled Application Ops Automation from Hundreds to Tens of Thousands of Servers

This article details Qunar's journey of automating application operations, covering the evolution of their host‑management system, unified monitoring/alert platform, and data‑interchange mechanisms that enabled the company to grow from a few hundred to over ten thousand servers with a stable six‑person ops team.

Data IntegrationMonitoringOperations Automation

0 likes · 25 min read

How Qunar Scaled Application Ops Automation from Hundreds to Tens of Thousands of Servers

Efficient Ops

Sep 19, 2017 · Operations

Mastering DevOps: 36 Operational Strategies to Prevent Disasters and Boost Efficiency

This article shares practical DevOps tactics—including disaster‑recovery drills, SET architecture, automated self‑healing, and disciplined change management—to help operations teams reduce errors, improve reliability, and free time for strategic work.

AutomationChange ManagementDisaster Recovery

0 likes · 17 min read

Mastering DevOps: 36 Operational Strategies to Prevent Disasters and Boost Efficiency

Programmer DD

Sep 18, 2017 · Operations

Mastering Prometheus: From Metrics Collection to Alerting and Visualization

This guide explains how to choose between push and pull monitoring models, introduces Prometheus architecture and metric syntax, shows Node.js client integration with code examples, and covers Alertmanager features and Grafana visualization for effective application monitoring.

AlertmanagerMetricsMonitoring

0 likes · 8 min read

Mastering Prometheus: From Metrics Collection to Alerting and Visualization

Qunar Tech Salon

Sep 18, 2017 · Operations

Integrated Code Quality Monitoring and Crash Management Solution

This article describes an integrated solution that combines code quality monitoring during development with automated crash issue tracking after deployment, using a custom platform, Jenkins, Gradle plugins, static analysis tools, and rule-based filtering to continuously improve project reliability and performance.

Continuous IntegrationMonitoringcode quality

0 likes · 13 min read

Integrated Code Quality Monitoring and Crash Management Solution

Architecture Digest

Sep 16, 2017 · Backend Development

Essential Backend Infrastructure and Services for Internet Companies

This article outlines the essential backend infrastructure components and best‑practice patterns—such as API gateways, service frameworks, caching, databases, search engines, message queues, authentication, configuration, service governance, scheduling, logging, and monitoring—required to build stable, scalable, and maintainable internet applications.

CachingMicroservicesMonitoring

0 likes · 31 min read

Essential Backend Infrastructure and Services for Internet Companies

Efficient Ops

Sep 10, 2017 · Operations

How We Built a Scalable, High‑Availability Monitoring Platform with Service Trees

This article details the challenges of traditional monitoring systems, the design and implementation of a custom high‑availability monitoring platform using a Golang‑based service tree, Raft‑backed storage, InfluxDB for time‑series data, and a modular architecture that supports Windows agents, third‑party reporting, and AI‑driven future enhancements.

AIOpsInfluxDBMonitoring

0 likes · 13 min read

How We Built a Scalable, High‑Availability Monitoring Platform with Service Trees

ITPUB

Sep 7, 2017 · Operations

Essential Command-Line Tools Every Linux Sysadmin Should Know

Sysadmins need reliable command-line utilities to keep services running 24/7, and this guide compiles the most commonly used networking, security, storage, logging, backup, performance, efficiency, package-management, and hardware inspection tools on Linux, explaining each command’s purpose and typical use cases.

CLI ToolsMonitoringsecurity

0 likes · 15 min read

Essential Command-Line Tools Every Linux Sysadmin Should Know

dbaplus Community

Sep 4, 2017 · Operations

Comprehensive Guide to Building an Effective Monitoring System with Zabbix and Open-Source Tools

This article outlines the fundamentals, objectives, methods, core processes, tool selection, metrics, alerting, and interview tips for constructing a robust monitoring ecosystem, emphasizing Zabbix while comparing various open‑source solutions.

AlertingMetricsMonitoring

0 likes · 19 min read

Comprehensive Guide to Building an Effective Monitoring System with Zabbix and Open-Source Tools

Efficient Ops

Sep 3, 2017 · Operations

How to Design an Enterprise‑Grade Monitoring & Alerting System from Scratch

This article introduces the fundamental concepts, methods, types, goals, and product attributes of enterprise monitoring and alerting, explains the perspective differences between users and builders, and outlines a comprehensive monitoring system architecture for large‑scale operations.

AlertingEnterpriseMonitoring

0 likes · 14 min read

How to Design an Enterprise‑Grade Monitoring & Alerting System from Scratch

360 Zhihui Cloud Developer

Aug 30, 2017 · Operations

Mastering Prometheus: From Metrics Basics to High‑Availability Monitoring

This article shares practical experiences of using Prometheus for monitoring complex services, covering metric types, PromQL query techniques, naming conventions, service discovery with file‑based configs, high‑availability sharding, alerting via Alertmanager, and visualisation with Grafana, providing actionable guidance for reliable observability.

MonitoringPromQLgrafana

0 likes · 15 min read

Mastering Prometheus: From Metrics Basics to High‑Availability Monitoring

Efficient Ops

Aug 21, 2017 · Operations

How AI-Driven Automation Transforms Tencent Game Operations

This article explains how Tencent Game operations moved from manual, threshold‑based monitoring to an AI‑powered, data‑driven workflow that automates scaling, improves online‑curve monitoring, enables full‑dimensional analysis, and reduces time, labor, and cost while enhancing player experience.

AutomationGamingMonitoring

0 likes · 16 min read

How AI-Driven Automation Transforms Tencent Game Operations

Qunar Tech Salon

Aug 18, 2017 · Operations

Hardware Automation Operations System at Qunar: Design, Implementation, and Lessons Learned

This article details Qunar's hardware automation operations platform, covering the hardware scope, pain points of manual processes, a five‑stage lifecycle, automated testing, data collection, fault handling, and the underlying Mesos‑Marathon‑Docker infrastructure that together improve efficiency, reliability, and cost control.

Monitoringdata collectionfault handling

0 likes · 21 min read

Hardware Automation Operations System at Qunar: Design, Implementation, and Lessons Learned

Ctrip Technology

Aug 17, 2017 · Operations

Design, Evolution, and Future of Ctrip's Operations Workflow Platform

This article details the challenges, architectural evolution, key components, implementation experiences, and future directions of Ctrip's operations workflow platform, illustrating how a multi‑stage, layered design and standardized services have transformed manual IT operations into an automated, observable, and scalable system.

MonitoringOperations AutomationService Integration

0 likes · 16 min read

Design, Evolution, and Future of Ctrip's Operations Workflow Platform

Efficient Ops

Aug 16, 2017 · Operations

How Qunar Built an Automated Hardware Operations Platform to Boost Efficiency

This article details Qunar's end‑to‑end hardware automation system, covering background challenges, lifecycle management, automated testing, data collection, fault detection, and visualized monitoring, and explains how the integrated platform reduces manual effort, improves reliability, and cuts operational costs.

CMDBMonitoringOperations

0 likes · 22 min read

How Qunar Built an Automated Hardware Operations Platform to Boost Efficiency

ITFLY8 Architecture Home

Aug 13, 2017 · Operations

How to Build a Unified Monitoring and Alerting Platform with Ganglia and Centreon

This article explains how to design and implement a comprehensive operations monitoring platform by integrating Ganglia for data collection and Centreon for alerting, detailing a six‑layer architecture, data flow, seamless integration, and practical Q&A for real‑world deployment.

AlertingCentreonGanglia

0 likes · 15 min read

How to Build a Unified Monitoring and Alerting Platform with Ganglia and Centreon

Efficient Ops

Aug 13, 2017 · Operations

22 Essential Ops Manager Tips for Building Resilient Web Infrastructure

This article compiles 22 practical recommendations from an operations manager covering domain management, CDN usage, image servers, data center selection, monitoring, security, redundancy, high‑availability architecture, disaster‑recovery planning, and team coordination to help ensure stable and secure online services.

Disaster RecoveryMonitoringOperations

0 likes · 12 min read

22 Essential Ops Manager Tips for Building Resilient Web Infrastructure

Meituan Technology Team

Aug 10, 2017 · Frontend Development

Front-End Service Availability: Definition, Measurement, and Assurance Practices at Meituan-Dianping Checkout

The article outlines Meituan‑Dianping’s approach to front‑end service availability for its checkout system, defining availability across code, static resources, and network links, measuring failure duration, identifying typical bugs, and implementing a three‑stage assurance strategy using people processes, engineering tools, lightweight technology choices, and concrete practices such as TypeScript adoption, automated testing, health‑checks, DNS protection, and post‑incident monitoring.

MonitoringSSRavailability

0 likes · 15 min read

Front-End Service Availability: Definition, Measurement, and Assurance Practices at Meituan-Dianping Checkout

MaGe Linux Operations

Aug 8, 2017 · Operations

Essential Automation Ops Resources: Books, Tools, and News Sources

This guide highlights the urgent need for automation in modern operations and curates essential books, documentation, and information sources covering Puppet, Nagios, Zabbix, Linux scripting, high‑availability servers, and Python‑based automation to help both seasoned engineers and newcomers alike.

BooksMonitoringtools

0 likes · 11 min read

Essential Automation Ops Resources: Books, Tools, and News Sources

High Availability Architecture

Aug 8, 2017 · Big Data

Practical Big Data Architecture Evolution and Lessons Learned

The article reviews the evolution of big‑data architectures from a simple RDB‑centric pipeline to a SaaS‑based solution, highlighting common bottlenecks such as scaling, integration, cost, and operational complexity, and shares practical experiences and best‑practice recommendations for building efficient, maintainable data platforms.

Big DataLoggingMonitoring

0 likes · 12 min read

Practical Big Data Architecture Evolution and Lessons Learned

Architecture Digest

Aug 7, 2017 · Operations

Website Availability and High‑Availability Architecture Overview

This article explains website availability metrics, fault‑weight scoring, layered high‑availability architecture, session management strategies, reusable service design, data redundancy, quality assurance processes, and monitoring practices essential for maintaining reliable large‑scale web systems.

High AvailabilityMonitoringOperations

0 likes · 9 min read

Website Availability and High‑Availability Architecture Overview

ITFLY8 Architecture Home

Aug 6, 2017 · Backend Development

How Meizu Scales Real‑Time Push to 600 M Messages/min: Architecture, Pitfalls & Solutions

The article details Meizu's massive real‑time push system handling 25 million online users and 600 million messages per minute, explains its four‑layer architecture, and shares how the team tackled phone power consumption, mobile network instability, massive connections, monitoring, and gray‑release deployment.

High concurrencyMobile OptimizationMonitoring

0 likes · 13 min read

How Meizu Scales Real‑Time Push to 600 M Messages/min: Architecture, Pitfalls & Solutions

Efficient Ops

Aug 4, 2017 · Operations

How Tencent’s ZhiYun Platform Powered the “Military Photo” Campaign with 4,000 Servers

This article details how Tencent's SNG operations team leveraged the ZhiYun intelligent operations platform—through standardized processes, massive IaaS provisioning, CMDB management, automated workflows, and real‑time capacity monitoring—to support the high‑traffic “Military Photo” H5 campaign, scaling up to 4,000 servers and 24 GB bandwidth.

AutomationCMDBCloud Computing

0 likes · 10 min read

How Tencent’s ZhiYun Platform Powered the “Military Photo” Campaign with 4,000 Servers

Efficient Ops

Aug 2, 2017 · Operations

Essential Ops Playbook: 6 Key Practices to Prevent Disasters

Drawing from a year‑and‑a‑half of ops experience, this guide outlines six practical categories—online operation standards, data handling, security, daily monitoring, performance tuning, and mindset—to help engineers avoid costly mistakes and maintain stable, secure systems.

MonitoringOperationsPerformance Tuning

0 likes · 12 min read

Essential Ops Playbook: 6 Key Practices to Prevent Disasters

MaGe Linux Operations

Jul 18, 2017 · Operations

Essential Ops Practices: Prevent Disasters with Backups, Security, and Monitoring

Drawing from a year‑and‑a‑half of sysadmin experience, this guide outlines practical online operation standards, data protection habits, security hardening, daily monitoring, performance tuning, and the right mindset to keep production environments stable and resilient.

Monitoring

0 likes · 13 min read

MaGe Linux Operations

Jul 18, 2017 · Operations

Build a Python Script to Monitor API Errors and Auto‑Alert via Email

This guide shows how to create a Python monitoring tool that queries MySQL error logs for third‑party API failures, triggers email alerts when error counts exceed a threshold, runs as a scheduled task, and is managed with Supervisor for reliable operation.

EmailLoggingMonitoring

0 likes · 9 min read

Build a Python Script to Monitor API Errors and Auto‑Alert via Email

ITPUB

Jul 17, 2017 · Operations

Essential Linux Ops Tools Every Sysadmin Should Master

This guide outlines the core Linux system fundamentals, networking services, scripting languages, text‑processing utilities, database handling, firewall configuration, monitoring solutions, clustering, and backup techniques that form the essential toolkit for aspiring Linux operations engineers.

LinuxMonitoringOperations

0 likes · 7 min read

Essential Linux Ops Tools Every Sysadmin Should Master

MaGe Linux Operations

Jul 15, 2017 · Fundamentals

Master Python File Operations and System Automation with Practical Code Examples

This article presents a comprehensive collection of Python tutorials and scripts covering file I/O modes, directory traversal, log analysis, simple games, command‑line argument handling, process monitoring, port checking, authentication loops, and SNMP‑based CPU and network traffic monitoring, providing a solid foundation for automation and operations tasks.

Monitoringfile-iosysadmin

0 likes · 15 min read

Master Python File Operations and System Automation with Practical Code Examples

360 Zhihui Cloud Developer

Jul 13, 2017 · Cloud Computing

Inside 360’s Ultron: How OpenStack Powers a Scalable Private Cloud

This article details the evolution, architecture, deployment, monitoring, and performance optimization of Ultron—360’s internal OpenStack‑based virtualization platform—covering its three development stages, technical stack, automation with Ansible, advanced features like VXLAN and Ceph, and lessons learned from large‑scale operations.

AnsibleCephDPDK

0 likes · 19 min read

Inside 360’s Ultron: How OpenStack Powers a Scalable Private Cloud

DevOps

Jul 12, 2017 · Cloud Native

Container Monitoring: Challenges, Metrics Collection, and Best Practices

This article examines the unique challenges of monitoring containers, outlines three categories of metrics to collect, compares host‑centric and layered monitoring architectures, provides detailed methods for gathering CPU, memory, I/O and network data via cgroup files and Docker commands, and shares practical insights, tooling recommendations, and a Q&A session for effective container observability.

DockerMonitoringOps

0 likes · 18 min read

Container Monitoring: Challenges, Metrics Collection, and Best Practices

MaGe Linux Operations

Jul 9, 2017 · Operations

Mastering Game Operations: From Legacy Servers to Modern Cloud Strategies

An in‑depth look at the evolution of game operations—from early PC and web games to today’s mobile and cloud‑based titles—covering architecture, Tcaplus storage, CMDB building, automated deployment, performance monitoring, data warehousing, and the essential skills and challenges faced by game ops engineers.

CMDBMonitoringgame operations

0 likes · 27 min read

Mastering Game Operations: From Legacy Servers to Modern Cloud Strategies

Efficient Ops

Jul 6, 2017 · Operations

36 Ops Strategies: Permissions, Documentation, and Capacity Management

The article shares practical operations lessons—from periodic permission audits and thorough documentation to capacity monitoring, log rotation, and automation—illustrating how systematic practices and tooling can standardize and streamline IT infrastructure management.

AutomationIT ManagementMonitoring

0 likes · 8 min read

36 Ops Strategies: Permissions, Documentation, and Capacity Management

21CTO

Jul 6, 2017 · Big Data

How HBase Boosted Tencent Monitoring Platform Performance 3‑5×

Facing the challenge of storing over 120 billion daily monitoring points from hundreds of thousands of servers, Tencent’s monitoring platform migrated from a custom solution and OpenTSDB to a finely tuned HBase architecture, achieving 3‑5× higher throughput, improved reliability, and significant storage savings.

DistributedStorageHBaseMonitoring

0 likes · 11 min read

How HBase Boosted Tencent Monitoring Platform Performance 3‑5×

Qunar Tech Salon

Jul 4, 2017 · Big Data

Design and Evolution of Airbnb's Log Data Storage and Query Platform

The article describes how Airbnb's data infrastructure team built a next‑generation log storage and query platform to improve data quality, timeliness, flexibility, and anomaly detection, outlining the system architecture, key requirements, five improvement areas, and the resulting benefits.

AirbnbMonitoringdata pipeline

0 likes · 7 min read

Design and Evolution of Airbnb's Log Data Storage and Query Platform

Suning Technology

Jul 3, 2017 · Operations

Inside Suning’s Intelligent Ops Forum: How Tech Leaders Automate and AI‑Boost Operations

The Suning Cloud Commerce IT headquarters hosted a comprehensive Intelligent Operations forum featuring experts from Alibaba, Weibo, Meituan, 360, Meizu and PPD, who shared practical insights on automation, platformization, AI‑driven big‑data analytics, network automation, security, and monitoring across modern IT operations.

Intelligent OperationsMonitoring

0 likes · 8 min read

Inside Suning’s Intelligent Ops Forum: How Tech Leaders Automate and AI‑Boost Operations

dbaplus Community

Jun 27, 2017 · Big Data

Why Time‑Series Databases Are Essential for Modern Monitoring: Fundamentals and Live‑Streaming Use Cases

This article introduces the fundamentals of time‑series databases, compares them with traditional databases, surveys industry adoption, and details how Tiger Live leverages OpenTSDB, Grafana, and Bosun to build a scalable monitoring system for live‑streaming services.

Big DataMonitoringOpenTSDB

0 likes · 13 min read

Why Time‑Series Databases Are Essential for Modern Monitoring: Fundamentals and Live‑Streaming Use Cases

Efficient Ops

Jun 11, 2017 · Operations

How Bilibili Scaled Its Ops: From DIY Deployments to Prometheus Monitoring

From early manual deployments to a sophisticated, multi-layered monitoring stack—including ELK, Zabbix, Statsd, Grafana, and Prometheus—Bilibili’s ops team shares the evolution, challenges, and lessons learned in building scalable, automated infrastructure for massive internet traffic.

ELKMonitoringOperations

0 likes · 8 min read

How Bilibili Scaled Its Ops: From DIY Deployments to Prometheus Monitoring

MaGe Linux Operations

Jun 10, 2017 · Operations

How to Send Real‑Time Alerts to WeChat Using Python’s wechat_sender

This article explains how to set up the wechat_sender tool—built on wxpy and tornado—to forward logs, alerts, and scheduled messages from any Python application directly to personal or group WeChat chats, enabling instant monitoring and notification.

AlertLoggingMonitoring

0 likes · 5 min read

How to Send Real‑Time Alerts to WeChat Using Python’s wechat_sender

ITPUB

Jun 9, 2017 · Operations

Mastering Effective Monitoring: From Basics to the USE Method

This article explains the fundamentals of monitoring, distinguishes traditional OPS from SRE perspectives, defines monitoring objects and metrics, introduces quantitative thinking with SLI/SLO, and presents the USE method with a MySQL example to help engineers detect and prevent failures efficiently.

MetricsMonitoringOperations

0 likes · 10 min read

Mastering Effective Monitoring: From Basics to the USE Method

Baidu Waimai Technology Team

Jun 6, 2017 · Backend Development

Design and Optimization of Baidu Waimai Activity Module Architecture

This article presents a comprehensive redesign of Baidu Waimai’s client‑side activity module, detailing background challenges, design goals, functional and performance specifications, trade‑off analyses of three architectural alternatives, and the chosen parallel HTTP‑request solution with monitoring, degradation, and phased rollout plans.

MonitoringPerformance OptimizationRedis

0 likes · 8 min read

Design and Optimization of Baidu Waimai Activity Module Architecture

ITPUB

May 31, 2017 · Operations

Automate Bulk Host Addition for Cacti and Nagios with Simple Scripts

The article explains how to automate the tedious process of adding multiple hosts to Cacti and Nagios by using shell‑wrapped PHP scripts and custom templates, provides download links, and shares practical tips to avoid common installation pitfalls.

AutomationBatchCacti

0 likes · 5 min read

Automate Bulk Host Addition for Cacti and Nagios with Simple Scripts

转转QA

May 23, 2017 · Backend Development

Design and Performance Optimization of a Measurement Platform with Multi‑Level Caching

This article describes the background, architecture, encountered performance bottlenecks, and a three‑level caching strategy (Redis‑based) implemented in Python to accelerate a measurement platform that aggregates bug, issue, and code metrics for a rapidly growing development team.

CachingMetricsMonitoring

0 likes · 17 min read

Design and Performance Optimization of a Measurement Platform with Multi‑Level Caching

Qunar Tech Salon

May 19, 2017 · Mobile Development

Zero‑Instrumentation Interaction and Performance Monitoring for Large‑Scale Mobile Apps

The article presents a comprehensive approach to solving crash and performance issues in large‑scale mobile applications by reconstructing user interaction traces through a no‑track analytics platform, compile‑time AOP instrumentation, and unified data aggregation, ultimately improving debugging efficiency and reducing operational overhead.

AOPAnalyticsMonitoring

0 likes · 9 min read

Zero‑Instrumentation Interaction and Performance Monitoring for Large‑Scale Mobile Apps

ITPUB

May 15, 2017 · Operations

Mastering Online Incident Management: From Detection to Prevention

This article outlines a comprehensive methodology for handling large‑scale online service incidents, covering goals, the "jump‑fill‑avoid" framework, step‑by‑step processes for detection, diagnosis, remediation, and post‑mortem analysis, as well as essential monitoring, logging, and escalation infrastructure.

Incident ManagementMonitoringOperations

0 likes · 18 min read

Mastering Online Incident Management: From Detection to Prevention

MaGe Linux Operations

May 12, 2017 · Operations

From ¥2k to ¥30k: The Ops Engineer Salary Ladder and Skill Roadmap

This article analyzes how operations engineers in Beijing progress from entry‑level salaries of a few thousand yuan to senior roles earning over thirty thousand, by examining job postings, required skills, and experience levels to map a clear career growth path.

AutomationCareer PathMonitoring

0 likes · 11 min read

From ¥2k to ¥30k: The Ops Engineer Salary Ladder and Skill Roadmap

Qunar Tech Salon

May 11, 2017 · Operations

Designing Performance Test Scenarios: Models, Metrics, and Strategies

This article explains how to design performance testing scenarios, covering test models, metrics, script preparation, concurrency calculations, pressure strategies, run times, delay settings, user termination, monitoring methods, and various typical scenario types such as baseline, load, mixed, capacity, large‑concurrency, stability and scalability tests.

MonitoringTPSconcurrency

0 likes · 24 min read

Designing Performance Test Scenarios: Models, Metrics, and Strategies

MaGe Linux Operations

May 10, 2017 · Operations

Step‑by‑Step: Monitor Nginx and PHP‑FPM Status with Zabbix

This guide walks through configuring Zabbix to monitor Nginx and PHP‑FPM status, covering software installation paths, enabling status modules, creating extraction scripts, setting up Zabbix agent userparameters, restarting services, testing data retrieval, and adding server‑side templates for items, triggers, and graphs.

LinuxMonitoringNGINX

0 likes · 9 min read

Step‑by‑Step: Monitor Nginx and PHP‑FPM Status with Zabbix

Efficient Ops

May 9, 2017 · Backend Development

How Tencent Scaled QQ Red Packet to 100k QPS: Architecture & Lessons

This article details how Tencent's AMS system was analyzed, traffic‑estimated, and redesigned for high‑availability during the QQ Spring Festival Red Packet event, covering architecture mapping, scaling strategies, overload protection, flexible availability, disaster recovery, monitoring, and practical lessons learned.

Monitoringbackenddisaster-recovery

0 likes · 25 min read

How Tencent Scaled QQ Red Packet to 100k QPS: Architecture & Lessons

DevOps

May 9, 2017 · Operations

A Clear and Concise DevOps Implementation Framework: 11 Core Service Capabilities

This article introduces a straightforward DevOps implementation framework that maps eleven essential service capabilities across the software development lifecycle, explains why adopting DevOps is a multi‑year journey, and uses a fitness analogy to illustrate how enterprises can progressively build these capabilities.

Continuous DeliveryContinuous IntegrationMonitoring

0 likes · 4 min read

A Clear and Concise DevOps Implementation Framework: 11 Core Service Capabilities

Efficient Ops

May 3, 2017 · Operations

How Tencent Scales NBA Live Streams to Millions: Behind the Tech and Operations

This article details Tencent's large‑scale live streaming architecture for NBA games, covering the rapid growth of live video, key technical features, network transmission challenges, multi‑angle production, CDN deployment, monitoring, big‑data processing, and strategies for ensuring low latency and high reliability for millions of concurrent viewers.

Big DataCDNLive Streaming

0 likes · 25 min read

How Tencent Scales NBA Live Streams to Millions: Behind the Tech and Operations

DevOps

Apr 25, 2017 · Operations

Analyzing and Visualizing Docker Logs with the ELK Stack (Part Two)

This article explains how to analyze and visualize Docker container logs using the ELK stack, covering preparation, parsing tips, Kibana query techniques, and example visualizations to help monitor Dockerized environments effectively in production.

DockerELKKibana

0 likes · 7 min read

Analyzing and Visualizing Docker Logs with the ELK Stack (Part Two)

DevOps

Apr 24, 2017 · Operations

Collecting and Processing Docker Logs with ELK: Installation and Configuration Guide

This article explains the challenges of Docker log collection and provides a step‑by‑step guide for installing ELK components, configuring Logstash, Kibana, and various log shippers such as Filebeat, logging drivers, Logspout, and Logz.io to reliably gather and visualize container logs.

DockerELKKibana

0 likes · 10 min read

Collecting and Processing Docker Logs with ELK: Installation and Configuration Guide

MaGe Linux Operations

Apr 22, 2017 · Operations

Essential Ops Learning Roadmap: Master CentOS, Linux Services, and Monitoring Tools

This article outlines a practical operations learning path, comparing CentOS 6 and 7, recommending foundational skills across OS, web services, databases, load balancing, caching, NoSQL, storage, version control, monitoring, and scripting to help engineers stay current and effective.

CentOSMonitoringOperations

0 likes · 4 min read

Essential Ops Learning Roadmap: Master CentOS, Linux Services, and Monitoring Tools

MaGe Linux Operations

Apr 20, 2017 · Operations

How to Install and Configure pnp4nagios for Nagios Performance Graphs

This guide walks through installing pnp4nagios on CentOS 6.8, configuring required packages, compiling the software, testing the installation, understanding its bulk mode with npcd, and adjusting Nagios and pnp4nagios settings to enable dynamic performance graphs.

MonitoringOperationsnagios

0 likes · 9 min read

How to Install and Configure pnp4nagios for Nagios Performance Graphs

MaGe Linux Operations

Apr 17, 2017 · Operations

Essential Linux & Server Commands: From Log Cleanup to RAID and Monitoring

This guide presents practical Linux and server administration commands, covering log cleanup, nginx IP analysis, tcpdump capture, Python date formatting and string reversal, subprocess execution, multiprocessing, iptables port forwarding, cron scheduling, file relocation, RAID concepts, Oracle backup strategies, port checking, Apache MPM modes, and monitoring tool comparisons.

LinuxMonitoringRAID

0 likes · 10 min read

Essential Linux & Server Commands: From Log Cleanup to RAID and Monitoring