monitoring | BestHub

Collection size

1794 articles

Page 15 of 90

Tencent Cloud Developer

Dec 2, 2022 · Big Data

Design and Implementation of a Hundred‑Billion‑Scale Real‑Time Monitoring System

The paper presents the design and deployment of a hundred‑billion‑scale real‑time monitoring platform that meets stringent data‑collection, analysis, storage, alerting and visualization requirements, compares Oceanus + Elastic Stack against a Zabbix‑Prometheus‑Grafana stack, selects the former, and details performance‑and cost‑optimizations that enable massive, low‑latency monitoring while maintaining high availability.

ElasticsearchFlinkOceanus

0 likes · 20 min read

Design and Implementation of a Hundred‑Billion‑Scale Real‑Time Monitoring System

Tencent Cloud Developer

Nov 24, 2022 · Backend Development

Kafka Stability Best Practices: Prevention, Monitoring, and Fault Resolution

This guide outlines Kafka stability best practices across three phases—pre‑prevention with tuning, producer/consumer guidelines, and cluster configuration; runtime monitoring using white‑box and black‑box metrics and alerts; and fault resolution strategies for backlogs, consumption blocks, and message loss, plus cost control and idempotence techniques.

Backend DevelopmentDistributed MessagingFault Tolerance

0 likes · 29 min read

Kafka Stability Best Practices: Prevention, Monitoring, and Fault Resolution

Tencent Cloud Developer

Nov 16, 2022 · Cloud Native

Prometheus Monitoring Practices for Tencent Happy Dou Dizhu Game

Tencent transformed its popular Happy Dou Dizhu game’s monitoring by migrating to Tencent Cloud Managed Prometheus and Grafana, unifying metric naming, consolidating ServiceMonitors, defining dashboards as code, and avoiding high‑cardinality labels, which cut labor costs by over 30% and greatly improved operational efficiency.

Game OperationsGrafanaKubernetes

0 likes · 11 min read

Prometheus Monitoring Practices for Tencent Happy Dou Dizhu Game

Tencent Cloud Developer

Sep 7, 2022 · Cloud Native

Why Build Probe Capabilities Based on OpenTelemetry for Cloud‑Native Observability

Building probe capabilities on OpenTelemetry gives cloud‑native teams a vendor‑neutral, standardized way to extend monitoring into full observability—supporting large‑scale, language‑specific instrumentation, plug‑and‑play plugins, and seamless integration with APM backends—so developers and operators can detect, debug, and predict faults across distributed containers.

APMNode.jsOpenTelemetry

0 likes · 15 min read

Why Build Probe Capabilities Based on OpenTelemetry for Cloud‑Native Observability

Tencent Cloud Developer

May 30, 2022 · Cloud Native

An Introduction to Prometheus: Metrics Collection, Storage, Querying, Visualization and Alerting

Prometheus is an open‑source monitoring system that scrapes metrics from services or exporters, stores them in a time‑series database, lets users query with PromQL, visualizes data via its web UI or Grafana, and sends alerts through Alertmanager, supporting custom Go metrics, various discovery methods, and four metric types.

GoGrafanaPromQL

0 likes · 21 min read

An Introduction to Prometheus: Metrics Collection, Storage, Querying, Visualization and Alerting

Tencent Cloud Developer

Jul 22, 2021 · Operations

Observability in Serverless Environments: Monitoring, Logging, Distributed Tracing, and Best Practices

In this talk, Gal Bashan explains how serverless architectures complicate observability and why metrics, logs, and especially distributed tracing with tools like OpenTelemetry, Jaeger, or commercial platforms are essential for gaining end-to-end visibility, automating instrumentation, and maintaining reliable, business-focused services across cloud providers.

Distributed TracingServerlesscloud native

0 likes · 12 min read

Observability in Serverless Environments: Monitoring, Logging, Distributed Tracing, and Best Practices

Tencent Cloud Developer

Sep 1, 2020 · Frontend Development

Frontend Performance Analysis with Chrome DevTools: Lighthouse, Performance Panel, and Automation

The article explains how to diagnose and improve frontend performance using Chrome DevTools—particularly Lighthouse for synthetic audits and the Performance panel for runtime profiling—while covering key metrics, automation via the Chrome DevTools Protocol, and the distinction between synthetic monitoring and real‑user monitoring.

Lighthouseautomationchrome devtools

0 likes · 12 min read

Frontend Performance Analysis with Chrome DevTools: Lighthouse, Performance Panel, and Automation

Tencent Cloud Developer

May 14, 2020 · Operations

Tencent Classroom Monitoring Practices: Challenges, Strategies, and Future Directions

During the pandemic’s “停课不停学” surge, Tencent Classroom tackled a 120‑fold traffic jump by rapidly deploying Grafana dashboards, Kibana logs, internal Moniter and cloud monitoring tools, establishing a three‑layer feedback‑alert‑on‑call model, and now plans automation, unified visualizations, and chaos‑engineering to further boost observability and service reliability.

Cloud MonitoringDevOpsSRE

0 likes · 14 min read

Tencent Classroom Monitoring Practices: Challenges, Strategies, and Future Directions

Tencent Cloud Developer

Oct 9, 2018 · Cloud Native

A Comprehensive List of 50+ Useful Docker Tools

This guide catalogs over fifty essential Docker‑related tools—including orchestration platforms like Kubernetes and Swarm, CI/CD services such as Jenkins and GitLab, monitoring solutions like Prometheus, logging utilities, security scanners, storage plugins, and networking options—helping developers, DevOps, SREs, and architects select the right solution for each stage of container development.

CI/CDDevOpsDocker

0 likes · 27 min read

A Comprehensive List of 50+ Useful Docker Tools

Shopee Tech Team

Aug 18, 2022 · Cloud Native

Shopee Druid Cloud Native Architecture Evolution: Design and Implementation

Shopee transformed its Druid analytics platform from a fragile physical‑machine setup into a cloud‑native, Kubernetes‑orchestrated solution that adds independent clusters, automatic scaling, traffic management, GitOps‑driven deployment, and container isolation, delivering higher stability, efficiency, lower cost, and stronger security alongside integrated monitoring and visualization tools.

DruidKubernetesarchitecture

0 likes · 20 min read

Shopee Druid Cloud Native Architecture Evolution: Design and Implementation

Meitu Technology

Jan 24, 2018 · Operations

Meituan Monitoring Practice: Building a Holistic Monitoring System

Meituan’s Meipai service, serving over 150 million monthly users with a hybrid private‑public cloud architecture, spent three years building a comprehensive, three‑dimensional monitoring platform that unifies client‑to‑server metrics, alerts and reporting to ensure resilient, scalable operations and rapid business growth.

cloud servicesmeituanmonitoring

0 likes · 2 min read

Meituan Monitoring Practice: Building a Holistic Monitoring System

vivo Internet Technology

Mar 5, 2025 · Cloud Native

Beidou Container Operations Management Platform: Architecture, Automation, and Capabilities

The Beidou Operations Management Platform, created by vivo’s Internet Server team, unifies management of over twenty Kubernetes clusters and tens of thousands of nodes, automates scaling, inspections, event collection, and Helm‑based application deployment, achieving more than 90% UI‑driven operations and dramatically improving stability and operational efficiency.

Container ManagementDevOpsKubernetes

0 likes · 20 min read

Beidou Container Operations Management Platform: Architecture, Automation, and Capabilities

vivo Internet Technology

Aug 16, 2023 · Cloud Native

Building a Scalable Container Monitoring System with Prometheus and VictoriaMetrics at vivo

The vivo Internet Container Team built a scalable, high‑availability container monitoring platform by deploying dual‑replica Prometheus clusters with a custom HA adapter, remoteWrite to VictoriaMetrics, and a Kafka forwarder, while cutting metric cardinality, tuning cAdvisor, and upgrading VictoriaMetrics to eliminate data loss and storage spikes, achieving stable, efficient monitoring.

ContainerKubernetesMetrics Optimization

0 likes · 16 min read

Building a Scalable Container Monitoring System with Prometheus and VictoriaMetrics at vivo

vivo Internet Technology

Apr 19, 2023 · Backend Development

Investigation of Midnight Interface Timeout in Vivo E‑commerce Activity System

The article details how a midnight interface timeout in Vivo’s e‑commerce activity system was traced to a logging bottleneck: a synchronous Log4j call blocked all threads while a cron‑driven log‑rotation script copied a 2.6 GB file, and the issue was resolved by switching to asynchronous logging with a non‑blocking appender.

Shell ScriptTomcatbackend

0 likes · 17 min read

Investigation of Midnight Interface Timeout in Vivo E‑commerce Activity System

vivo Internet Technology

Jan 4, 2023 · Artificial Intelligence

Root Cause Localization Algorithm and Its Implementation for Service Fault Diagnosis

The article describes a root‑cause localization algorithm implemented in vivo’s monitoring platform that automatically analyzes latency spikes by splitting service timelines, computing variance, clustering results with K‑means, and recursively tracing downstream services, achieving over 85 % accuracy for dependency failures while still requiring human verification and outlining future AI‑driven enhancements.

AIOpsalgorithmfault localization

0 likes · 13 min read

Root Cause Localization Algorithm and Its Implementation for Service Fault Diagnosis

vivo Internet Technology

Dec 28, 2022 · Operations

Monitoring Service System Construction and Exploration Practice

The article outlines vivo’s evolution from simple Zabbix monitoring to a self‑built, unified monitoring platform that now covers infrastructure, containers, databases and user experience at massive scale, integrating AI‑ops, cloud‑native observability and unified alerting to ensure end‑to‑end service reliability and future intelligent, one‑stop monitoring.

AIOpsarchitecturecloud-native

0 likes · 28 min read

Monitoring Service System Construction and Exploration Practice

vivo Internet Technology

Nov 16, 2022 · Operations

Understanding and Mitigating Bigkey Issues in Redis Operations

Bigkeys—Redis values over 1 MB or structures with more than 2,000 elements—cause memory imbalance, command blocking, network overload, and migration failures, so DBAs must detect them using built‑in commands or RDB analysis, split or partition oversized keys, and tune migration settings to preserve performance and availability.

Database OperationsPerformancebigkey

0 likes · 14 min read

Understanding and Mitigating Bigkey Issues in Redis Operations

vivo Internet Technology

Sep 14, 2022 · Big Data

Exploring and Practicing Apache Pulsar at vivo: Cluster Management, Monitoring, and Optimization

The vivo big‑data team details how they migrated massive real‑time workloads from Kafka to Apache Pulsar, describing cluster‑level bundle and ledger management, retention policies, a Prometheus‑Kafka‑Druid monitoring pipeline, load‑balancing tweaks, client tuning, rapid broker‑failure recovery, and future cloud‑native tracing and migration plans.

Apache PulsarCluster Managementbig data

0 likes · 19 min read

Exploring and Practicing Apache Pulsar at vivo: Cluster Management, Monitoring, and Optimization

vivo Internet Technology

Feb 23, 2022 · Big Data

Kafka-based Real-Time Data Warehouse: Architecture and Practice for Search

The article explains how Kafka serves as the core of a real‑time data warehouse for search, detailing its advantages over traditional databases, integration with Flink for low‑latency stream processing, architectural patterns such as Lambda/Kappa, scaling challenges, and comprehensive monitoring using Kafka Eagle.

Apache KafkaFlinkStreaming

0 likes · 15 min read

Kafka-based Real-Time Data Warehouse: Architecture and Practice for Search

vivo Internet Technology

Nov 17, 2021 · Operations

Design and Architecture of a Unified Alert Convergence System for Monitoring

The paper presents a unified alert convergence system that centralizes metric calculation, detection, and alarm handling across monitoring subsystems, employing mechanisms such as convergence, claiming, silencing, escalation, and a Redis‑based delayed queue integrated via Kafka or REST to reduce alarm fatigue, improve MTTA/MTTR, and enable future AI‑driven AIOps.

Alert ConvergenceMTTAMTTR

0 likes · 18 min read

Design and Architecture of a Unified Alert Convergence System for Monitoring