monitoring | BestHub

Collection size

1794 articles

Page 14 of 90

iQIYI Technical Product Team

Nov 13, 2020 · Operations

Building and Optimizing a Consul‑Based Service Registry for iQIYI's Microservice Platform

iQIYI’s Consul‑based service registry, tightly integrated with its QAE container platform and API gateway, suffered a multi‑DC outage caused by network jitter and a metrics‑library lock‑contention bug, which was resolved by upgrading Go, go‑metrics, and Raft, adding extensive monitoring, redundant DC registration, and dedicated per‑gateway Consul clusters to ensure continued stability and scalability.

MonitoringService Registryconsul

0 likes · 17 min read

Building and Optimizing a Consul‑Based Service Registry for iQIYI's Microservice Platform

iQIYI Technical Product Team

Sep 18, 2020 · Operations

Full-Chain Load Testing Practices for iQIYI Payment System

iQIYI’s payment team built a full‑chain load‑testing framework that isolates data, mocks dependencies, constructs realistic multi‑service traffic, and executes protected tests to expose bottlenecks, guide scaling and optimizations, and ultimately ensure reliable payment services during traffic spikes, while planning a unified automation platform.

MonitoringPerformance engineeringcapacity planning

0 likes · 13 min read

Full-Chain Load Testing Practices for iQIYI Payment System

iQIYI Technical Product Team

May 29, 2020 · Big Data

iQiyi's Full-Link Automated Monitoring Platform: Design and Implementation

iQiyi’s full‑link automated monitoring platform unifies tracing, metric and log collection with deep offline and real‑time analysis, delivering a DAG‑based call graph, near‑real‑time ingestion of tens of millions of logs, multi‑dimensional alerts and rapid root‑cause diagnosis that cut error‑lookup time by over 50 % and now serves as a core component of the company’s microservice reference architecture.

Big DataMetricsMonitoring

0 likes · 12 min read

iQiyi's Full-Link Automated Monitoring Platform: Design and Implementation

iQIYI Technical Product Team

Apr 17, 2020 · Mobile Development

Building iQIYI's Mobile Middle Platform: Architecture, Decoupling, and SaaS Enablement

iQIYI’s Mobile Middle Platform decouples its multiple apps into a reusable, SaaS‑enabled architecture that centralizes services through the QMAS portal, provides ready‑made scaffolding and cross‑platform frameworks, and ensures high‑availability via comprehensive monitoring and a custom network foundation, dramatically accelerating development and unifying user experience.

CI/CDComponent DecouplingHigh Availability

0 likes · 13 min read

Building iQIYI's Mobile Middle Platform: Architecture, Decoupling, and SaaS Enablement

iQIYI Technical Product Team

Apr 26, 2019 · Operations

Design and Implementation of iQIYI CDN Inspection System

iQIYI built a three‑component CDN Inspection System that automatically generates tasks, centrally processes and analyzes results, and runs edge measurements to monitor millions of hybrid CDN servers in real time, detecting configuration errors, file mismatches and traffic anomalies, enabling proactive remediation and 100 % local coverage.

CDNDistributed SystemsMonitoring

0 likes · 11 min read

Design and Implementation of iQIYI CDN Inspection System

iQIYI Technical Product Team

Mar 15, 2019 · Cloud Computing

Design and Architecture of QLive Large‑Scale Live Streaming Service

The QLive service powers iQIYI’s massive live‑streaming events—such as the Spring Festival Gala—by combining vertical and horizontal scaling, a three‑layer architecture with dual data‑center isolation, multi‑level caching, circuit‑breaker/degradation controls, and a Flume‑Kafka‑Hive monitoring pipeline to sustain over 400 k QPS and 99.9999 % availability.

Live StreamingMonitoringcaching

0 likes · 9 min read

Design and Architecture of QLive Large‑Scale Live Streaming Service

37 Interactive Technology Team

Feb 8, 2024 · Operations

What Are Kubernetes Events and How to Collect Them

Kubernetes events record state changes such as pod scheduling, image pulling, and failures, which can be inspected via kubectl but are retained only an hour, so tools like kube-eventer or kubernetes-event-exporter collect them for long‑term analysis, enabling monitoring of Warning types, failure reasons, and visualization through Grafana dashboards.

Cloud NativeEventsGrafana

0 likes · 9 min read

What Are Kubernetes Events and How to Collect Them

37 Interactive Technology Team

May 25, 2018 · Operations

Optimization and Redesign of Open-Falcon Monitoring System for the 37 Monitoring Platform

The project redesigns the Open‑Falcon monitoring system for the 37 platform by integrating it with the existing CMDB, adding distributed‑lock high‑availability for judge and alarm modules, optimizing cross‑region agent data transmission, fixing timezone inconsistencies, and enabling redundant query/graph services, thereby unifying disparate monitoring tools into a scalable, reliable solution.

CMDBHigh AvailabilityMonitoring

0 likes · 11 min read

Optimization and Redesign of Open-Falcon Monitoring System for the 37 Monitoring Platform

HelloTech

Jan 31, 2023 · Operations

Stability Assurance Practices for Large‑Scale Promotional Events

The article outlines a comprehensive stability‑assurance framework for large‑scale promotional events—detailing planning, capacity and pressure‑test rehearsals, strict change‑freeze, internal gray releases, coordinated on‑call response, thorough link and capacity analysis, monitoring, emergency procedures, cross‑team collaboration, external partner coordination, and post‑event review to ensure resilient system performance.

Large-Scale EventsMonitoringPerformance Testing

0 likes · 17 min read

Stability Assurance Practices for Large‑Scale Promotional Events

Bilibili Tech

Aug 9, 2024 · Operations

Design and Optimization of Monitoring 2.0 Architecture with VictoriaMetrics and Flink

The new Monitoring 2.0 architecture separates collection, compute and storage, adopts VictoriaMetrics for compact time‑series storage and a zone‑based scheduler, introduces push‑based ingestion, uses Flink for real‑time pre‑aggregation and automatic PromQL rewrite, delivering ten‑fold query speedups, sub‑300 ms p90 latency, and dramatically higher write and query throughput.

FlinkMetricsMonitoring

0 likes · 29 min read

Design and Optimization of Monitoring 2.0 Architecture with VictoriaMetrics and Flink

Bilibili Tech

Mar 29, 2024 · Backend Development

Design and Implementation of Bilibili Live Interactive Platform

Bilibili’s live interactive platform, built on four core modules—developer management, app store, application interaction, and settlement—offers SDKs, debugging tools, asset libraries, and secure identity codes to streamline third‑party integration, enhance streamer and user experiences, ensure fair revenue sharing, and maintain robust monitoring and governance.

Backend DevelopmentLive StreamingMonitoring

0 likes · 16 min read

Design and Implementation of Bilibili Live Interactive Platform

Bilibili Tech

Sep 8, 2023 · Operations

Design, Implementation, and Governance of an Alert Management Platform

The article details Bilibili’s comprehensive alert‑management platform—its background, cloud‑vs‑self‑built solution comparison, closed‑loop design, distributed architecture, rule configuration, noise‑reduction, automated root‑cause analysis, and governance practices that cut weekly alerts from 1,000 to under 80, while outlining future enhancements.

DevOpsMonitoringObservability

0 likes · 19 min read

Design, Implementation, and Governance of an Alert Management Platform

Bilibili Tech

Mar 21, 2023 · Backend Development

AVIF Image Format Research, Implementation, and Optimization at Bilibili

At Bilibili, extensive research showed AVIF can cut thumbnail size by about 35% versus WebP, prompting a layered implementation that uses libheif/libaom encoding with fallback WebP, client‑side libavif decoding, comprehensive monitoring, and solutions for encoding latency, while planning hardware acceleration and continued standard‑setting contributions.

AVIFBackend DevelopmentBilibili

0 likes · 26 min read

AVIF Image Format Research, Implementation, and Optimization at Bilibili

Bilibili Tech

Dec 30, 2022 · Operations

Design and Evolution of Bilibili Intranet DNS Service

The article details Bilibili’s internal DNS service evolution—from an initial BIND9 master‑slave setup to a multi‑level caching architecture that boosts QPS to over 1.5 million—while describing comprehensive host, business, and client monitoring, key configuration pitfalls, and best‑practice recommendations for a low‑latency, reliable intranet DNS.

BIND9DNSMonitoring

0 likes · 10 min read

Design and Evolution of Bilibili Intranet DNS Service

Bilibili Tech

Aug 12, 2022 · Operations

SLO Implementation and Alerting Strategies – Bilibili SRE Practices

The article outlines Bilibili’s refined SLO framework—categorizing services into four business tiers, selecting availability, latency, and freshness SLIs, setting concrete SLO targets, and employing multi‑window error‑budget and consumption‑rate alerting strategies to improve stability and provide comprehensive quality dashboards.

AlertingMetricsMonitoring

0 likes · 18 min read

SLO Implementation and Alerting Strategies – Bilibili SRE Practices

Tencent Cloud Developer

Aug 13, 2024 · Backend Development

Comprehensive Guide to Backend Development: System Design, Architecture, Networking, Fault Handling, Monitoring, Service Governance, Testing, and Deployment

This comprehensive guide to backend development explains essential system and architecture design principles, networking strategies, fault and exception handling, monitoring and alerting, service governance, testing methodologies, and deployment practices, offering best‑practice advice and highlighting common pitfalls for building reliable, scalable internet services.

Backend DevelopmentDeploymentMonitoring

0 likes · 28 min read

Comprehensive Guide to Backend Development: System Design, Architecture, Networking, Fault Handling, Monitoring, Service Governance, Testing, and Deployment

Tencent Cloud Developer

Sep 28, 2023 · Databases

Redis Service Latency Diagnosis and Optimization – A Systematic Approach

The article outlines a systematic three‑step workflow—general service diagnostics, Redis‑specific checks, and reproducible load testing—to pinpoint a hot‑key‑driven CPU bottleneck, then evaluates mitigation options such as read‑write separation, pipelining, and an application‑level cache, ultimately showing the cache’s effectiveness in cutting latency and CPU usage.

CacheMonitoringPerformance

0 likes · 21 min read

Redis Service Latency Diagnosis and Optimization – A Systematic Approach

Tencent Cloud Developer

Jun 8, 2023 · Operations

Stability Governance in Tencent Search: Architecture, Incident Management, and Automation

The article outlines Tencent Search’s stability governance, detailing a multi‑layered availability architecture, disaster‑recovery mechanisms, precise monitoring, rapid emergency workflows, pre‑release interception, extensive automation, and a collaborative governance model that together enhance system resilience, incident detection, and swift remediation.

AutomationMonitoringavailability architecture

0 likes · 28 min read

Stability Governance in Tencent Search: Architecture, Incident Management, and Automation

Tencent Cloud Developer

May 31, 2023 · Big Data

Performance Optimization of WeChat's Multi‑Dimensional Monitoring Platform

By analyzing that most queries were time‑series and older than a day, the WeChat monitoring team split large Druid queries into per‑day/hour sub‑queries, introduced a multi‑granularity Redis cache and sub‑dimension tables, boosting cache hits above 85 % and cutting average latency from over 1000 ms to about 140 ms while reducing Druid load to roughly 10 % of its original volume.

Big DataDruidMonitoring

0 likes · 13 min read

Performance Optimization of WeChat's Multi‑Dimensional Monitoring Platform

Tencent Cloud Developer

Mar 13, 2023 · Cloud Computing

Design Principles for High‑Availability System Architecture

The article outlines a comprehensive high‑availability architecture framework across six layers—development standards, application services, storage, product fallback, operations deployment, and emergency response—detailing design principles such as stateless services, elastic scaling, redundant storage, robust monitoring, gray releases, and chaos engineering to ensure resilient, continuously available systems.

DeploymentHigh AvailabilityMonitoring

0 likes · 25 min read

Design Principles for High‑Availability System Architecture