monitoring | BestHub

Collection size

1847 articles

Page 16 of 93

DeWu Technology

Aug 14, 2023 · Operations

Capital Loss Prevention Practices and Technical System

Dewu’s capital‑loss prevention framework embeds risk assessment and technical safeguards—such as idempotency, distributed consistency, and active‑active multi‑region design—into architecture, organizes three defensive lines (development, QA, SRE), and employs real‑time, near‑real‑time, and offline verification plus regular drills, while advancing automated analysis and intelligent scaling.

MonitoringSREdata consistency

0 likes · 10 min read

Capital Loss Prevention Practices and Technical System

DeWu Technology

Apr 26, 2023 · Operations

Stability and Alerting Practices for E‑commerce Order Submission Service

The article details how a high‑throughput e‑commerce checkout pipeline achieves stability by combining fine‑grained metrics, custom trace logs, version‑based data validation, and targeted alert rules that detect latency spikes, error‑code surges, and downstream service failures, enabling rapid incident localization and reliable order processing.

Monitoringalertingbackend

0 likes · 12 min read

Stability and Alerting Practices for E‑commerce Order Submission Service

DeWu Technology

Dec 5, 2022 · Operations

Evolution of Application Monitoring at 得物: From CAT to OpenTelemetry

After rebuilding its transaction system in 2020, 得物 progressed from the basic CAT monitoring tool to OpenTracing with Prometheus, and finally adopted OpenTelemetry to unify metrics, traces, and logs via a custom vmagent‑Kafka‑Flink pipeline, dynamic sampling, and extensible javaagents, positioning the platform for a performance‑analysis‑driven future.

MonitoringOpenTelemetryOpenTracing

0 likes · 18 min read

Evolution of Application Monitoring at 得物: From CAT to OpenTelemetry

DeWu Technology

May 16, 2022 · Operations

NOC SLA Implementation for Consumer Trading Platform

To tackle growing production complexity and past incident delays, the consumer trading platform introduced a three‑tier NOC‑SLA with intelligent baselines powered by Facebook Prophet, streamlined alert rules, and an SOS‑linked workflow, boosting detection frequency, cutting critical response times to under five minutes, and improving overall system reliability while emphasizing ongoing baseline and rule maintenance.

MonitoringNOCOperations

0 likes · 13 min read

NOC SLA Implementation for Consumer Trading Platform

DeWu Technology

Mar 28, 2022 · Backend Development

Loss Prevention Architecture and Real-Time Data Reconciliation for E‑commerce Platforms

The e‑commerce platform’s loss‑prevention architecture combines domain‑modeled scenario identification, pre‑emptive checks, automated testing, and a real‑time data‑reconciliation pipeline using Dcheck and rule factories to detect anomalies, trigger alerts, and execute emergency response plans, thereby minimizing financial risk and ensuring transaction stability.

Monitoringbackend developmentloss prevention

0 likes · 13 min read

Loss Prevention Architecture and Real-Time Data Reconciliation for E‑commerce Platforms

Java Tech Enthusiast

Jul 21, 2024 · Backend Development

Interface Performance Optimization Techniques for Backend Development

The article outlines practical backend interface performance optimizations—including proper indexing, SQL tuning, parallel remote calls, batch queries, asynchronous processing, scoped transactions, fine-grained locking, pagination batching, multi-level caching, sharding, and monitoring tools—to dramatically reduce latency and improve throughput.

IndexingMonitoringPerformance

0 likes · 25 min read

Interface Performance Optimization Techniques for Backend Development

DaTaobao Tech

Jul 29, 2024 · Operations

Testing Environment Reliability, Routing Isolation, Monitoring, and Efficient Deployment Practices

Alibaba Taotian’s testing platform now lets business owners self‑service reliable environments by binding accounts to isolated routes, monitoring lightweight health metrics with automated self‑healing, accelerating deployments via code caching and JVM tricks, and enabling rapid “time‑travel” scenario testing, while planning tighter observability and production alignment.

Deployment EfficiencyMonitoringTesting Environment

0 likes · 11 min read

Testing Environment Reliability, Routing Isolation, Monitoring, and Efficient Deployment Practices

DaTaobao Tech

May 22, 2024 · Cloud Native

AONE Serverless Quality Assurance: Design, Testing, and Monitoring

The article explains how AONE Serverless separates development and operations domains to enable independent iteration and lower costs, details a QA workflow—functional regression, performance testing, monitoring verification, reverse‑engineered interfaces, automated API traffic replay, and isolated pressure testing— and reports deployment build time cuts of 17% and overall deployment reductions up to 44%, while outlining challenges and future plans for layered automation and plugin‑based extensions.

Deployment EfficiencyMonitoringServerless

0 likes · 9 min read

AONE Serverless Quality Assurance: Design, Testing, and Monitoring

DaTaobao Tech

Apr 20, 2022 · Operations

Understanding Wireless Operations and Maintenance: Origins, Challenges, and Future Directions

Wireless operations and maintenance (O&M) evolved from backend‑focused practices to address stability and performance of mobile‑device services, tackling low issue detection rates and delayed responses through improved monitoring, gray‑release tagging, phased rollouts, AI‑driven diagnostics, and automated release gates, while inviting collaborative development.

Monitoringgray releaseincident response

0 likes · 13 min read

Understanding Wireless Operations and Maintenance: Origins, Challenges, and Future Directions

DaTaobao Tech

Feb 21, 2022 · Frontend Development

Focused Gray Release Monitoring and Alert Configuration for Frontend Quality

To raise front‑end quality, the team implements gray‑release monitoring that triggers log analysis at a 5 % rollout, automatically generates reports within ten minutes, and uses dynamic thresholds and noise‑reduction tactics to detect errors early, enabling rapid rollback or expansion and markedly improving stability and release efficiency.

MonitoringPerformancealerting

0 likes · 9 min read

Focused Gray Release Monitoring and Alert Configuration for Frontend Quality

Xianyu Technology

Sep 27, 2020 · Backend Development

Design of an Asynchronous Component with Monitoring, Fault Tolerance, and Zero‑Cost Integration

The article presents a design for an asynchronous component that is monitorable, fault‑tolerant, and integrates with zero overhead, compares Akka, RxJava, and a custom JUC‑based implementation, and selects the latter—using extended Callables and a CountDownLatch—to track business units, handle timeouts, and provide fallback behavior.

JUCJavaMonitoring

0 likes · 8 min read

Design of an Asynchronous Component with Monitoring, Fault Tolerance, and Zero‑Cost Integration

Xianyu Technology

Jul 28, 2020 · Operations

ShenTan: Automated Fault Localization System for Online Services

ShenTan is an automated fault‑localization platform for online services that quickly (under five seconds) pinpoints server‑side issues with developer‑level accuracy by aggregating real‑time metrics, applying a decision‑tree model enriched by expert knowledge and dynamic thresholds, and presenting results through an integrated alert and visualization system, while planning broader endpoint coverage and multi‑tenant support.

MonitoringOperationsautomation

0 likes · 12 min read

ShenTan: Automated Fault Localization System for Online Services

Xianyu Technology

Mar 14, 2019 · Operations

Ensuring High Availability of Search Engine Services: A Case Study of Xianyu's Search System

The article explains how Xianyu guarantees high‑availability of its core Ha3‑based search engine through independent gateway deployment, multi‑datacenter disaster recovery, traffic isolation, comprehensive monitoring, pressure testing, gray releases, and automated/manual failover, enabling rapid issue detection, recovery, and continuous service stability.

Disaster RecoveryEmergency ResponseMonitoring

0 likes · 19 min read

Ensuring High Availability of Search Engine Services: A Case Study of Xianyu's Search System

Didi Tech

Aug 9, 2023 · Backend Development

Upgrading Didi Elasticsearch to JDK 17 with ZGC: Challenges, Solutions, and Performance Gains

Didi upgraded its self‑developed Elasticsearch from JDK 11/G1 to JDK 17, adopting ZGC for latency‑critical clusters and tuned G1 for throughput, which eliminated long GC pauses, reduced query latency by up to 96%, cut CPU usage, and dramatically improved stability across multiple production clusters.

ElasticsearchGC OptimizationJDK17

0 likes · 14 min read

Upgrading Didi Elasticsearch to JDK 17 with ZGC: Challenges, Solutions, and Performance Gains

Didi Tech

Jul 11, 2023 · Operations

DevOps Practices and Challenges at Didi Ride‑Hailing: From Development to Operations

Didi’s ride‑hailing R&D team addresses efficiency and stability challenges of a large micro‑service ecosystem by unifying a Go stack, common framework, and data models, using eBPF traffic recording for automated regression testing, and applying AIOps alert filtering, knowledge‑graph root‑cause analysis, and a localization robot for rapid fault recovery, while targeting full CI/CD automation with static analysis, service‑mesh observability, and chaos engineering.

AIOpsCloudNativeMonitoring

0 likes · 22 min read

DevOps Practices and Challenges at Didi Ride‑Hailing: From Development to Operations

Didi Tech

Jun 3, 2020 · Backend Development

Stability Guidelines and Anti‑Patterns for Backend Services

Drawing on five years of incident reviews, the article defines a comprehensive stability framework for backend services—mandating timeout hierarchies, weak dependencies, service-discovery integration, staged gray releases, robust monitoring, capacity planning, and strict change management—while cataloguing common anti-patterns such as over-aggressive circuit breaking, static retries, improper timeouts, tight coupling, and insufficient isolation, and urging regular rehearsal of these practices.

Monitoringbackend stabilitydeployment best practices

0 likes · 21 min read

Stability Guidelines and Anti‑Patterns for Backend Services

Didi Tech

Feb 18, 2020 · Backend Development

Didi Ride‑Sharing Dispatch Engine: Architecture, Challenges, and Stability Measures for Carpool Day

During Didi’s 2019 Carpool Day promotion, a surge of up to 6.6‑times normal matching traffic forced a redesign of its dispatch engine, introducing near‑time assignment, filtered logic moves, configurable timeouts, extensive stress testing, monitoring, and rapid on‑call procedures that cut downstream pressure by over half.

Monitoringcapacity planningcarpool

0 likes · 11 min read

Didi Ride‑Sharing Dispatch Engine: Architecture, Challenges, and Stability Measures for Carpool Day

Didi Tech

Feb 18, 2020 · Operations

Didi's National Carpool Day: Technical Insights into Stability Assurance

Didi's National Carpool Day on Dec 3 2019 attracted 3.1M passengers; stability ensured via six pillars: organized task force, capacity forecasting and rapid container scaling, comprehensive monitoring with fire‑fighting map, robust contingency platform, strict process standards, and coordinated third‑party preparation.

Carpool DayDidiMonitoring

0 likes · 13 min read

Didi's National Carpool Day: Technical Insights into Stability Assurance

Didi Tech

Jan 7, 2019 · Operations

Data‑Driven Risk Quantification Platform for SRE at Didi

Didi’s data‑driven Risk Quantification Platform assigns numeric Change Credit and Monitoring Health scores to deployments, alerts and core services, turning operational best‑practice adoption into a competitive game that has raised scores, cut incident rates despite higher change volume, and paves the way for broader risk‑management across the organization.

MonitoringRisk QuantificationSRE

0 likes · 9 min read

Data‑Driven Risk Quantification Platform for SRE at Didi

iQIYI Technical Product Team

May 24, 2024 · Operations

High Availability and Disaster Recovery Practices of iQIYI's Video Relay Service (VRS)

iQIYI’s Video Relay Service ensures uninterrupted video playback by employing a two‑region, three‑center hybrid cloud architecture, multi‑layer storage, cross‑AZ retry mechanisms, protective rate‑limiting and degradation paths, layered monitoring, and rigorous stress‑testing and chaos engineering to achieve high availability and disaster recovery.

Backend ArchitectureDisaster RecoveryMonitoring

0 likes · 18 min read

High Availability and Disaster Recovery Practices of iQIYI's Video Relay Service (VRS)