Tagged articles

fault tolerance

317 articles · Page 2 of 4

Apr 27, 2023 · Product Management

Designing Fault‑Tolerant Products: Lessons from AI and Human Error

The article explores how AI's rise highlights human error, argues that fault‑tolerant design is essential for user‑centric products, outlines practical guidelines such as anticipatory guidance and constructive error recovery, and validates the approach with a VR‑tool experiment.

AI integrationError handlingUX Research

0 likes · 9 min read

Designing Fault‑Tolerant Products: Lessons from AI and Human Error

Zhuanzhuan Tech

Apr 26, 2023 · Backend Development

Design and Implementation of an Automated Payment Channel Management System

This article describes the design, technology choices, architecture, and implementation details of an automated payment channel management system that uses Redis‑based time‑series storage, custom circuit‑breaker logic, and monitoring to achieve fast fault detection, accurate alerting, and future automated failover.

MonitoringRedisbackend

0 likes · 10 min read

Design and Implementation of an Automated Payment Channel Management System

Wukong Talks Architecture

Apr 4, 2023 · Fundamentals

Understanding the Raft Consensus Algorithm: Roles, Leader Election, and Fault Handling

This article explains the Raft consensus algorithm, detailing its roles, leader election process, term management, fault handling, and how it ensures consistency in both single‑node and multi‑node distributed systems for modern cloud‑native applications.

ConsensusLeader ElectionRaft

0 likes · 12 min read

Understanding the Raft Consensus Algorithm: Roles, Leader Election, and Fault Handling

Programmer DD

Mar 16, 2023 · Operations

Why High Availability Matters: Building Fault‑Tolerant Cloud Systems

The article explains how system failures like bugs, security breaches, and cloud outages can cripple businesses, and outlines the concepts of fault tolerance and disaster recovery as essential components of high‑availability architectures to ensure continuous service and protect revenue.

Disaster RecoveryHigh Availabilityfault tolerance

0 likes · 7 min read

Why High Availability Matters: Building Fault‑Tolerant Cloud Systems

Tencent Cloud Developer

Mar 13, 2023 · Cloud Computing

Design Principles for High‑Availability System Architecture

The article outlines a comprehensive high‑availability architecture framework across six layers—development standards, application services, storage, product fallback, operations deployment, and emergency response—detailing design principles such as stateless services, elastic scaling, redundant storage, robust monitoring, gray releases, and chaos engineering to ensure resilient, continuously available systems.

High AvailabilityMonitoringcapacity planning

0 likes · 25 min read

Design Principles for High‑Availability System Architecture

DaTaobao Tech

Mar 1, 2023 · Game Development

Design and Implementation of Taobao Dou Dizhu Endgame Mode

The article describes the design and implementation of Taobao Dou Dizhu’s new single‑player endgame mode, which generates daily unique puzzles with a guaranteed single solution, manages activity triggers, Redis caching, AI interaction, fault tolerance, consistency, and reward idempotency, boosting user retention during promotions.

AICachingbackend-architecture

0 likes · 15 min read

Design and Implementation of Taobao Dou Dizhu Endgame Mode

Efficient Ops

Feb 27, 2023 · Operations

How QQ Music Achieves High Availability: Architecture, Toolchain, and Observability

This article explains how QQ Music builds a high‑availability system by combining redundant architecture, a comprehensive toolchain—including chaos engineering and full‑link pressure testing—and deep observability to gracefully handle failures in a large‑scale microservice environment.

Microservicesfault tolerance

0 likes · 26 min read

How QQ Music Achieves High Availability: Architecture, Toolchain, and Observability

Java High-Performance Architecture

Jan 24, 2023 · Backend Development

How to Build Highly Available Backend APIs: 10 Essential Design Principles

This article explains why high availability is crucial for backend services and outlines ten practical design principles—including dependency control, avoiding single points, load balancing, isolation, rate limiting, circuit breaking, async processing, degradation, gray release, and chaos engineering—to help developers create resilient APIs.

API designHigh Availabilitybackend

0 likes · 10 min read

How to Build Highly Available Backend APIs: 10 Essential Design Principles

Architecture Digest

Jan 19, 2023 · Backend Development

Designing High‑Availability Backend Interfaces

The article explains why high availability is essential for backend services, defines its core concepts, and outlines key design principles such as minimizing dependencies, avoiding single points of failure, load balancing, resource isolation, rate limiting, circuit breaking, asynchronous processing, degradation strategies, gray releases, and chaos engineering to build resilient APIs.

Reliabilityfault toleranceservice design

0 likes · 9 min read

Designing High‑Availability Backend Interfaces

ITPUB

Jan 12, 2023 · Operations

How to Build a Truly High‑Availability System: 6 Essential Design Layers

This article breaks down the essential design and operational considerations for achieving high availability across six layers—development standards, application services, storage, product strategy, operations deployment, and incident response—providing concrete practices, metrics, and safeguards to reach four‑nine (99.99%) uptime.

Disaster RecoveryOperationsSystem Design

0 likes · 25 min read

How to Build a Truly High‑Availability System: 6 Essential Design Layers

Aikesheng Open Source Community

Jan 10, 2023 · Databases

Cassandra Multi‑Data‑Center Fault Tolerance Experiment and Analysis

This article presents a step‑by‑step experiment on a Cassandra cluster spanning two data centers, demonstrating how token ownership, data distribution, and fault‑tolerance behave when nodes fail or are removed, and explains the observed owns percentages and replication effects.

CassandraData ReplicationNoSQL

0 likes · 15 min read

Cassandra Multi‑Data‑Center Fault Tolerance Experiment and Analysis

Tencent Cloud Developer

Jan 5, 2023 · Cloud Native

QQ Music High-Availability Architecture Overview

QQ Music achieves high availability by layering redundant multi‑datacenter architecture, proactive chaos‑engineering toolchains, and comprehensive observability—including metrics, logging, tracing and profiling—while employing service grading, adaptive retry windows and EMA‑based dynamic timeouts to gracefully handle faults across its massive micro‑service ecosystem.

High AvailabilityMicroservicesObservability

0 likes · 24 min read

QQ Music High-Availability Architecture Overview

Architecture Digest

Dec 21, 2022 · Operations

Designing High‑Availability Systems: Principles and Practices Across Six Layers

This article systematically explores high‑availability system design from development standards, capacity planning, application services, storage, product strategies, operations deployment, to incident response, presenting key concepts, architectural patterns, and practical guidelines for building resilient services.

High AvailabilityMonitoringOperations

0 likes · 27 min read

Designing High‑Availability Systems: Principles and Practices Across Six Layers

IT Architects Alliance

Dec 17, 2022 · Operations

Building Highly Available Microservices: Fault‑Tolerance Patterns and Practices

This article explains how to design and operate resilient microservice systems by using patterns such as graceful degradation, change management, health checks, self‑healing, failover caching, retry logic, rate limiting, circuit breakers, and testing failures to minimize downtime and improve reliability.

fault tolerancehealth checksload balancing

0 likes · 13 min read

Building Highly Available Microservices: Fault‑Tolerance Patterns and Practices

Java High-Performance Architecture

Dec 6, 2022 · Cloud Native

How to Build Resilient Microservices: Patterns for Fault Tolerance and High Availability

Learn essential techniques for designing fault‑tolerant microservices, including graceful degradation, change management, health checks, self‑healing, failover caching, retry strategies, rate limiting, circuit breakers, and testing failures, to ensure high availability and reliability in distributed cloud‑native systems.

OperationsReliabilitycloud-native

0 likes · 15 min read

How to Build Resilient Microservices: Patterns for Fault Tolerance and High Availability

High Availability Architecture

Dec 2, 2022 · Operations

High‑Availability Design and Implementation of the BIGO Backbone Network

This article explains how BIGO’s backbone network achieves high availability through a three‑layer design—control‑plane HA using ETCD‑based Raft leader election, data‑plane HA with MPLS SR‑Policy and intermediate Route‑Reflection layers, and business‑level HA that combines traffic, optimization, and fault scheduling to ensure seamless service continuity.

High AvailabilityMPLSSDN

0 likes · 19 min read

High‑Availability Design and Implementation of the BIGO Backbone Network

Architecture & Thinking

Dec 2, 2022 · Cloud Native

Mastering Hystrix: A Deep Dive into Circuit Breaker, Fallback, and Isolation Strategies

This article provides a comprehensive guide to Hystrix, covering its purpose in microservice fault tolerance, the problems it addresses, core concepts like command pattern and isolation, detailed workflow steps, configuration options, and practical Java code examples for circuit breaking, fallback, and thread‑pool or semaphore isolation.

HystrixJavaMicroservices

0 likes · 21 min read

Mastering Hystrix: A Deep Dive into Circuit Breaker, Fallback, and Isolation Strategies

Code Ape Tech Column

Nov 8, 2022 · Operations

Designing Resilient Microservices: Fault Tolerance, Health Checks, and Reliability Patterns

This article explains how to build highly available microservice systems by addressing the risks of distributed architectures, employing graceful degradation, change management, health checks, self‑healing, failover caching, retry and rate‑limiting strategies, bulkhead and circuit‑breaker patterns, and continuous failure testing.

Deployment Strategiesfault tolerancehealth checks

0 likes · 18 min read

Designing Resilient Microservices: Fault Tolerance, Health Checks, and Reliability Patterns

Open Source Linux

Oct 26, 2022 · Fundamentals

Choosing the Right RAID Level: Pros, Cons, and Best Use Cases

This guide explains what RAID is, its role in server storage, compares common RAID levels (0, 1, 5, 6, 10) in terms of fault tolerance, performance, and capacity, and offers recommendations for selecting the most suitable RAID configuration based on data safety, speed, and cost considerations.

Data ProtectionRAIDfault tolerance

0 likes · 8 min read

Choosing the Right RAID Level: Pros, Cons, and Best Use Cases

DeWu Technology

Oct 17, 2022 · Operations

High Availability: Principles and Practices for System Stability

High availability—measured in nines of uptime—requires partitioning systems, decoupling components, choosing robust technologies, deploying redundant instances with automatic failover, capacity planning, rapid scaling, traffic shaping, resource isolation, global protection, observability, and disciplined change management to achieve stable, resilient services.

Change ManagementHigh AvailabilityObservability

0 likes · 10 min read

High Availability: Principles and Practices for System Stability

Architecture Digest

Oct 10, 2022 · Operations

Designing Fault‑Tolerant Microservices: Patterns and Practices

This article explains how to build highly available microservice systems by applying fault‑tolerance patterns such as graceful degradation, health checks, self‑healing, failover caches, retries, rate limiting, bulkhead isolation, circuit breakers, and systematic failure testing, while also covering change‑management and deployment strategies.

Microservicescircuit breakerfault tolerance

0 likes · 14 min read

Designing Fault‑Tolerant Microservices: Patterns and Practices

ITPUB

Oct 4, 2022 · Operations

What Makes a System Truly High‑Availability? Lessons from B‑Station’s Outage

The article examines B‑Station’s July 2021 outage, explains the concept and quantitative metrics of high availability, and outlines practical techniques such as rate limiting, isolation, failover, timeout control, circuit breaking, degradation, and multi‑region deployment to achieve resilient systems.

MTBFMTTRcircuit breaker

0 likes · 15 min read

What Makes a System Truly High‑Availability? Lessons from B‑Station’s Outage

Architecture Digest

Sep 25, 2022 · Cloud Native

Designing Microservices Architecture for Failure: Patterns and Practices

This article explains how to build highly available microservices by addressing the inherent risks of distributed systems and presenting fault‑tolerance patterns such as graceful degradation, change management, health checks, self‑healing, failover caching, retries, rate limiting, bulkheads, circuit breakers, and systematic failure testing.

Cloud NativeMicroservicesReliability

0 likes · 14 min read

Designing Microservices Architecture for Failure: Patterns and Practices

ITFLY8 Architecture Home

Sep 20, 2022 · Cloud Native

How to Build Fault‑Tolerant Microservices: Essential Patterns and Practices

This article explains why microservice architectures increase failure risk and presents proven techniques—such as graceful degradation, change management, health checks, self‑healing, failover caches, retries, rate limiting, bulkheads, and circuit breakers—to design resilient, fault‑tolerant services.

Microservicesfault toleranceresilience patterns

0 likes · 15 min read

How to Build Fault‑Tolerant Microservices: Essential Patterns and Practices

Big Data Technology Architecture

Sep 18, 2022 · Backend Development

Design and Source Code Analysis of Apache DolphinScheduler

This article provides an in‑depth technical overview of Apache DolphinScheduler, covering its distributed design strategies, fault‑tolerance mechanisms, remote log access, source‑code module breakdown, API interfaces, Quartz integration, master‑worker execution flows, RPC communication, load‑balancing algorithms, logging services, and community contribution guidelines.

Distributed SchedulingDolphinSchedulerLog Service

0 likes · 47 min read

Design and Source Code Analysis of Apache DolphinScheduler

Top Architect

Sep 4, 2022 · Backend Development

Designing Fault‑Tolerant Microservices Architecture

The article explains how to build highly available microservice systems by isolating failures, applying graceful degradation, change‑management, health checks, self‑healing, fallback caches, circuit breakers, retry policies, rate limiting and testing strategies, while acknowledging the cost and operational complexity involved.

Change Managementcircuit breakerfault tolerance

0 likes · 16 min read

Designing Fault‑Tolerant Microservices Architecture

dbaplus Community

Aug 25, 2022 · Backend Development

Mastering Distributed Locks: From Basics to Redlock and Beyond

This comprehensive guide explains why distributed locks are needed, outlines their three essential properties, compares common implementations such as Redis, MySQL, ZooKeeper, and Redlock, discusses pitfalls like non‑atomic operations and lock expiration, and presents correct patterns using atomic commands, Lua scripts, watchdogs, and fencing tokens.

Distributed LockLuaRedis

0 likes · 37 min read

Mastering Distributed Locks: From Basics to Redlock and Beyond

DaTaobao Tech

Aug 15, 2022 · Cloud Native

Reflections on CAP Theory, ACID, BASE, and Cloud‑Native Fault Tolerance

Reflecting on reading, the author reviews CAP theory’s consistency‑availability‑partition trade‑offs, extends ACID and BASE concepts, proposes modernizing CAP objects to consistency, fault and disaster tolerance, and examines how cloud‑native architectures, micro‑services, and SLA‑driven designs reshape fault tolerance and future self‑healing systems.

ACIDBASECAP theorem

0 likes · 21 min read

Reflections on CAP Theory, ACID, BASE, and Cloud‑Native Fault Tolerance

IT Architects Alliance

Aug 11, 2022 · Fundamentals

Key Distributed System Concepts: Bloom Filter, Consistent Hashing, Quorum, Leader/Follower, and More

This article introduces essential distributed‑system mechanisms—including Bloom filters, consistent hashing, quorum, leader/follower roles, heartbeats, fencing, write‑ahead logs, segment logs, high‑water marks, leases, gossip protocols, failure detection, CAP/PACELC theorems, hinted handoff, read‑repair, and Merkle trees—to help engineers design scalable and fault‑tolerant services.

CAP theoremData Structuresconsistency

0 likes · 12 min read

Key Distributed System Concepts: Bloom Filter, Consistent Hashing, Quorum, Leader/Follower, and More

NetEase LeiHuo UX Big Data Technology

Aug 3, 2022 · Big Data

Understanding Spark Streaming Checkpoint Mechanism for Real‑Time Feature Computation

The article explains how Spark Streaming's checkpoint mechanism works, detailing the four-step process—from setting the checkpoint directory to writing RDD data and finalizing the checkpoint—highlighting its role in ensuring fault‑tolerant, fast recovery for real‑time recommendation feature pipelines.

Big DataCheckpointReal-time Processing

0 likes · 7 min read

Understanding Spark Streaming Checkpoint Mechanism for Real‑Time Feature Computation

IT Architects Alliance

Jun 23, 2022 · Cloud Native

Implementing a Microservice Architecture with Spring Cloud Netflix on a Docker‑Based PaaS Platform

This article explains how to build a Docker‑containerized PaaS platform that uses Spring Cloud Netflix components such as Zuul, Eureka, and Hystrix to provide service gateway, registration, discovery, fault tolerance, and dynamic configuration for scalable microservice applications.

DockerMicroservicesdynamic-configuration

0 likes · 13 min read

Implementing a Microservice Architecture with Spring Cloud Netflix on a Docker‑Based PaaS Platform

IT Architects Alliance

Jun 20, 2022 · Cloud Native

Building Resilient Microservices: Fault Tolerance, Graceful Degradation, and Reliability Patterns

This article explains how microservice architectures can achieve high availability by using fault‑tolerant designs such as graceful degradation, health checks, failover caching, circuit breakers, bulkheads, rate limiting, and systematic change‑management practices to mitigate network, hardware, and application errors.

MicroservicesResiliencecircuit breaker

0 likes · 13 min read

Building Resilient Microservices: Fault Tolerance, Graceful Degradation, and Reliability Patterns

MaGe Linux Operations

Jun 10, 2022 · Fundamentals

Demystifying Paxos: How Distributed Systems Achieve Consensus

This article explains the Paxos consensus algorithm—its origins, core concepts, roles of proposers, acceptors and learners, safety and liveness constraints, the two-phase protocol, proposal generation, and practical variations—showing why Paxos remains a foundational solution for fault‑tolerant distributed systems.

Consensus AlgorithmPaxosdistributed consensus

0 likes · 16 min read

Demystifying Paxos: How Distributed Systems Achieve Consensus

Ctrip Technology

Jun 9, 2022 · Databases

Ctrip Order Database Architecture Optimization and Sharding Case Study

This article details Ctrip's comprehensive redesign of its airline ticket order database, covering the background performance bottlenecks, vertical and hot‑cold data splitting, sharding key selection, multi‑level caching, cross‑shard query optimization, dual‑write mechanisms, fault‑tolerance strategies, project planning, and the resulting improvements in scalability and cost.

Dual WritePerformance Optimizationdatabase sharding

0 likes · 37 min read

Ctrip Order Database Architecture Optimization and Sharding Case Study

Architects Research Society

May 22, 2022 · Operations

Designing Resilient Microservices: Fault‑Tolerance Patterns and Practices

This article explains how to build highly available microservice systems by defining clear service boundaries, employing graceful degradation, change‑management strategies, health checks, self‑healing, cache failover, retry logic, rate limiting, bulkheads, circuit breakers, and testing techniques to mitigate failures in distributed environments.

Change ManagementCloud Nativecircuit breaker

0 likes · 15 min read

Designing Resilient Microservices: Fault‑Tolerance Patterns and Practices

Architecture Digest

May 8, 2022 · Fundamentals

Building Robust Distributed Systems: Reducing Dependencies and Enhancing Resilience

The article explains how to design resilient distributed systems by minimizing inter‑component dependencies, duplicating or denormalizing data, isolating failures with SLAs, protecting callers and callees, and adding buffers such as asynchronous messaging and elastic scaling to handle random faults as systems grow.

Asynchronous CommunicationMicroservicesResilience

0 likes · 8 min read

Building Robust Distributed Systems: Reducing Dependencies and Enhancing Resilience

macrozheng

Apr 14, 2022 · Operations

Mastering High Availability: 4 Essential Design Techniques for Scalable Systems

This article outlines the core high‑availability techniques—system splitting, decoupling, asynchronous processing, retry, compensation, backup, multi‑active strategies, isolation, rate limiting, circuit breaking, and degradation—providing practical guidance for designing resilient, scalable backend architectures in large‑scale internet applications.

High AvailabilityMicroservicesSystem Design

0 likes · 13 min read

Mastering High Availability: 4 Essential Design Techniques for Scalable Systems

MaGe Linux Operations

Mar 24, 2022 · Operations

Understanding Disaster Tolerance vs. Backup: Key Differences and Planning Strategies

This article explains the concepts of disaster tolerance, fault tolerance, and disaster recovery, compares them with backup purposes, discusses RTO/RPO metrics, investment considerations, and outlines common disaster‑recovery architectures for enterprise IT operations.

Disaster RecoveryIT OperationsRPO

0 likes · 8 min read

Understanding Disaster Tolerance vs. Backup: Key Differences and Planning Strategies

Architect

Mar 11, 2022 · Operations

Rate Limiting, Circuit Breaking, and Service Degradation: Key Fault‑Tolerance Patterns for Distributed Systems

The article explains why distributed systems need fault‑tolerance mechanisms such as rate limiting, circuit breaking, and service degradation, describes common metrics (TPS, HPS, QPS), outlines several limiting algorithms (counter, sliding window, leaky bucket, token bucket, distributed and Hystrix‑based), and discusses circuit‑breaker states, considerations, and practical Hystrix usage.

HystrixMicroservicescircuit breaker

0 likes · 17 min read

Rate Limiting, Circuit Breaking, and Service Degradation: Key Fault‑Tolerance Patterns for Distributed Systems

IT Architects Alliance

Mar 10, 2022 · Backend Development

Building Resilient Microservices: Patterns and Practices for High Availability

This article explains the risks of microservice architectures and presents a collection of reliability patterns—including graceful degradation, change management, health checks, self‑healing, failover caching, retries, rate limiting, bulkheads, and circuit breakers—to help engineers design and operate highly available backend services.

MicroservicesResiliencebackend

0 likes · 17 min read

Building Resilient Microservices: Patterns and Practices for High Availability

IT Services Circle

Feb 12, 2022 · Cloud Computing

Azure Leap‑Year Outage and Leap‑Second Impacts on Cloud Systems

The article analyzes the 2012 Azure outage caused by a leap‑year date bug, explains Azure's cluster and Fabric Controller architecture, discusses common leap‑year and leap‑second pitfalls, and shows how time anomalies can cascade through DNS and other cloud services, illustrated with real code examples.

AzureCloud ComputingDNS

0 likes · 12 min read

Azure Leap‑Year Outage and Leap‑Second Impacts on Cloud Systems

IT Architects Alliance

Feb 3, 2022 · Cloud Native

Building a Docker‑Powered Microservice PaaS with Spring Cloud Netflix

This article explains how to design and implement a microservice‑based PaaS platform using Docker containers, Spring Cloud Netflix components such as Zuul, Eureka, and Hystrix, covering service gateway routing, registration and discovery, deployment, fault tolerance, and dynamic configuration.

DockerMicroservicesdynamic-configuration

0 likes · 14 min read

Building a Docker‑Powered Microservice PaaS with Spring Cloud Netflix

IT Architects Alliance

Jan 23, 2022 · Operations

Microservice Monitoring, Fault Tolerance, Access Security, and Container Technology Overview

This article provides a comprehensive guide to microservice monitoring—including log, tracing, and metrics approaches—fault‑tolerance isolation techniques, access‑security mechanisms such as API‑gateway and OAuth2.0, and the role of container technologies like Docker in cloud‑native deployments.

Cloud NativeContainersMicroservices

0 likes · 30 min read

Microservice Monitoring, Fault Tolerance, Access Security, and Container Technology Overview

Code DAO

Dec 17, 2021 · Artificial Intelligence

How to Scale XGBoost with Ray for Distributed Multi‑GPU Training

XGBoost‑Ray provides a fault‑tolerant, multi‑node, multi‑GPU backend for XGBoost that integrates seamlessly with Ray Tune, supports distributed data loading, and can be enabled with only three code changes, enabling scalable training and inference on large clusters.

GPURayRay Tune

0 likes · 8 min read

How to Scale XGBoost with Ray for Distributed Multi‑GPU Training

Architects Research Society

Dec 9, 2021 · Fundamentals

Key Challenges in Designing Distributed Systems

Designing a distributed system involves overcoming major challenges such as heterogeneity, transparency, openness, concurrency, security, scalability, and fault tolerance, each of which must be addressed to build a reliable, extensible, and performant system.

concurrencydistributed systemsfault tolerance

0 likes · 7 min read

Key Challenges in Designing Distributed Systems

MaGe Linux Operations

Nov 24, 2021 · Backend Development

Mastering Go Circuit Breakers: Boost System Resilience with gobreaker

This article explains how to use the Go gobreaker library to implement circuit‑breaker patterns, describing its three states, state transitions, configurable parameters, and providing full source‑code examples to help developers improve fault tolerance in micro‑service architectures.

GoMicroservicesbackend

0 likes · 9 min read

Mastering Go Circuit Breakers: Boost System Resilience with gobreaker

Java Architect Essentials

Nov 19, 2021 · Fundamentals

A Comprehensive Guide to Learning Distributed Systems

This article provides a thorough overview of distributed systems, explaining their definition, core concepts such as partition and replication, key challenges, essential characteristics, typical components and protocols, a practical request flow example, and a curated list of real‑world implementations to help readers build a solid learning roadmap.

Partitionconsistencydistributed systems

0 likes · 17 min read

A Comprehensive Guide to Learning Distributed Systems

Beike Product & Technology

Nov 19, 2021 · Backend Development

Implementing a Hystrix‑Style Circuit Breaker in the PHP Ecosystem: Principles, Design, and Practice

This article explains the problem of service avalanche in distributed systems, introduces the Hystrix circuit‑breaker concept and its four command modes, evaluates existing PHP implementations, and details the design and implementation of a custom hystrix‑ex Composer package that integrates with Guzzle middleware for high‑concurrency fault tolerance.

Microservicesbackendcircuit-breaker

0 likes · 14 min read

Implementing a Hystrix‑Style Circuit Breaker in the PHP Ecosystem: Principles, Design, and Practice

DataFunTalk

Nov 13, 2021 · Cloud Native

Designing Cloud‑Native Distributed Database Architecture: Lessons from TiDB

This article explores how to design a cloud‑native distributed database architecture by examining TiDB’s current structure, proposing a storage‑compute separation that leverages cloud services like S3 and EBS, and discussing implications for cost, scalability, fault‑tolerance, and multi‑tenant deployment.

TiDBarchitecturecloud-native

0 likes · 14 min read

Designing Cloud‑Native Distributed Database Architecture: Lessons from TiDB

Big Data Technology & Architecture

Nov 4, 2021 · Big Data

Understanding Flink State, Checkpoints, Savepoints, and Fault Tolerance

This article explains Flink's state concepts, the distinction between keyed and operator state, available state backends, TTL configuration, the mechanics of checkpoints and savepoints, and the two‑phase commit protocol for ensuring exactly‑once processing in streaming applications.

CheckpointsFlinkSavepoints

0 likes · 21 min read

Understanding Flink State, Checkpoints, Savepoints, and Fault Tolerance

Full-Stack Internet Architecture

Oct 23, 2021 · Backend Development

Redis Distributed Locks: Safety Issues, Redlock Debate, and Best Practices

This article thoroughly examines how Redis distributed locks work, the safety challenges they face—including deadlocks, lock expiration, and node failures—explores the Redlock algorithm and its controversies, compares Redis with Zookeeper implementations, and offers practical guidelines and best‑practice solutions for reliable distributed locking.

Distributed LockRedisRedlock

0 likes · 32 min read

Redis Distributed Locks: Safety Issues, Redlock Debate, and Best Practices

Alibaba Cloud Developer

Oct 13, 2021 · Big Data

Why “Exactly‑Once” Doesn’t Guarantee Consistency in Stream Processing

This article examines the true meaning of consistency in stream computing, clarifies common misconceptions about exactly‑once semantics, formalizes consistency challenges, and reviews how major stream engines such as Google MillWheel, Apache Flink, Kafka Streams, and Spark Streaming implement end‑to‑end consistency.

Big DataExactly-oncefault tolerance

0 likes · 29 min read

Why “Exactly‑Once” Doesn’t Guarantee Consistency in Stream Processing

dbaplus Community

Sep 23, 2021 · Cloud Native

Master Distributed System Design: Patterns, Performance & Fault Tolerance

This article provides a comprehensive overview of distributed system architecture, covering design patterns such as gateways, sidecars and service meshes, performance techniques like caching and sharding, fault‑tolerance mechanisms including rate limiting and circuit breakers, and DevOps practices for deployment and monitoring, all aimed at building resilient cloud‑native applications.

Microservicesdevopsfault tolerance

0 likes · 15 min read

Master Distributed System Design: Patterns, Performance & Fault Tolerance

Architecture Digest

Sep 23, 2021 · Operations

High Availability Practices: From Taobao to Cloud

This talk shares practical high‑availability strategies learned from years of building Taobao’s massive e‑commerce platform and migrating to Alibaba Cloud, covering traditional IDC stability mechanisms, cache and disaster‑recovery designs, cloud‑native fault‑tolerance, capacity planning, rate‑limiting, graceful degradation, and multi‑region resilience.

CachingCloud Computingcapacity planning

0 likes · 20 min read

High Availability Practices: From Taobao to Cloud

NiuNiu MaTe

Sep 8, 2021 · Backend Development

Mastering Distributed Locks with Redis: From Basics to RedLock

This article explains what distributed locks are, outlines their essential properties, walks through step‑by‑step Redis implementations—from simple SETNX to Lua‑based atomic operations—and discusses reliability strategies such as master‑slave failover and RedLock while highlighting the inherent limits of any distributed lock.

Distributed LockRedisRedlock

0 likes · 11 min read

Mastering Distributed Locks with Redis: From Basics to RedLock

IT Architects Alliance

Sep 4, 2021 · Backend Development

Meituan Instant Logistics: Distributed System Architecture and Practices

The article details Meituan's five‑year evolution of its instant logistics platform, describing the distributed high‑concurrency architecture, AI‑driven optimization, scalability and fault‑tolerance techniques, and future challenges in micro‑service and unit‑based operations.

AIHigh concurrencyMeituan

0 likes · 9 min read

Meituan Instant Logistics: Distributed System Architecture and Practices

Architecture Digest

Aug 22, 2021 · Operations

High Availability Practices: From Taobao to Cloud Migration

This talk shares practical high‑availability design experiences from Alibaba’s e‑commerce platform to its cloud services, covering traditional IDC stability mechanisms, cache and disaster‑recovery strategies, cloud‑native fault handling, capacity planning, traffic shaping, and lessons learned from real incidents.

Alibabacloud architecturedistributed systems

0 likes · 19 min read

High Availability Practices: From Taobao to Cloud Migration

ITFLY8 Architecture Home

Aug 20, 2021 · Operations

From Taobao to the Cloud: Secrets of Building Ultra‑High‑Availability Systems

This talk shares practical high‑availability strategies learned from Alibaba’s Taobao platform and Alibaba Cloud, covering traditional IDC stability, cache and disaster‑recovery designs, cloud‑native fault‑tolerance, performance‑capacity trade‑offs, traffic shaping, multi‑region replication, and lessons from real‑world incidents like GitLab failures.

AlibabaHigh AvailabilityPerformance Optimization

0 likes · 21 min read

From Taobao to the Cloud: Secrets of Building Ultra‑High‑Availability Systems

Architects' Tech Alliance

Aug 18, 2021 · Operations

Understanding Disaster Tolerance, Fault Tolerance, and Disaster Recovery: A Practical Guide

This article explains the concepts of disaster tolerance, fault tolerance, and disaster recovery, compares them with backup strategies, outlines key metrics such as RTO and RPO, and presents common architectures and planning considerations for building resilient enterprise systems.

Disaster RecoveryHigh AvailabilityRPO

0 likes · 9 min read

Understanding Disaster Tolerance, Fault Tolerance, and Disaster Recovery: A Practical Guide

ITFLY8 Architecture Home

Aug 17, 2021 · Backend Development

How Meituan Scaled Instant Logistics with Distributed Systems and AI

This article details Meituan's five‑year journey building a high‑availability, low‑latency instant logistics platform, describing the distributed architecture evolution, AI‑driven optimizations, fault‑tolerance techniques, and future challenges in scaling micro‑services for massive order and rider volumes.

AI logisticsAIOpsHigh concurrency

0 likes · 12 min read

How Meituan Scaled Instant Logistics with Distributed Systems and AI

Baidu Intelligent Testing

Jul 29, 2021 · Backend Development

Building High‑Availability Architecture for Baidu Feed Online Recommendation System

This article describes how Baidu engineered a flexible, multi‑level fault‑tolerant architecture—including dynamic retry scheduling, multi‑recall coordination, ranking layer degradation, and cross‑IDC multi‑master storage—to achieve five‑nine availability for its massive feed recommendation service.

Cloud NativeHigh Availabilitydynamic retry

0 likes · 16 min read

Building High‑Availability Architecture for Baidu Feed Online Recommendation System

MaGe Linux Operations

Jul 27, 2021 · Backend Development

Building a Go Circuit Breaker: Concepts, States, and Code Walkthrough

This article explains the circuit breaker pattern, its three-state lifecycle, and provides a detailed Go implementation with code examples, state transition logic, metric tracking, and known limitations for improving service stability.

Gobackendcircuit breaker

0 likes · 6 min read

Building a Go Circuit Breaker: Concepts, States, and Code Walkthrough

Sohu Tech Products

Jul 21, 2021 · Backend Development

Understanding Hystrix: Circuit Breaking, Isolation, Timeout, and Fallback Mechanisms

This article explains how Hystrix protects distributed Java applications from cascading failures by using circuit breakers, thread‑pool or semaphore isolation, timeout detection, fallback strategies, and health statistics, and includes key source code excerpts illustrating each mechanism.

HystrixJavaMicroservices

0 likes · 25 min read

Understanding Hystrix: Circuit Breaking, Isolation, Timeout, and Fallback Mechanisms

21CTO

Jul 16, 2021 · Operations

What Bilibili’s Outage Teaches About Achieving True High Availability

The article analyzes Bilibili’s recent service outage, explains why high availability matters, introduces key metrics like MTBF and MTTR, and outlines practical strategies such as redundancy, rate limiting, isolation, failover, timeout control, circuit breaking, degradation, and multi‑region deployment to build resilient systems.

High AvailabilityMTBFMTTR

0 likes · 18 min read

What Bilibili’s Outage Teaches About Achieving True High Availability

vivo Internet Technology

Jul 14, 2021 · Backend Development

Hystrix Source Code Analysis: Circuit Breaker, Isolation, and Fallback Mechanisms

Analyzing Hystrix’s source code reveals how its circuit‑breaker, bulkhead isolation (semaphore or thread‑pool), timeout detection, fallback logic, and sliding‑window health metrics work together to prevent cascading failures in distributed systems, as illustrated by an e‑commerce order service calling multiple downstream services.

HystrixMicroservicesNetflix OSS

0 likes · 20 min read

Hystrix Source Code Analysis: Circuit Breaker, Isolation, and Fallback Mechanisms

ITPUB

Jun 29, 2021 · Backend Development

Is Redis Distributed Lock Really Safe? A Deep Dive into Redlock, Pitfalls, and Alternatives

This article thoroughly examines the safety of Redis‑based distributed locks, explains basic SETNX locking, explores deadlock and lock‑release problems, presents robust solutions such as atomic SET with expiration, Lua scripts, and unique tokens, and critically compares Redlock with Zookeeper while summarizing expert debates and best‑practice recommendations.

LuaRedisRedlock

0 likes · 34 min read

Is Redis Distributed Lock Really Safe? A Deep Dive into Redlock, Pitfalls, and Alternatives

Architects Research Society

Jun 16, 2021 · Backend Development

Common Pitfalls in Microservice Integration and How to Mitigate Them

The article explains three frequent pitfalls when adopting microservices—complex remote communication, asynchronous processing challenges, and distributed transaction difficulties—and shows how fast‑fail, retries, timeouts, compensation, lightweight workflow engines, and idempotency can reduce complexity and improve resilience.

distributed systemsfault toleranceidempotency

0 likes · 13 min read

Common Pitfalls in Microservice Integration and How to Mitigate Them

21CTO

Jun 9, 2021 · Cloud Native

Baidu’s Low‑Intrusion, High‑Performance Service Mesh: Architecture & Lessons

This article details Baidu’s internal service‑mesh deployment, explaining why traditional RPC‑based governance fell short, how a sidecar‑based mesh decouples governance from frameworks, and the technical challenges and solutions for low‑intrusion, high‑performance, fault‑tolerant traffic management across tens of thousands of microservices.

Cloud NativeMicroservicesPerformance Optimization

0 likes · 18 min read

Baidu’s Low‑Intrusion, High‑Performance Service Mesh: Architecture & Lessons

Baidu Geek Talk

Jun 9, 2021 · Cloud Native

Baidu's Internal Service Mesh Practice: Architecture, Challenges, and Performance Optimizations

Baidu created an internally‑built, Istio‑based service mesh that decouples governance from language‑specific RPCs, offering low‑intrusion integration, ultra‑low latency via a brpc coroutine data plane, advanced fault‑tolerance and fine‑grained traffic scheduling, and now powers over 80 % of its core microservices handling more than a trillion daily requests.

EnvoyIstioMicroservices

0 likes · 17 min read

Baidu's Internal Service Mesh Practice: Architecture, Challenges, and Performance Optimizations

Programmer DD

Jun 4, 2021 · Operations

Mastering Fault‑Tolerant Microservices: Patterns for Reliable Distributed Systems

This article explores essential patterns and techniques—such as graceful degradation, change management, health checks, failover caching, retry logic, rate limiting, circuit breakers, and chaos testing—to build highly available microservice architectures that can withstand network, hardware, and application failures.

Cloud Nativecircuit breakerfault tolerance

0 likes · 15 min read

Mastering Fault‑Tolerant Microservices: Patterns for Reliable Distributed Systems

Amap Tech

May 28, 2021 · Operations

System Observability Practices in Gaode Ride-Hailing: From Unified Logging to Fault Defense

Gaode Ride‑Hailing created a comprehensive 360° observability platform—standardized logging, distributed tracing, multi‑domain metrics, visual dashboards, and an incident workflow—that transforms raw data into actionable insights, accelerates root‑cause analysis, and enables automated fault defense for its large‑scale cloud‑native microservice system.

LoggingMonitoringObservability

0 likes · 22 min read

System Observability Practices in Gaode Ride-Hailing: From Unified Logging to Fault Defense

Architects' Tech Alliance

May 19, 2021 · Operations

Designing Microservices Architecture for Failure: Patterns and Practices

Microservice architectures must handle inevitable network, hardware, and application errors by employing fault‑tolerant patterns such as graceful degradation, change management, health checks, fail‑over caches, retry logic, rate limiting, circuit breakers, and testing strategies to maintain service reliability and user experience.

MicroservicesOperationsReliability

0 likes · 15 min read

JD Tech Talk

May 17, 2021 · Databases

Design and Optimization of Multi‑Data‑Center Redis Synchronization

This article describes the challenges of native Redis in multi‑data‑center deployments and presents the design, implementation, and performance evaluation of a custom Redis extension that adds bidirectional synchronization, rlog logging, protocol enhancements, and conflict‑resolution mechanisms to achieve reliable cross‑region active‑active operation.

Data synchronizationMulti-Data Centerfault tolerance

0 likes · 16 min read

Design and Optimization of Multi‑Data‑Center Redis Synchronization

Tencent Cloud Middleware

May 11, 2021 · Operations

Mastering High Availability: Core Concepts, Metrics, and Design Strategies

This article explains high availability fundamentals, defines availability, outlines design targets, presents common metrics such as MTBF, MTTR, MTTF, SA, RPO, RTO, discusses CAP theory, essential design elements, and answers practical Q&A on cost, architecture, fault tolerance, testing, and implementation guidance.

CAP theoremMonitoringSLA

0 likes · 15 min read

Mastering High Availability: Core Concepts, Metrics, and Design Strategies

Java High-Performance Architecture

May 7, 2021 · Big Data

Mastering Kafka Partitions: Boost Scalability, Fault Tolerance, and Ordering

Kafka partitions are the fundamental storage units that enable topics to scale horizontally, maintain message order within each partition, provide fault‑tolerance through replication, and support parallel consumption, with various write strategies such as key‑based, round‑robin, and custom rules.

Message Orderingconsumer groupsfault tolerance

0 likes · 9 min read

Mastering Kafka Partitions: Boost Scalability, Fault Tolerance, and Ordering

Top Architect

Apr 21, 2021 · Backend Development

Microservice Architecture Evolution: From Monolith to Service Mesh

This article chronicles the evolution of an online supermarket from a simple monolithic website to a fully split microservice architecture, discussing the motivations, challenges, design patterns, monitoring, fault tolerance, testing, service discovery, and the eventual adoption of service mesh.

architecturebackendfault tolerance

0 likes · 23 min read

Microservice Architecture Evolution: From Monolith to Service Mesh

vivo Internet Technology

Apr 14, 2021 · Fundamentals

An Overview of the Raft Distributed Consensus Algorithm

Raft is a fault‑tolerant distributed consensus protocol that simplifies Paxos by electing a single leader each term to coordinate client requests, replicate logs to a majority of servers, ensure safety through up‑to‑date voting, handle failures with randomized timeouts, resolve log conflicts, and compress logs via snapshots.

Leader ElectionLog ReplicationRaft

0 likes · 19 min read

An Overview of the Raft Distributed Consensus Algorithm

Kuaishou Tech

Apr 9, 2021 · Backend Development

Design and Implementation of Red Packet Calculation and Distribution System for Spring Festival Activity

This article details the design of a red packet calculation and distribution system for a Spring Festival promotion, addressing mixed-type packet computation, seamless transition to awarding, distributed task processing, stability guarantees, and successful implementation results.

Batch ProcessingDistributed ComputingSpring Festival

0 likes · 12 min read

Design and Implementation of Red Packet Calculation and Distribution System for Spring Festival Activity

IT Architects Alliance

Apr 5, 2021 · Operations

Design and Implementation of a Handcrafted Distributed Cluster (MyCluster)

This article describes how to design and build a native distributed cluster called MyCluster without using any existing frameworks, covering master‑slave architecture, leader election, split‑brain handling, centralized configuration management, custom communication protocols, state transitions, and client interfaces.

Cluster ArchitectureLeader Electionconfiguration management

0 likes · 13 min read

Design and Implementation of a Handcrafted Distributed Cluster (MyCluster)

DataFunTalk

Mar 28, 2021 · Big Data

Flink Stream‑Batch Integration: Layered Architecture, Unified SDK, DAG Scheduler, Shuffle, and Fault‑Tolerance

This article explains how Apache Flink has evolved into a unified stream‑batch engine by introducing a three‑layer architecture, a unified DataStream SDK, a pipeline‑region‑based DAG scheduler, a common shuffle framework, and enhanced fault‑tolerance mechanisms to address efficiency, consistency, and resource‑utilisation challenges in real‑time big‑data processing.

Apache FlinkBatch ProcessingDAG scheduler

0 likes · 25 min read

Flink Stream‑Batch Integration: Layered Architecture, Unified SDK, DAG Scheduler, Shuffle, and Fault‑Tolerance

Baidu Geek Talk

Mar 22, 2021 · Operations

How Baidu Achieved 99.999% Uptime for Its Massive Feed Recommendation System

This article details Baidu's Feed recommendation system architecture, explaining how a combination of dynamic retry scheduling, real‑time stop‑loss mechanisms, multi‑recall frameworks, ranking layer fallbacks, and IDC‑level multi‑master designs collectively ensure five‑nine availability across billions of daily requests.

High AvailabilityMicroservicesOperations

0 likes · 18 min read

How Baidu Achieved 99.999% Uptime for Its Massive Feed Recommendation System

Wukong Talks Architecture

Mar 18, 2021 · Fundamentals

Understanding Distributed Theory and Algorithms: Importance, Core Concepts, and Learning Path

This article explains why distributed theory and algorithms are crucial for architects, outlines the four foundational theories and eight key protocols, discusses their four evaluation dimensions, and provides a step‑by‑step learning roadmap illustrated with stories and practical examples.

CAP theoremconsensus algorithmsconsistency

0 likes · 10 min read

Understanding Distributed Theory and Algorithms: Importance, Core Concepts, and Learning Path

IT Architects Alliance

Mar 15, 2021 · Backend Development

Evolution of Meituan Instant Logistics Distributed System Architecture and Practices

The article details Meituan's five‑year journey in instant logistics, describing how distributed, high‑concurrency backend architectures were progressively upgraded to microservices, how AI is integrated for pricing, ETA and dispatch, and the operational techniques used to ensure scalability, fault tolerance, and high availability.

AIHigh concurrencyMeituan

0 likes · 8 min read

Evolution of Meituan Instant Logistics Distributed System Architecture and Practices

Xianyu Technology

Feb 8, 2021 · Backend Development

Design and Implementation of a Cluster‑Aware Guava Cache Component for High Reliability

The paper presents a cluster‑aware Guava cache component for Alibaba’s Xianyu platform that mitigates downstream service failures by adding asynchronous reload, cluster‑wide key invalidation, and size reporting, enabling automatic fallback to refreshed local data and improving latency, with future plans for a management console, tiered storage, and disk‑backed caching.

CachingGuavafault tolerance

0 likes · 8 min read

Design and Implementation of a Cluster‑Aware Guava Cache Component for High Reliability

Sohu Tech Products

Jan 20, 2021 · Backend Development

Understanding Dubbo’s Core Architecture: Service Registration, Invocation, Routing, and Thread Dispatch Mechanisms

This article explains Dubbo’s internal architecture, covering service registration and discovery with Zookeeper, RPC invocation details including load balancing, routing, and fault‑tolerance strategies, as well as its network protocol and thread‑dispatch mechanisms, providing practical insights for backend developers.

DubboMicroservicesRouting

0 likes · 13 min read

Understanding Dubbo’s Core Architecture: Service Registration, Invocation, Routing, and Thread Dispatch Mechanisms

Top Architect

Jan 6, 2021 · Cloud Native

Implementing a Microservice Architecture with Spring Cloud, Docker, and PaaS

This article explains how to build a microservice‑based PaaS platform using Spring Cloud Netflix components, Docker containers, Eureka for service registration, Zuul as a gateway, Hystrix for fault tolerance, and a dynamic configuration center to achieve agile development and continuous integration.

DockerMicroservicesdynamic-configuration

0 likes · 13 min read

Implementing a Microservice Architecture with Spring Cloud, Docker, and PaaS

Efficient Ops

Jan 5, 2021 · Operations

How to Prevent ZooKeeper Split‑Brain: Best Practices and Fault‑Tolerance Strategies

This article explains why ZooKeeper clusters should use an odd number of nodes, how the majority quorum mechanism avoids split‑brain scenarios, and outlines practical solutions such as quorums, redundant communication, fencing, arbitration, and disk‑lock techniques to ensure reliable distributed coordination.

Split-BrainZookeeperdistributed systems

0 likes · 14 min read

How to Prevent ZooKeeper Split‑Brain: Best Practices and Fault‑Tolerance Strategies

Architects Research Society

Dec 30, 2020 · Fundamentals

Key Challenges in Designing Distributed Systems

Designing a distributed system involves overcoming major challenges such as heterogeneity, transparency, openness, concurrency, security, scalability, and fault tolerance, each requiring careful consideration of hardware, software, network, and management aspects to build robust, scalable, and secure architectures.

System Designdistributed systemsfault tolerance

0 likes · 9 min read

FunTester

Dec 12, 2020 · Operations

Why Redundancy Is the Key to Effective Disaster Recovery in IT Systems

The article explains that disaster recovery for information systems relies on redundancy across hardware, energy, and data, classifies natural, human, and technical disasters, defines critical metrics such as RTO and RPO, and outlines the technologies, architectures, and maturity levels needed to ensure business continuity.

Disaster RecoveryRPORTO

0 likes · 29 min read

Why Redundancy Is the Key to Effective Disaster Recovery in IT Systems

Architecture Digest

Dec 9, 2020 · Backend Development

Implementing Distributed Locks with Redis: Concepts, Algorithms, and Code Examples

This article explains how to implement distributed locks using Redis, covering the essential requirements of mutual exclusion, deadlock avoidance, and fault tolerance, detailing single‑instance and multi‑instance algorithms, code examples with SETNX and Lua scripts, and discussing challenges such as latency, crashes, and persistence.

Backend Developmentconcurrencyfault tolerance

0 likes · 10 min read

Implementing Distributed Locks with Redis: Concepts, Algorithms, and Code Examples

Manbang Technology Team

Nov 23, 2020 · Operations

Designing a Comprehensive Stability Assurance System for Large‑Scale Internet Services at Manbang

This article explains how Manbang built a rigorous stability‑assurance framework—including strict fault grading, a "watch‑and‑protect" system, blue‑green deployments, online pressure testing, fault‑drill platforms, and runtime metadata—to ensure rapid iteration while maintaining high availability for millions of logistics users.

fault tolerance

0 likes · 12 min read

Designing a Comprehensive Stability Assurance System for Large‑Scale Internet Services at Manbang

Tencent Cloud Developer

Nov 19, 2020 · Backend Development

Kafka Message Queue Reliability Design and Implementation

The article thoroughly explains Kafka’s message‑queue reliability design and implementation, covering use‑case scenarios, core concepts, storage format, producer acknowledgment settings, broker replication mechanisms (ISR, HW, LEO), consumer delivery semantics, the epoch solution for synchronization, and practical configuration guidelines for various consistency and availability requirements.

BrokerPartitionReliability

0 likes · 15 min read

Kafka Message Queue Reliability Design and Implementation

JavaEdge

Oct 24, 2020 · Databases

Mastering Redis Cluster: Scaling, Routing, and Fault Tolerance Explained

This article explains why Redis clusters are needed, how CLUSTER MEET builds the network, slot assignment, scaling procedures, client redirection mechanisms, batch operations, fault detection, recovery processes, and common operational pitfalls, providing practical guidance for building and maintaining a robust Redis Cluster deployment.

Redisclusterfault tolerance

0 likes · 22 min read

Mastering Redis Cluster: Scaling, Routing, and Fault Tolerance Explained

DevOps

Oct 20, 2020 · Cloud Computing

Chaos Monkey and the Simian Army: Building Resilient Cloud Systems

The article explains how Netflix uses Chaos Monkey and a suite of related tools, collectively called the Simian Army, to deliberately inject failures into their cloud infrastructure, continuously test fault‑tolerance, and ensure high availability and reliability for their streaming service.

NetflixOperationsSimian Army

0 likes · 7 min read

Chaos Monkey and the Simian Army: Building Resilient Cloud Systems

IT Architects Alliance

Oct 13, 2020 · Cloud Native

Designing Fault‑Tolerant Microservices Architecture

Microservice architectures increase system complexity and failure rates, so this article explains key reliability patterns—such as graceful degradation, change management, health checks, self‑healing, fallback caches, retry logic, rate limiting, circuit breakers, and testing—to help engineers design resilient, high‑availability services.

Cloud NativeMicroservicesOperations

0 likes · 23 min read

Architects' Tech Alliance

Oct 12, 2020 · Operations

Designing Resilient Microservices: Patterns for Fault Tolerance and Failure Management

This article examines the inherent risks of microservice architectures and presents practical patterns—such as graceful degradation, change management, health checks, self‑healing, fallback caching, retries, rate limiting, bulkheads, and circuit breakers—to build highly available, fault‑tolerant services.

MicroservicesResiliencebulkhead

0 likes · 15 min read

Designing Resilient Microservices: Patterns for Fault Tolerance and Failure Management

Top Architect

Oct 11, 2020 · Cloud Native

Using Hystrix for Fault Tolerance in Spring Cloud Microservices

This article explains how to integrate Netflix Hystrix into Spring Cloud applications to provide request timeout, circuit‑breaker, fallback, monitoring and resource isolation for microservice calls, including Maven setup, annotation usage, Feign client fallback configuration and disabling options.

FeignHystrixcircuit breaker

0 likes · 9 min read

Using Hystrix for Fault Tolerance in Spring Cloud Microservices

Architect

Oct 6, 2020 · Backend Development

Implementing Hystrix for Fault Tolerance in Spring Cloud Microservices

This article explains why microservice calls need fault‑tolerance mechanisms, introduces Hystrix’s core features such as timeouts, circuit‑breaker, fallback, monitoring and resource isolation, and provides step‑by‑step code examples for integrating Hystrix and Feign in a Spring Cloud project.

FeignHystrixJava

0 likes · 8 min read

Implementing Hystrix for Fault Tolerance in Spring Cloud Microservices

DataFunTalk

Oct 2, 2020 · Big Data

Single-Task Recovery in Flink: Design and Implementation for Real‑Time Stream Processing

This article describes ByteDance's single‑task recovery solution for Flink's real‑time computation, detailing the problem of global job restarts, the proposed network‑layer enhancements, upstream and downstream optimizations, JobManager restart strategy, implementation challenges, and the measurable latency and availability benefits achieved in production.

FlinkSingle-Task Recoveryfault tolerance

0 likes · 11 min read

Single-Task Recovery in Flink: Design and Implementation for Real‑Time Stream Processing

Xianyu Technology

Sep 27, 2020 · Backend Development

Design of an Asynchronous Component with Monitoring, Fault Tolerance, and Zero‑Cost Integration

The article presents a design for an asynchronous component that is monitorable, fault‑tolerant, and integrates with zero overhead, compares Akka, RxJava, and a custom JUC‑based implementation, and selects the latter—using extended Callables and a CountDownLatch—to track business units, handle timeouts, and provide fallback behavior.

AsynchronousJUCJava

0 likes · 8 min read

Design of an Asynchronous Component with Monitoring, Fault Tolerance, and Zero‑Cost Integration