Tagged articles

Failure Recovery

7 articles · Page 1 of 1

Jun 2, 2026 · Artificial Intelligence

Why State Boundaries and Failure Loops Are Crucial for Agent Reliability After Harness

The article argues that as agents move from short, single‑shot tasks to long‑running workflows, reliability depends less on model correctness and more on clear state boundaries, evidence trails, and failure‑recovery loops that prevent erroneous submissions and make outcomes auditable.

AI ReliabilityAgentFailure Recovery

0 likes · 20 min read

Why State Boundaries and Failure Loops Are Crucial for Agent Reliability After Harness

Machine Heart

May 24, 2026 · Artificial Intelligence

Proactive Failure Recovery: How AgentChord Embeds Recovery Actions into Robot Task Graphs

AgentChord, a system presented at RSS 2026, anticipates potential robot manipulation failures by embedding recovery actions directly into a structured task graph, enabling immediate low‑latency switches to pre‑compiled recovery branches and achieving up to 99.2% success in simulated tasks and 77.5% on real robots.

Failure RecoverySimulationlarge language model

0 likes · 13 min read

Proactive Failure Recovery: How AgentChord Embeds Recovery Actions into Robot Task Graphs

Architect-Kip

Oct 28, 2025 · Operations

Mastering Failure Recovery: Fast‑Fail, Auto‑Retry, and Resilience Patterns for Distributed Systems

This guide outlines core principles and practical solutions for building resilient backend systems, covering fast‑failure handling, automatic retries with exponential back‑off, circuit‑breaker usage, idempotency, batch job strategies, online transaction patterns, and robust message‑queue processing.

Batch ProcessingFailure RecoveryMessage Queue

0 likes · 17 min read

Mastering Failure Recovery: Fast‑Fail, Auto‑Retry, and Resilience Patterns for Distributed Systems

政采云技术

Aug 2, 2022 · Fundamentals

Understanding the Chandy‑Lamport Distributed Snapshot Algorithm

This article explains the Chandy‑Lamport algorithm for capturing consistent global snapshots in distributed systems, describes its assumptions and message‑marker rules, walks through a detailed example with three processes and channels, and relates it to Apache Flink's asynchronous checkpoint mechanism.

Apache FlinkChandy-LamportFailure Recovery

0 likes · 14 min read

Understanding the Chandy‑Lamport Distributed Snapshot Algorithm

dbaplus Community

Apr 10, 2022 · Databases

Designing a High‑Performance Distributed KV Store for B‑Station

This article details the background, architecture, core features, and operational practices of a custom high‑reliability, high‑throughput key‑value storage system that combines Raft replication, flexible partitioning, binlog support, bulk loading, and multi‑active deployment for B‑Station's diverse data workloads.

BinlogFailure RecoveryRaft replication

0 likes · 22 min read

Designing a High‑Performance Distributed KV Store for B‑Station

Bilibili Tech

Mar 11, 2022 · Databases

Design and Architecture of Bilibili's High‑Performance Distributed KV Store

Bilibili’s high‑performance distributed KV store combines hash and range partitioning, Raft‑based multi‑replica consistency, and a Metaserver‑managed topology of pools, zones, nodes, tables, shards and replicas, offering features such as partition splitting, binlog streaming, multi‑active replication, bulk loading, KV‑storage separation, and automated load, leader and health balancing for reliable, scalable data services.

Distributed storageFailure RecoveryRaft consensus

0 likes · 22 min read

Design and Architecture of Bilibili's High‑Performance Distributed KV Store

NetEase Game Operations Platform

Jan 4, 2020 · Operations

Ceph Storage Failure Recovery: Analysis and Step‑by‑Step Procedures

This article describes a real‑world Ceph storage incident caused by disk bad sectors, analyzes its impact, and presents two practical recovery methods—full disk copy with dd+nc and skipping the faulty sector during service start—along with detailed commands and post‑recovery steps.

CephFailure RecoveryLinux

0 likes · 11 min read

Ceph Storage Failure Recovery: Analysis and Step‑by‑Step Procedures