Tagged articles

Operations

3329 articles · Page 14 of 34

Nov 27, 2022 · Operations

Best Practices for Full‑Stack Operations Monitoring and Cost Reduction Using Alibaba Cloud Elasticsearch

This article presents a comprehensive, three‑part guide on the current state of full‑stack operations monitoring, common challenges and solutions, and a real‑world use case, illustrating how Alibaba Cloud Elasticsearch can improve observability, boost performance, and cut costs for complex distributed systems.

AIOpsCloudCost Optimization

0 likes · 13 min read

Best Practices for Full‑Stack Operations Monitoring and Cost Reduction Using Alibaba Cloud Elasticsearch

DataFunTalk

Nov 25, 2022 · Operations

Overview of Volcano Engine A/B Experiment System Platform

This article presents a comprehensive overview of Volcano Engine's A/B testing platform, detailing its four core stages—reliable experiment system, efficient data construction, scientific statistical analysis, and fine-grained governance—while explaining execution components, data pipelines, statistical methods, and operational best practices for large‑scale experimentation.

A/B testingBig DataExperiment Platform

0 likes · 16 min read

Overview of Volcano Engine A/B Experiment System Platform

Rare Earth Juejin Tech Community

Nov 23, 2022 · Operations

Front‑end Operations: Common Build Issues and DevOps Practices

This article explores the unique challenges of front‑end operations, outlines typical build failures caused by dependency, environment, and permission mismatches, and proposes Docker‑based DevOps solutions to streamline development, testing, and production workflows for full‑stack teams.

CI/CDDockerFront-end

0 likes · 8 min read

Front‑end Operations: Common Build Issues and DevOps Practices

HelloTech

Nov 22, 2022 · Operations

Guidelines for Incident Postmortem and Fault Review

The incident postmortem guideline advocates a dialectical view of failures, rapid low‑severity recovery, and a structured process—covering background, impact scope, timeline replay, deep root‑cause analysis, SMART improvement actions, responsibility assignment, and PDCA‑validated closure—to enhance system resilience, team anti‑fragility, and knowledge sharing.

High AvailabilityMTBFMTTR

0 likes · 15 min read

Guidelines for Incident Postmortem and Fault Review

Liangxu Linux

Nov 20, 2022 · Operations

Master Linux Backup with tar: Incremental, Split, and Restore Techniques

This guide explains how to use the powerful Linux tar command for full and incremental backups, including common options, exclusion patterns, splitting large archives, automated scheduling with cron, and reliable restoration of files and entire filesystems.

LinuxOperationsbackup

0 likes · 9 min read

Master Linux Backup with tar: Incremental, Split, and Restore Techniques

High Availability Architecture

Nov 18, 2022 · Backend Development

Microservice Architecture: Benefits, Pitfalls, and Lessons Learned from a Data‑Service Company

An in‑depth case study of a data‑service company's transition to microservices details the initial benefits such as visibility and reduced deployment cost, the subsequent problems of queue head blocking, shared‑library versioning, scaling complexity, and the eventual trade‑offs that led to a partial monolith rollback.

Operationsarchitecturebackend

0 likes · 10 min read

Microservice Architecture: Benefits, Pitfalls, and Lessons Learned from a Data‑Service Company

Efficient Ops

Nov 16, 2022 · Operations

Building a 99.95% Uptime Cloud‑Native Platform: Guoxin Securities’ Ops Journey

Guoxin Securities’ QianKun centralized operation platform showcases a cloud‑native, micro‑service architecture that achieved 99.95% availability through containerization, multi‑region deployment, AI‑driven capacity forecasting, and comprehensive DevOps practices, offering a 24/7 seamless account‑opening experience and setting industry benchmarks.

AIOpsOperationscloud-native

0 likes · 14 min read

Building a 99.95% Uptime Cloud‑Native Platform: Guoxin Securities’ Ops Journey

Architects Research Society

Nov 16, 2022 · Operations

Understanding Business Process Maturity Models and Their Practical Use

This article explains what maturity models are, why they matter for evaluating and improving organizational processes, reviews common business process maturity models (BPMM) and their limitations, introduces the Capability Maturity Model (CMM) and the Agile ISO Maturity Model (AIMM), and offers guidance on selecting and applying a suitable model.

AIMMCMMIOperations

0 likes · 18 min read

Understanding Business Process Maturity Models and Their Practical Use

Xiaohe Frontend Team

Nov 14, 2022 · Operations

How to Classify and Prioritize Online Incidents for Better System Stability

Effective incident management begins with clear classification; this guide explains how technical leaders can categorize online failures by nature, severity, and source—distinguishing usability versus financial loss incidents, ranking P0‑P3 levels, and identifying external, operational, product, and system‑quality fault types—to improve stability and learning.

Operationsfault classificationsystem stability

0 likes · 4 min read

How to Classify and Prioritize Online Incidents for Better System Stability

DevOps Coach

Nov 14, 2022 · Operations

Inside Google’s Retired File Server Backend: Exploring the Main Directory

This case study examines how Google decommissioned its legacy file‑server backend, focusing on the design, management, and migration of the main directory, and highlights the operational lessons and SRE practices that ensured a smooth transition without service disruption.

Case StudyFile ServerGoogle SRE

0 likes · 2 min read

Inside Google’s Retired File Server Backend: Exploring the Main Directory

Zuoyebang Tech Team

Nov 14, 2022 · Cloud Native

How We Built a Multi‑Cloud, Multi‑Active Architecture at Zuoyebang

This article details Zuoyebang's journey from a single‑cloud setup to a multi‑cloud, multi‑active architecture, covering business drivers, design principles, network planning, compute and storage strategies, traffic scheduling, container migration, operational management, and the measurable cost, stability, and efficiency benefits achieved.

Multi-CloudOperationsarchitecture

0 likes · 19 min read

How We Built a Multi‑Cloud, Multi‑Active Architecture at Zuoyebang

DevOps Cloud Academy

Nov 13, 2022 · Operations

An Introduction to Apache Airflow: Features and Benefits of Digital Workflow Management

This article explains why modern organizations replace manual cron jobs with automated digital workflow management using Apache Airflow, detailing its troubleshooting, flexibility, monitoring, rich web UI, CLI/API, complex dependency handling, scalability, containerization, and extensibility through plugins and integrations.

Apache AirflowOperationsWorkflow Automation

0 likes · 9 min read

An Introduction to Apache Airflow: Features and Benefits of Digital Workflow Management

Efficient Ops

Nov 10, 2022 · Operations

How Liaoning Mobile Won the DevOps Team Award: Inside Their Agile Transformation

The article details Liaoning Mobile's award-winning DevOps transformation, describing the team's background, agile implementation, toolchain construction, challenges faced, system highlights, and measurable results that earned them the prestigious Communication Industry DevOps Team Award at the 2022 GOITI ceremony.

AgileCase StudyOperations

0 likes · 8 min read

How Liaoning Mobile Won the DevOps Team Award: Inside Their Agile Transformation

DevOps Cloud Academy

Nov 9, 2022 · Operations

Understanding Software Deployment Pipelines, CI/CD, and Release Strategies

This article explains software delivery pipelines, covering their components, deployment stages, continuous integration and delivery practices, and release strategies such as blue/green and canary deployments, highlighting how automation improves reliability and reduces risk.

CI/CDDeployment PipelineOperations

0 likes · 8 min read

Understanding Software Deployment Pipelines, CI/CD, and Release Strategies

Alibaba Cloud Native

Nov 9, 2022 · Cloud Native

13 Common Kubernetes Pod Failures and How to Diagnose Them

This article outlines the Kubernetes pod lifecycle, describes the five pod phases, enumerates 13 typical failure scenarios—including scheduling, image pull, dependency, init container, probe, and OOM issues—provides error states, root causes, and step‑by‑step kubectl commands for diagnosis and remediation.

KubernetesOperationsTroubleshooting

0 likes · 22 min read

13 Common Kubernetes Pod Failures and How to Diagnose Them

Aikesheng Open Source Community

Nov 9, 2022 · Databases

TiDB Rolling Upgrade Process Using TiUP: Detailed Steps and Code References

This article explains the TiDB rolling upgrade method, describing TiDB's architecture, key components, relevant terminology, the TiUP tool, and a step‑by‑step core upgrade workflow with code snippets and configuration adjustments to minimize service interruption.

OperationsRolling UpgradeTiDB

0 likes · 9 min read

TiDB Rolling Upgrade Process Using TiUP: Detailed Steps and Code References

Efficient Ops

Nov 8, 2022 · Operations

Diagnosing High Load with Low CPU on Linux: Tools and Tips

This guide explains how to analyze and troubleshoot situations where Linux systems show high load averages despite low CPU usage, covering common load analysis methods, key commands like top, vmstat, iostat, sar, and ps, and practical solutions for I/O bottlenecks and D‑state processes.

CPULinuxLoad

0 likes · 11 min read

Diagnosing High Load with Low CPU on Linux: Tools and Tips

Architects Research Society

Nov 8, 2022 · Operations

Changing the Cost‑Center Mindset: Insights from Novant Health’s CIO Angela Yochem

In this interview, Novant Health’s Executive Vice President and Chief Transformation & Digital Officer Angela Yochem explains how CIOs must shift the narrative from viewing IT as a cost center to recognizing its essential role in digital health operations, new revenue streams, and strategic business growth.

CIOOperationsbusiness value

0 likes · 10 min read

Changing the Cost‑Center Mindset: Insights from Novant Health’s CIO Angela Yochem

21CTO

Nov 8, 2022 · Operations

Building a Billion‑User Membership System: ES, Redis & MySQL High‑Availability

This article details how a large‑scale membership platform achieves high performance and near‑zero downtime by employing dual‑center Elasticsearch clusters, traffic‑isolated ES architectures, deep ES optimizations, Redis caching with distributed locks, and a seamless MySQL migration with partitioned, dual‑center databases.

High AvailabilityOperationsRedis

0 likes · 20 min read

Building a Billion‑User Membership System: ES, Redis & MySQL High‑Availability

macrozheng

Nov 8, 2022 · Operations

Choosing the Right Open‑Source Monitoring System: Zabbix, Open‑Falcon, Prometheus

This article provides a systematic overview of monitoring fundamentals, compares three popular open‑source monitoring solutions—Zabbix, Open‑Falcon, and Prometheus—and offers practical guidance for selecting the most suitable system based on scale, features, and operational needs.

Open-FalconOperationsPrometheus

0 likes · 21 min read

Choosing the Right Open‑Source Monitoring System: Zabbix, Open‑Falcon, Prometheus

dbaplus Community

Nov 7, 2022 · Operations

Automating Fault Self‑Healing: A Practical Guide for Operations Teams

This article explains why disk‑space alerts demand automated handling, introduces the concept of fault self‑healing, outlines required process standards, describes monitoring platform dimensions, details a multi‑source self‑healing platform architecture, and offers practical steps for integration, notification, and continuous improvement.

CMDBOperationsfault self-healing

0 likes · 9 min read

Automating Fault Self‑Healing: A Practical Guide for Operations Teams

Efficient Ops

Nov 7, 2022 · Operations

Essential Redis Monitoring Metrics and Commands for Effective Operations

This guide details key Redis monitoring metrics—including performance, memory, activity, persistence, and error indicators—along with practical commands, configuration settings, and code snippets to help operators efficiently track and troubleshoot Redis instances.

LinuxOperationsPerformance

0 likes · 6 min read

Essential Redis Monitoring Metrics and Commands for Effective Operations

Efficient Ops

Nov 6, 2022 · Operations

Visualizing Business‑Process Monitoring with Grafana, Diagram & FlowCharting

This article examines the evolution of a monitoring platform, identifies key challenges such as alarm overload and fragmented data, and presents a solution that combines Grafana with Diagram and FlowCharting plugins to create business‑process‑oriented, data‑driven visualizations for faster issue resolution.

FlowChartingGrafanaMermaid

0 likes · 10 min read

Visualizing Business‑Process Monitoring with Grafana, Diagram & FlowCharting

MaGe Linux Operations

Nov 6, 2022 · Cloud Native

How to Safely Shut Down and Restart a Kubernetes Cluster

This guide walks you through the essential steps, commands, and precautions for safely draining nodes, backing up applications, CRDs, and etcd, then shutting down and later restarting a Kubernetes cluster while avoiding common pitfalls.

Cluster MaintenanceEtcdKubernetes

0 likes · 6 min read

How to Safely Shut Down and Restart a Kubernetes Cluster

Architects Research Society

Nov 4, 2022 · Fundamentals

eBay Scalability Best Practices: Functional Partitioning, Horizontal Sharding, Async Decoupling, and More

This article outlines eBay's key scalability best practices—including functional decomposition, horizontal sharding, avoiding distributed transactions, asynchronous decoupling, virtualization, and intelligent caching—to demonstrate how large‑scale web systems can achieve linear resource growth and high availability.

CachingOperationsSharding

0 likes · 14 min read

eBay Scalability Best Practices: Functional Partitioning, Horizontal Sharding, Async Decoupling, and More

Model Perspective

Nov 2, 2022 · Operations

How to Succeed Solo in Math Modeling Competitions: Strategies and Preparation

This guide examines the challenges and benefits of competing alone in mathematical modeling contests and offers practical pre‑competition and in‑competition preparation tips to help solo participants manage workload, maintain motivation, and produce a complete, well‑written solution.

OperationsStrategymath modeling

0 likes · 6 min read

How to Succeed Solo in Math Modeling Competitions: Strategies and Preparation

Architect's Guide

Nov 1, 2022 · Operations

Implementing Load Balancing with Nginx and SpringBoot

This article explains how to achieve load balancing using Nginx, covering the concepts of hardware and software load balancers, various Nginx balancing algorithms with configuration examples, and a step‑by‑step guide to integrate Nginx with a SpringBoot application, test it, and handle common pitfalls.

NginxOperationsSpringBoot

0 likes · 8 min read

Implementing Load Balancing with Nginx and SpringBoot

Efficient Ops

Oct 31, 2022 · Operations

Key Takeaways from the 2022 GOPS Global Operations Conference Shanghai – DevOps, AIOps & Cloud Insights

The two‑day 2022 GOPS Global Operations Conference in Shanghai featured 16 tracks, over 80 speakers, new DevOps standards, extensive assessment results, and a wealth of sessions on DevOps, AIOps, cloud‑native practices, security, and industry case studies, offering a comprehensive snapshot of modern operations engineering.

AIOpsOperationsassessment

0 likes · 14 min read

Key Takeaways from the 2022 GOPS Global Operations Conference Shanghai – DevOps, AIOps & Cloud Insights

DevOps Cloud Academy

Oct 31, 2022 · Operations

Rolling Deployment Strategy: Advantages, Disadvantages, and Considerations

The rolling deployment strategy incrementally replaces old application instances with new ones, allowing users to encounter both versions during rollout, and is praised for ease of implementation, low risk, and default support in platforms like Kubernetes, though it can be slow, costly for large infrastructures, and may affect user experience.

Deployment StrategyKubernetesOperations

0 likes · 2 min read

Rolling Deployment Strategy: Advantages, Disadvantages, and Considerations

Efficient Ops

Oct 31, 2022 · Operations

How China Minsheng Bank Achieved Advanced DevOps Maturity – A Deep Dive

China Minsheng Bank’s centralized operation business processing system passed the Level 2 technical operation assessment of the national DevOps maturity model, showcasing how standardized DevOps practices, continuous delivery pipelines, and cross‑team collaboration can boost efficiency, safety, and competitiveness in the banking sector.

Case StudyChinaMaturity Model

0 likes · 10 min read

How China Minsheng Bank Achieved Advanced DevOps Maturity – A Deep Dive

Ops Development Stories

Oct 31, 2022 · Information Security

Essential Security Checklist for Ops: From Port Hardening to Data Protection

This article shares practical security best practices for operations teams, covering why security is often overlooked, real incident examples, and detailed guidelines on port hardening, system hardening (login management, vulnerability scanning, baseline checks), application, network, and data protection, emphasizing continuous investment and simple safeguards.

Best PracticesInformation SecurityOperations

0 likes · 8 min read

Essential Security Checklist for Ops: From Port Hardening to Data Protection

Open Source Linux

Oct 30, 2022 · Operations

Unlock Kubernetes Insights: Master Event Types, Monitoring, and Alerting

This guide explains what Kubernetes events are, how to list and filter them, categorizes common event types, and shows practical ways to collect, store, and alert on events using native commands and open‑source tools, helping teams reduce alert fatigue and improve cluster observability.

AlertingEventsKubernetes

0 likes · 11 min read

Unlock Kubernetes Insights: Master Event Types, Monitoring, and Alerting

Efficient Ops

Oct 28, 2022 · Operations

How Liaoning Mobile Achieved Leading‑Edge DevOps with a Level‑3 Continuous Delivery Assessment

Liaoning Mobile’s Channel Management System project passed the CAICT DevOps Capability Maturity Model Level‑3 continuous delivery assessment, showcasing how standardized DevOps practices, toolchains, and agile transformation boosted delivery speed, team capability, and operational efficiency, positioning the carrier at the forefront of China’s digital transformation.

AgileCase StudyIT transformation

0 likes · 15 min read

How Liaoning Mobile Achieved Leading‑Edge DevOps with a Level‑3 Continuous Delivery Assessment

Ziru Technology

Oct 28, 2022 · Operations

Why Feature Environments Fail and How to Build a Reliable One

This article analyzes the difficulties of initializing stable environments, the poor usability and low reliability of feature environments, proposes concrete solutions such as unified test environments, streamlined creation workflows, middleware adjustments, testing and documentation, and shares practical reflections from real deployments.

DeploymentMiddlewareOperations

0 likes · 12 min read

Why Feature Environments Fail and How to Build a Reliable One

dbaplus Community

Oct 25, 2022 · Operations

How a Government System’s Week‑Long Outage Exposed Critical Backend and Load‑Balancing Flaws

A government information system suffered a week of instability, including service deadlocks, Tomcat memory overflows, and load‑balancing failures, prompting a deep forensic analysis that uncovered database lock‑ups, faulty front‑end loops, inadequate monitoring, and misconfigured logging, leading to concrete remediation steps and lessons for future reliability.

Operationsincident analysisload balancing

0 likes · 21 min read

How a Government System’s Week‑Long Outage Exposed Critical Backend and Load‑Balancing Flaws

Zuoyebang Tech Team

Oct 21, 2022 · Cloud Computing

How We Built a Resilient Multi‑Cloud Network: Lessons from Three Evolution Phases

This article details the step‑by‑step evolution of a multi‑cloud network at Zuoyebang, covering three construction phases, quality‑improvement measures such as fault prevention and rapid recovery, and ongoing operational governance that together deliver a flexible, high‑availability cloud infrastructure.

BGPCPECloud Computing

0 likes · 16 min read

How We Built a Resilient Multi‑Cloud Network: Lessons from Three Evolution Phases

Alibaba Cloud Developer

Oct 20, 2022 · Cloud Native

Why Kubernetes Remains Complex and How Serverless Designs Aim to Simplify It

The article examines the inherent and accidental complexities of Kubernetes as a distributed cluster manager, discusses challenges in resource scheduling, infrastructure diversity, and operational overhead, and explores how cloud‑native solutions such as managed services, nodeless and serverless Kubernetes architectures attempt to reduce these complexities while introducing new trade‑offs.

KubernetesOperationsResource Scheduling

0 likes · 18 min read

Why Kubernetes Remains Complex and How Serverless Designs Aim to Simplify It

Cloud Native Technology Community

Oct 19, 2022 · Industry Insights

What Sets Platform Engineering Apart from DevOps and SRE?

The article clarifies the distinctions between platform engineering, DevOps, and SRE, explaining their origins, common misconceptions, challenges such as shadow operations and developer cognitive load, and how platform engineering builds on these practices to deliver self‑service internal developer platforms that improve productivity and reliability.

Internal Developer PlatformOperationsPlatform Engineering

0 likes · 10 min read

What Sets Platform Engineering Apart from DevOps and SRE?

Top Architect

Oct 18, 2022 · Backend Development

Nginx Configuration Guide: HTTP Server, Static Files, Reverse Proxy, Load Balancing and Advanced Directives

This comprehensive guide explains how to configure Nginx as an HTTP server, static file server, reverse proxy, and load balancer, covering directory setup, location matching rules, priority order, upstream strategies, and useful directives such as return, rewrite, error_page, logging and access control.

NginxOperationsReverse Proxy

0 likes · 17 min read

Nginx Configuration Guide: HTTP Server, Static Files, Reverse Proxy, Load Balancing and Advanced Directives

DevOps

Oct 17, 2022 · Operations

Platform Engineering: Bridging Developers and Infrastructure Beyond DevOps

The article examines platform engineering as a discipline that unifies developers' desire to avoid infrastructure work with enterprises' need for control, critiques the hype around DevOps, and argues that effective internal developer platforms require solid fundamentals, IaC practices, and cultural change.

IaCInternal Developer PlatformOperations

0 likes · 7 min read

Platform Engineering: Bridging Developers and Infrastructure Beyond DevOps

Cloud Native Technology Community

Oct 17, 2022 · Cloud Native

A Three‑Step Approach to Understanding, Managing, and Preventing Kubernetes Failures

This article presents a practical three‑step methodology—understanding, managing, and preventing—to troubleshoot Kubernetes deployments, explains how to leverage monitoring, observability, and incident‑response tools, and offers guidance on fostering team collaboration and building resilient, self‑healing cloud‑native systems.

KubernetesObservabilityOperations

0 likes · 7 min read

A Three‑Step Approach to Understanding, Managing, and Preventing Kubernetes Failures

Efficient Ops

Oct 16, 2022 · Operations

How Chinese Banks Accelerate IT Efficiency with DevOps Maturity Models

This article reports how 21 Chinese banking institutions evaluated 82 projects using the CAICT-led DevOps Capability Maturity Model, detailing the breakdown across state‑owned, joint‑stock, and city commercial banks, and explains the model’s standards and industry impact.

IT efficiencyMaturity ModelOperations

0 likes · 6 min read

How Chinese Banks Accelerate IT Efficiency with DevOps Maturity Models

MaGe Linux Operations

Oct 15, 2022 · Operations

Why Developers Hate Ops: Is DevOps Dead and Is Platform Engineering the Future?

The article examines growing developer frustration with operational responsibilities, the perceived decline of DevOps, and how platform engineering and Site Reliability Engineering are emerging as new approaches to balance development speed with reliable operations in cloud‑native environments.

OperationsPlatform EngineeringSRE

0 likes · 10 min read

Why Developers Hate Ops: Is DevOps Dead and Is Platform Engineering the Future?

Top Architect

Oct 15, 2022 · Backend Development

Designing Fault‑Tolerant Microservices: Patterns and Practices

The article explains how microservice architectures can achieve high availability by isolating failures, employing graceful degradation, change‑management strategies, health checks, fallback caching, retry logic, rate limiting, circuit breakers, and chaos testing, while acknowledging the added complexity and cost of such reliability engineering.

OperationsReliabilitybackend

0 likes · 13 min read

Designing Fault‑Tolerant Microservices: Patterns and Practices

Big Data Technology Architecture

Oct 15, 2022 · Operations

The Rise of Platform Engineering: From DevOps Frustrations to Internal Developer Platforms

This article explains how platform engineering emerges from DevOps frustrations, defining internal developer platforms, outlining their principles, benefits, and implementation guidelines, and showing why organizations should adopt them to reduce cognitive load and improve developer productivity.

Internal Developer PlatformOperationsPlatform Engineering

0 likes · 11 min read

The Rise of Platform Engineering: From DevOps Frustrations to Internal Developer Platforms

Architecture and Beyond

Oct 15, 2022 · Operations

Technical Cost Optimization and Fine‑Grained Operations: Strategies, Processes, and Best Practices

This article provides a comprehensive guide for technical leaders on reducing and managing technology costs through a two‑stage approach of cost optimization and fine‑grained operations, covering team formation, current‑state analysis, discount and storage tactics, project planning, communication, and long‑term process and system support.

Cloud ComputingCost OptimizationOperations

0 likes · 27 min read

Technical Cost Optimization and Fine‑Grained Operations: Strategies, Processes, and Best Practices

Efficient Ops

Oct 13, 2022 · Operations

How China’s Telecom Leaders Boost IT Efficiency Using the DevOps Maturity Model

Across China’s telecom sector, leading operators such as China Mobile, China Unicom, and China Telecom have leveraged the CAICT‑led DevOps Capability Maturity Model to assess dozens of projects, achieving faster delivery cycles, higher automation, standardized interfaces, and improved IT efficiency through continuous delivery, technical operation, and system‑tool integration.

Maturity ModelOperationsTelecom

0 likes · 14 min read

How China’s Telecom Leaders Boost IT Efficiency Using the DevOps Maturity Model

Efficient Ops

Oct 13, 2022 · Operations

How Leading Chinese Insurers Achieved DevOps Maturity: Real-World Case Studies

This article reviews how three major Chinese insurance companies applied the CAICT DevOps Capability Maturity Model to improve IT efficiency, integrate resources, and support business systems, highlighting project details, architectural innovations, and measurable outcomes across continuous delivery, technology operations, and risk management.

Case StudyInsuranceMaturity Model

0 likes · 8 min read

How Leading Chinese Insurers Achieved DevOps Maturity: Real-World Case Studies

Efficient Ops

Oct 12, 2022 · Operations

How Chinese Banks Accelerate IT Efficiency with DevOps Maturity Assessments

This article reviews how leading Chinese banks and financial institutions have adopted the CAICT DevOps Capability Maturity Model, detailing their assessment results across continuous delivery, technical operations, security, and tooling standards, and highlighting the operational benefits achieved.

IT efficiencyMaturity ModelOperations

0 likes · 16 min read

How Chinese Banks Accelerate IT Efficiency with DevOps Maturity Assessments

Efficient Ops

Oct 12, 2022 · Operations

How China’s State Banks Achieved Top DevOps Maturity: Real‑World Case Studies

This article reviews how major Chinese state‑owned banks applied the China Information Communication Research Institute's DevOps Capability Maturity Model, detailing assessment results, project implementations, and performance improvements across continuous delivery, security, and system tooling, offering valuable insights for enterprises pursuing DevOps transformation.

Case StudyMaturity ModelOperations

0 likes · 18 min read

How China’s State Banks Achieved Top DevOps Maturity: Real‑World Case Studies

Efficient Ops

Oct 12, 2022 · Operations

How China’s Leading Banks Accelerate IT Efficiency with DevOps Maturity Assessments

This article reviews how major Chinese joint‑stock banks have adopted the CAICT‑led DevOps Capability Maturity Model, detailing the number of evaluated projects, specific case studies, and the model’s industry‑wide significance for digital transformation and operational excellence.

Capability MaturityCase StudyOperations

0 likes · 16 min read

How China’s Leading Banks Accelerate IT Efficiency with DevOps Maturity Assessments

Java High-Performance Architecture

Oct 10, 2022 · Operations

Master Nginx Load Balancing: Strategies, Configurations, and SpringBoot Integration

This guide explains Nginx load balancing concepts, compares hardware and software approaches, details various balancing algorithms with configuration examples, and shows how to integrate Nginx with SpringBoot for practical load‑balancing tests and deployment tips.

NginxOperationsbackend

0 likes · 10 min read

Master Nginx Load Balancing: Strategies, Configurations, and SpringBoot Integration

dbaplus Community

Oct 8, 2022 · Operations

Designing High‑Availability Internet Architecture: Redundancy and Automatic Failover

This article explains how to achieve high availability in internet systems by layering architecture, using redundancy and automatic failover across access, proxy, microservice, middleware, and storage components, and discusses practical techniques, common pitfalls, and operational safeguards for resilient services.

Automatic FailoverOperationsload balancing

0 likes · 19 min read

Designing High‑Availability Internet Architecture: Redundancy and Automatic Failover

DevOps Cloud Academy

Oct 5, 2022 · Operations

Deming's Fourteen Points of Quality Management

The article outlines Deming's fourteen fundamental principles for quality management, emphasizing a permanent purpose of improvement, a new philosophy, eliminating reliance on inspection, fostering continuous improvement, modern training and supervision, breaking departmental barriers, and establishing top‑level leadership to drive ongoing innovation.

DemingLeadershipOperations

0 likes · 7 min read

Deming's Fourteen Points of Quality Management

Liangxu Linux

Oct 2, 2022 · Operations

Essential Linux Ops Practices: Prevent Disasters and Boost Stability

Drawing from three and a half years of Linux operations, this guide outlines practical standards for testing, confirming commands, avoiding concurrent edits, mandatory backups, data safety, security hardening, continuous monitoring, performance tuning, and the right mindset to keep production environments stable and secure.

Best PracticesLinuxOperations

0 likes · 12 min read

Essential Linux Ops Practices: Prevent Disasters and Boost Stability

Architects Research Society

Sep 28, 2022 · Operations

The 13 Most Difficult IT Roles to Fill in 2021: Insights from the CIO Survey

The 2021 CIO Survey reveals that organizations worldwide are struggling to fill cybersecurity, artificial intelligence, and data analytics positions, with remote work expanding the talent pool but still leaving critical roles hard to staff, highlighting the need for strategic prioritization and new hiring approaches.

AI recruitmentCIO surveyCloud Services

0 likes · 14 min read

The 13 Most Difficult IT Roles to Fill in 2021: Insights from the CIO Survey

dbaplus Community

Sep 27, 2022 · Operations

How to Build a Scalable Rate‑Limiting System with Kong in Cloud‑Native Operations

This article outlines a comprehensive, cloud‑native rate‑limiting solution using Kong gateway, covering background challenges, design considerations, multi‑layer architecture, plugin development, CI/CD workflow, deployment strategies, and operational best practices to achieve low cost, high efficiency, and high quality across diverse projects.

CI/CDKongOperations

0 likes · 24 min read

How to Build a Scalable Rate‑Limiting System with Kong in Cloud‑Native Operations

Aikesheng Open Source Community

Sep 27, 2022 · Operations

Refactoring Alertmanager: Reducing Noise, Improving Escalation, Suppression, and Silence Management

This article shares practical experiences and solutions for improving an Alertmanager‑based alert system, addressing problems such as noisy alerts, lack of escalation, missing recovery notifications, suppression limitations, and cumbersome silence management by redesigning architecture, adding custom scripts, and extending database support.

AlertingAlertmanagerOperations

0 likes · 19 min read

Refactoring Alertmanager: Reducing Noise, Improving Escalation, Suppression, and Silence Management

DevOps Cloud Academy

Sep 26, 2022 · Operations

Using Jenkins Deploy Dashboard Plugin for Visual Deployment Management

This article explains how to install and configure the Deploy Dashboard plugin in Jenkins to visualize deployment versions across environments, add deployment information via pipeline code, create custom dashboard views, and add quick‑deploy buttons for streamlined CI/CD operations.

AutomationCI/CDDeploy Dashboard

0 likes · 5 min read

Using Jenkins Deploy Dashboard Plugin for Visual Deployment Management

NetEase Yanxuan Technology Product Team

Sep 26, 2022 · Operations

How to Tame Alert Storms: Building a Systematic Monitoring and Alerting Framework for Microservices

This article analyzes the challenges of alert overload in large‑scale microservice environments and presents a systematic approach—including timeliness metrics, a maturity model, lifecycle tracking, feedback loops, downgrade mechanisms, and cross‑service aggregation—to improve alert effectiveness and reduce noise.

Alert ManagementMTTROperations

0 likes · 16 min read

How to Tame Alert Storms: Building a Systematic Monitoring and Alerting Framework for Microservices

dbaplus Community

Sep 25, 2022 · Operations

How to Achieve Zero‑Downtime Application Deployments with Spring Boot and Eureka

This article explains why zero‑downtime releases are essential for modern services, defines three maturity levels, compares common release patterns, outlines the required technical components, and provides step‑by‑step Spring Boot/Eureka procedures—including configuration and graceful‑shutdown scripts—to keep applications available during deployment.

DeploymentOperationsZero Downtime

0 likes · 20 min read

How to Achieve Zero‑Downtime Application Deployments with Spring Boot and Eureka

FunTester

Sep 25, 2022 · Databases

Data Migration Scenarios, Testing, and Acceptance Guidelines

This article outlines common data migration scenarios such as system consolidation and database sharding, details analysis of user data before migration, discusses conflict resolution rules, presents migration planning and acceptance testing steps, and highlights post‑release monitoring and user feedback handling.

Data MigrationOperationsTesting

0 likes · 7 min read

Data Migration Scenarios, Testing, and Acceptance Guidelines

Code Ape Tech Column

Sep 24, 2022 · Operations

Overview of Redis Monitoring, Data Migration, and Cluster Management Tools

This article introduces essential Redis operational tools, covering real‑time monitoring with the INFO command and Prometheus‑exporter, data migration using Redis‑shake, consistency checking via Redis‑full‑check, and cluster management through CacheCloud, providing practical guidance for administrators.

Data MigrationOperationsPrometheus

0 likes · 10 min read

Overview of Redis Monitoring, Data Migration, and Cluster Management Tools

58UXD

Sep 22, 2022 · Product Management

How 58 Recruitment Built a Unified Brand Experience with Design Standardization

This article explains how 58 Recruitment’s design team created a consistent brand feel across multiple online hiring events by using user insights, clear positioning, standardized visual principles, and a modular template system that speeds up design, development, and deployment while enhancing user perception.

OperationsProduct ManagementUX

0 likes · 10 min read

Huolala Tech

Sep 22, 2022 · Operations

How HuoLala Engineered a Scalable, High‑Availability Monitoring System for Multi‑Cloud

This article details the evolution of monitoring technologies, HuoLala's three‑phase monitoring architecture, the integration of Prometheus, VictoriaMetrics and SkyWalking, zero‑intrusion bytecode instrumentation, full‑link trace sampling, visual dashboards, metric‑trace‑log correlation, and future plans for root‑cause analysis and intelligent alerting.

CloudOperationsTracing

0 likes · 24 min read

How HuoLala Engineered a Scalable, High‑Availability Monitoring System for Multi‑Cloud

HelloTech

Sep 21, 2022 · Operations

Inside Haro’s Two‑Wheeler Scheduling: From Real‑World Challenges to a Simulation Platform

This article analyzes Haro’s two‑wheeler dispatch problem, compares it with food‑delivery and ride‑hailing scheduling, outlines eight technical challenges, presents a multi‑fast‑good‑cheap algorithm framework, and details a simulation system that validates and improves the scheduling solution.

OperationsSchedulingSimulation

0 likes · 17 min read

Inside Haro’s Two‑Wheeler Scheduling: From Real‑World Challenges to a Simulation Platform

dbaplus Community

Sep 18, 2022 · Operations

How to Identify and Manage High‑Risk Linux Commands Across System, Database, and Big Data Environments

This article categorizes Linux high‑risk commands, explains why a blanket ban is unsuitable, and offers practical handling, monitoring, and bastion‑host strategies to protect data across system, database, and big‑data operations.

LinuxOperationsbastion host

0 likes · 3 min read

How to Identify and Manage High‑Risk Linux Commands Across System, Database, and Big Data Environments

Efficient Ops

Sep 18, 2022 · Operations

Speed Up Sysadmin Tasks: Fast File Deletion, iSCSI Detection, and Group Management

This article shares practical Linux and vSphere techniques—including using rsync for rapid bulk deletions, scanning SCSI devices without reboot, safeguarding rm with shell parameter expansion, mounting remote filesystems via sshfs, and managing user groups with gpasswd—to boost everyday operations efficiency.

AutomationOperationsShell

0 likes · 11 min read

Speed Up Sysadmin Tasks: Fast File Deletion, iSCSI Detection, and Group Management

Architects' Tech Alliance

Sep 18, 2022 · Operations

Data Center Power Consumption Calculation and Equipment Sizing Guide

This article explains how to calculate data‑center floor area, estimate UPS capacity, determine cooling load, and assess total power consumption, providing practical formulas and recommendations for efficient power management and reliable operation of large‑scale computer rooms.

OperationsPUEPower Consumption

0 likes · 8 min read

Data Center Power Consumption Calculation and Equipment Sizing Guide

Architects Research Society

Sep 16, 2022 · Operations

Building a Reliability Culture: Practices, Benefits, and Implementation

This article explains what a reliability culture is, why it matters, how to cultivate it through mission statements, early‑stage reliability testing, chaos‑engineering practices like GameDays and FireDrills, and how organizations can continuously learn from incidents to improve system availability and customer trust.

CultureOperationsReliability

0 likes · 18 min read

Building a Reliability Culture: Practices, Benefits, and Implementation

DevOps Engineer

Sep 13, 2022 · Operations

DevOps Learning Roadmap 2022 by Vrashabh Sontakke

This article presents a comprehensive 2022 DevOps learning roadmap compiled by engineer Vrashabh Sontakke, providing downloadable images and links to detailed resources that outline the essential tools, practices, and knowledge areas for aspiring DevOps professionals.

2022OperationsRoadmap

0 likes · 2 min read

DevOps Learning Roadmap 2022 by Vrashabh Sontakke

NetEase Yanxuan Technology Product Team

Sep 13, 2022 · Operations

How Yanxuan Built a Scalable Full‑Link Monitoring, Alerting, and Event‑Bus System for Microservices

This article details Yanxuan's four‑year evolution of a unified monitoring, alerting, and event‑bus platform for micro‑service architectures, covering design principles, technology selection, multi‑stage implementation, dynamic sampling, custom plugins, data modeling, visualization upgrades, and the final fault‑driven, system‑wide integration.

AlertingFull‑Link TracingObservability

0 likes · 23 min read

How Yanxuan Built a Scalable Full‑Link Monitoring, Alerting, and Event‑Bus System for Microservices

Java Architecture Diary

Sep 9, 2022 · Operations

How to Diagnose Java Applications on Rainbond with Arthas: A Step‑by‑Step Guide

This guide explains how to integrate the Arthas Java diagnostic tool with the Rainbond cloud‑native platform, covering plugin installation, tunnel setup, Web Console access, environment configuration, command usage, and flame‑graph generation for effective Java application troubleshooting.

ArthasJava debuggingOperations

0 likes · 9 min read

How to Diagnose Java Applications on Rainbond with Arthas: A Step‑by‑Step Guide

Huolala Tech

Sep 8, 2022 · Databases

Why Build Your Own Database Middleware in the Multi‑Cloud Era?

The article explains why, contrary to common belief, the rise of multi‑cloud environments actually demands self‑built database middleware to ensure seamless adaptation, vendor neutrality, high availability, and cost‑effective scalability for growing enterprise workloads.

Database MiddlewareHigh AvailabilityMulti-Cloud

0 likes · 18 min read

Why Build Your Own Database Middleware in the Multi‑Cloud Era?

Continuous Delivery 2.0

Sep 7, 2022 · Operations

Deming's Fourteen Points of Quality Management

The article outlines Deming's fourteen fundamental principles for quality management, emphasizing long‑term product and service improvement, statistical control, continuous process enhancement, employee empowerment, cross‑department collaboration, and the establishment of a high‑level management structure that drives perpetual innovation.

DemingOperationscontinuous improvement

0 likes · 6 min read

Dada Group Technology

Sep 5, 2022 · Operations

Design and Implementation of JD.com Data Construction Platform for Testing Efficiency

This article describes the motivation, design, architecture, key features, and outcomes of JD.com's data construction platform, which automates test data creation using a Springboot‑Mybatis‑Vue stack, significantly reducing manual effort and improving testing efficiency across multiple business lines.

Data ConstructionOperationsTesting automation

0 likes · 9 min read

Design and Implementation of JD.com Data Construction Platform for Testing Efficiency

Practical DevOps Architecture

Sep 2, 2022 · Operations

Shell Operations Development and Automation: Course Outline and Key Topics

This article presents a comprehensive outline of a shell operations development course, covering core knowledge maps, SSH multi‑host management, distributed application deployment with Kafka, multi‑host service control scripts, and essential Ansible automation techniques for modern DevOps environments.

AnsibleAutomationOperations

0 likes · 6 min read

Shell Operations Development and Automation: Course Outline and Key Topics

Open Source Linux

Sep 1, 2022 · Operations

What’s New in Zabbix 6.0? Enhanced Monitoring, HA, AI & Cloud Features Explained

Zabbix 6.0 introduces a suite of enhancements—including high‑availability clustering, advanced business‑service monitoring with SLA calculations, root‑cause analysis, machine‑learning‑based anomaly detection, Kubernetes templates, a redesigned audit log, TLS certificate checks, UI improvements, customizable branding, and new integrations—aimed at boosting operational visibility and efficiency across cloud and on‑premise environments.

High AvailabilityKubernetesMachine Learning

0 likes · 12 min read

What’s New in Zabbix 6.0? Enhanced Monitoring, HA, AI & Cloud Features Explained

dbaplus Community

Sep 1, 2022 · Operations

How Vivo’s Server‑Side Monitoring Evolved: Architecture, Data Flow, and Alert Strategies

This article provides a comprehensive overview of Vivo's server‑side monitoring system, detailing its architecture evolution, data collection pipelines, OpenTSDB storage design, alerting mechanisms, and comparisons with other mainstream monitoring solutions, offering practical guidance for technology selection and implementation.

OpenTSDBOperationsmonitoring

0 likes · 18 min read

How Vivo’s Server‑Side Monitoring Evolved: Architecture, Data Flow, and Alert Strategies

Cloud Native Technology Community

Aug 31, 2022 · Operations

What Is DevOps? Origins, Benefits, and Common Misconceptions Explained

This article explores the origins of DevOps, defines its core principles, explains why organizations adopt it to accelerate delivery, reduce technical debt, and eliminate system fragility, and debunks three common misconceptions about its relationship with agile, tooling, and role expectations.

AgileAutomationOperations

0 likes · 8 min read

What Is DevOps? Origins, Benefits, and Common Misconceptions Explained

Liangxu Linux

Aug 31, 2022 · Operations

Why TIME_WAIT Connections Accumulate and How to Fix Them

In high‑concurrency scenarios, massive TIME_WAIT TCP connections can exhaust local ports, causing new connections to fail, but by understanding the TCP four‑handshake, adjusting socket reuse settings, and using keep‑alive, you can mitigate the issue.

LinuxOperationsSocket

0 likes · 8 min read

Why TIME_WAIT Connections Accumulate and How to Fix Them

Efficient Ops

Aug 30, 2022 · Operations

How ICBC Standardized Continuous Delivery to Supercharge DevOps Efficiency

This article details Industrial and Commercial Bank of China's journey to standardize continuous delivery, outlining the background challenges, the definition of release units, the construction of a standardized toolchain, implementation results, and future plans to enhance DevOps performance across the enterprise.

OperationsStandardizationcontinuous delivery

0 likes · 9 min read

How ICBC Standardized Continuous Delivery to Supercharge DevOps Efficiency

DataFunSummit

Aug 30, 2022 · Operations

CloudRCA: A Root Cause Analysis Framework for Cloud Computing Platforms

This article presents the design, implementation, and evaluation of CloudRCA, an intelligent root cause analysis framework for Alibaba Cloud's big‑data computing services, detailing challenges such as heterogeneous data, sample imbalance, and real‑time constraints, and describing the multi‑stage data processing, hierarchical Bayesian modeling, and deployment results that reduce MTTR by 20%.

Big DataOperationsRoot Cause Analysis

0 likes · 16 min read

CloudRCA: A Root Cause Analysis Framework for Cloud Computing Platforms

Zuoyebang Tech Team

Aug 26, 2022 · Operations

How We Built a Three‑Layer Stability System for Massive Scale Operations

This article details the operational mindset, stability framework, and transformation journey of the Zuoyebang infrastructure team, covering service lifecycle management, standardization, cloud‑native architecture, multi‑active deployment, incident pre‑plan platforms, traffic scheduling, monitoring, capacity planning, and future directions for SRE service‑orientation.

AutomationOperationsSRE

0 likes · 20 min read

How We Built a Three‑Layer Stability System for Massive Scale Operations

Architects Research Society

Aug 25, 2022 · Operations

Core Reliability Principles in the Google Cloud Architecture Framework

This article outlines the core reliability principles of the Google Cloud Architecture Framework, explaining key terms such as SLI, SLO, error budget, and SLA, and describing design and operational guidelines for defining reliability goals, building observability, ensuring high availability, creating robust processes, effective alerting, and collaborative incident management.

Cloud ComputingError BudgetObservability

0 likes · 12 min read

Core Reliability Principles in the Google Cloud Architecture Framework

Java Architect Essentials

Aug 22, 2022 · Operations

Blocking Foreign IP Access with Nginx Using the ngx_http_geoip2 Module

This tutorial explains how to install the ngx_http_geoip2 module, upgrade Nginx to version 1.18, configure GeoIP2 databases, and modify the Nginx configuration to automatically reject requests from foreign IP addresses, complete with command‑line examples and verification steps.

IP blockingOperationsgeoip2

0 likes · 8 min read

Blocking Foreign IP Access with Nginx Using the ngx_http_geoip2 Module

Efficient Ops

Aug 22, 2022 · Operations

What Were the Key Takeaways from the 2022 GOPS Global Operations Conference in Shenzhen?

The 2022 GOPS Global Operations Conference in Shenzhen gathered over a thousand attendees for two days of 18 sessions, featuring more than 80 speakers who shared insights on DevOps, cloud native, AI engineering, MLOps, and industry‑specific operational practices across finance, telecom, and technology sectors.

2022AIMLOps

0 likes · 13 min read

What Were the Key Takeaways from the 2022 GOPS Global Operations Conference in Shenzhen?

MaGe Linux Operations

Aug 20, 2022 · Operations

How Consul 1.13 Simplifies Service Mesh on Kubernetes with CNI and Cluster Peering

Consul 1.13 introduces a Kubernetes CNI plugin, enhanced Envoy troubleshooting CLI, upgraded terminating gateways, and a preview of cluster peering, enabling organizations to reduce operational complexity, securely connect services at scale, and integrate service mesh capabilities directly into their workflows.

CNICluster PeeringConsul

0 likes · 13 min read

How Consul 1.13 Simplifies Service Mesh on Kubernetes with CNI and Cluster Peering

ITPUB

Aug 20, 2022 · Operations

How Meituan Scaled Its CI/CD Pipeline Engine to 100k Daily Jobs with 99.99% Success

This article details Meituan's three‑year journey building a self‑developed pipeline engine that now handles nearly 100,000 daily executions with over 99.99% reliability, covering background, challenges, architectural decisions, core scheduling and resource‑pool designs, component layering, and future cloud‑native plans.

CI/CDJob SchedulingOperations

0 likes · 25 min read

How Meituan Scaled Its CI/CD Pipeline Engine to 100k Daily Jobs with 99.99% Success

Software Development Quality

Aug 19, 2022 · Operations

Comprehensive Quality Management SLA Framework for IT Services

This document outlines a detailed Service Level Agreement (SLA) framework covering quality service standards, management processes, testing capabilities, tool support, resource management, measurement systems, risk handling, and continuous improvement to ensure consistent delivery and customer satisfaction across IT operations.

OperationsSLATraining

0 likes · 17 min read

Comprehensive Quality Management SLA Framework for IT Services

Cloud Native Technology Community

Aug 18, 2022 · Operations

Understanding DevOps: Integrating Development and Operations Beyond the ‘Who Develops Who Operates’ Myth

The article clarifies common misconceptions about DevOps, explains that true development‑operations integration relies on dedicated ops teams, automation tools, standardized delivery artifacts, and unified permission management rather than developers performing ops tasks, and highlights Google SRE practices as a practical guide.

AutomationContinuous IntegrationOperations

0 likes · 10 min read

Understanding DevOps: Integrating Development and Operations Beyond the ‘Who Develops Who Operates’ Myth

Qunar Tech Salon

Aug 17, 2022 · Operations

Design and Optimization of Testing Environment 3.0 at Qunar Travel

This article describes how Qunar Travel has evolved its testing environment governance from a fixed 10‑machine setup to a template‑driven, soft‑routing architecture (Environment 3.0), improving delivery speed, reliability, business connectivity, and reducing operational costs through automated sync, smart recommendations, and continuous business checks.

OperationsReliabilityTesting

0 likes · 22 min read

Design and Optimization of Testing Environment 3.0 at Qunar Travel

DevOps

Aug 17, 2022 · Operations

Measuring Success in Continuous Delivery: Four Key Metrics and Practical Tips

This article explains why measuring is essential for continuous delivery, introduces four valuable metrics—deployable package count, cycle time, mean time between failures, and mean time to recovery—and offers practical tips to improve delivery speed and reliability.

MTBFMTTROperations

0 likes · 7 min read

Measuring Success in Continuous Delivery: Four Key Metrics and Practical Tips

Java Architect Essentials

Aug 14, 2022 · Operations

Every Line of Code Matters: Lessons from a 3000% Performance Improvement

This article shares a real‑world case study of how a hidden database‑connection leak in a pod’s health‑check caused severe latency, and outlines four key lessons on performance metrics, testing, legacy system maintenance, and the critical impact of every line of code.

OperationsPerformanceSRE

0 likes · 9 min read

Every Line of Code Matters: Lessons from a 3000% Performance Improvement

Huolala Tech

Aug 11, 2022 · Operations

How Huolala Built an AI‑Powered Intelligent Monitoring Platform at Scale

This article details Huolala's journey from basic monitoring to an AI‑driven intelligent observability platform, covering AIOps concepts, a comprehensive monitoring framework, practical implementations, automated alert analysis, lessons learned, and future directions for large‑scale operations.

AIOpsHuolalaObservability

0 likes · 18 min read

How Huolala Built an AI‑Powered Intelligent Monitoring Platform at Scale

Efficient Ops

Aug 9, 2022 · Operations

How ICBC Accelerated Digital Transformation with XOps: From DevOps to MLOps

ICBC’s software development center outlines its multi‑year journey adopting XOps practices—DevOps, DevSecOps, DataOps, MLOps, AIOps, ChatOps and BizDevOps—to boost development efficiency, enhance security, accelerate data‑driven AI, and cut costs, showcasing measurable improvements in release frequency, defect rates, and operational automation.

AIOpsDataOpsDigitalTransformation

0 likes · 13 min read

How ICBC Accelerated Digital Transformation with XOps: From DevOps to MLOps

Architecture Digest

Aug 8, 2022 · Operations

Log Shrinking Techniques and Case Study for Reducing Log Size

This article explains why oversized logs hurt system performance, presents three practical log‑shrinking strategies—printing only necessary logs, merging duplicate entries, and simplifying content—illustrates them with Java code snippets, and evaluates their impact through a real‑world case that cuts daily log volume from 5 GB to under 1 GB.

LoggingOperationsPerformance

0 likes · 7 min read

Log Shrinking Techniques and Case Study for Reducing Log Size

Open Source Linux

Aug 8, 2022 · Operations

How to Monitor Nexus Repository with Prometheus & Grafana: Step‑by‑Step Guide

Learn how to set up Prometheus to scrape Nexus repository metrics, configure authentication, and create insightful Grafana dashboards that visualize component, Jetty, and JVM metrics, enabling proactive troubleshooting and resource optimization for Nexus services.

GrafanaNexusOperations

0 likes · 7 min read

How to Monitor Nexus Repository with Prometheus & Grafana: Step‑by‑Step Guide

DevOps Cloud Academy

Aug 7, 2022 · Operations

Key Capabilities for Continuous Delivery and DevOps Success

The article outlines twenty‑four essential capabilities—spanning continuous delivery, architecture, product and process, lean management, and culture—that research shows drive high performance in software delivery and organizational outcomes.

CultureLean ManagementOperations

0 likes · 10 min read

Key Capabilities for Continuous Delivery and DevOps Success

Liangxu Linux

Aug 6, 2022 · Operations

When Core Switches Suddenly Die: The Hidden SSD Time‑Bomb in Network Gear

A network engineer recounts a terrifying outage caused by a firmware‑related SSD bug that locks core switches after 28,224 hours of use, explains the emergency troubleshooting steps taken, and highlights the need for better vendor recall mechanisms to protect critical infrastructure.

Hardware ReliabilityOperationsSSD bug

0 likes · 8 min read

When Core Switches Suddenly Die: The Hidden SSD Time‑Bomb in Network Gear