Tagged articles

Operations

3329 articles · Page 10 of 34

Jan 16, 2024 · Operations

Essential Linux Command Cheat Sheet: Master Files, Processes, and Shell Basics

This comprehensive guide covers essential Linux commands for navigating directories, managing files, controlling processes, setting permissions, using search utilities, customizing the shell, and performing common administrative tasks, providing clear examples and syntax for each operation.

OperationsShellbash

0 likes · 19 min read

Essential Linux Command Cheat Sheet: Master Files, Processes, and Shell Basics

Efficient Ops

Jan 15, 2024 · Operations

How Chinese City Banks Boost IT Efficiency with the DevOps Maturity Model

Amid a nationwide digital transformation push, twelve Chinese city commercial banks adopted the CAICT‑led DevOps Capability Maturity Model, achieving higher IT efficiency, integrated resources, and faster, higher‑quality service delivery across continuous delivery, technical operations, security, and performance measurement standards.

Maturity ModelOperationscontinuous delivery

0 likes · 18 min read

How Chinese City Banks Boost IT Efficiency with the DevOps Maturity Model

Efficient Ops

Jan 15, 2024 · Operations

How China’s Top Banks Accelerate IT Efficiency with DevOps Maturity Assessments

Seven leading Chinese joint‑stock banks have evaluated a total of 62 projects against the CAICT DevOps Capability Maturity Model, revealing how continuous delivery, technical operation, security, and performance measurement standards are driving IT efficiency, cultural change, and faster value delivery across the financial sector.

IT efficiencyMaturity ModelOperations

0 likes · 18 min read

How China’s Top Banks Accelerate IT Efficiency with DevOps Maturity Assessments

Liangxu Linux

Jan 14, 2024 · Operations

Deploy and Manage Linux Servers Easily with the Open‑Source 1Panel Dashboard

This guide introduces the free, secure, and continuously updated 1Panel visual management panel for Linux servers, explains its key features, shows one‑line installation commands for CentOS and Ubuntu, and details access, security, backup, and upgrade procedures.

1PanelLinuxOperations

0 likes · 5 min read

Deploy and Manage Linux Servers Easily with the Open‑Source 1Panel Dashboard

DevOps

Jan 12, 2024 · Operations

Why Building a Never‑Failing System Is Impossible and How to Pursue Continuous High Availability

The article analyses why truly never‑failing systems cannot exist—citing entropy and Murphy’s laws—examines the organizational and technical obstacles to continuous high availability, and offers practical cultural and engineering practices such as testing, code review, monitoring, and regular system health checks to mitigate risk.

High AvailabilityMurphy's LawOperations

0 likes · 14 min read

Why Building a Never‑Failing System Is Impossible and How to Pursue Continuous High Availability

Liangxu Linux

Jan 10, 2024 · Operations

Top 10 Essential Tools Every Operations Engineer Should Master

This guide introduces ten widely used operations engineering tools—Shell scripts, Git, Ansible, Prometheus, Grafana, Docker, Kubernetes, Nginx, ELK Stack, and Zabbix—detailing their functions, typical scenarios, advantages, and practical examples to help engineers choose the right solution for automation, monitoring, and management tasks.

Operationsconfiguration managementdevops tools

0 likes · 8 min read

Top 10 Essential Tools Every Operations Engineer Should Master

Efficient Ops

Jan 9, 2024 · Operations

35 Must‑Know Linux Operations Interview Questions & Answers

This comprehensive guide compiles 35 essential Linux operations interview questions covering server management, RAID configurations, load balancing with LVS/Nginx/HAProxy, proxy choices, middleware, MySQL troubleshooting, networking tools, security practices, and practical scripts, providing concise answers to help candidates ace DevOps and sysadmin roles.

LinuxMySQLOperations

0 likes · 34 min read

35 Must‑Know Linux Operations Interview Questions & Answers

Efficient Ops

Jan 9, 2024 · Operations

What Do 2023 DevOps & AIOps Assessments Reveal About China’s Digital Transformation?

Amid China's sweeping digital, networked, and intelligent transformation, over 100 leading enterprises across banking, finance, communications, manufacturing, and other sectors have participated in DevOps and AIOps maturity model evaluations, providing a comprehensive view of industry adoption, capability levels, and emerging best practices for 2023.

AIOpsOperationsassessment

0 likes · 15 min read

What Do 2023 DevOps & AIOps Assessments Reveal About China’s Digital Transformation?

High Availability Architecture

Jan 9, 2024 · Operations

AIOps Practices for Incident Management at Meituan: From Risk Prevention to Post‑Operation

This article presents Meituan's two‑year exploration of AIOps in incident management, detailing risk‑prevention change detection, real‑time anomaly discovery, automated root‑cause diagnosis, multi‑dimensional KPI analysis, and similar‑event recommendation, while sharing architectural designs, algorithmic techniques, performance results, and future directions.

AIOpsAnomaly DetectionIncident Management

0 likes · 24 min read

AIOps Practices for Incident Management at Meituan: From Risk Prevention to Post‑Operation

dbaplus Community

Jan 8, 2024 · Operations

How a Simple Time Adjustment Sparked a Massive Outage: Real Ops Incident Stories

Three real-world operations mishaps are recounted—a mistaken system‑time change that logged out thousands of users, an accidental bulk delete of database accounts, and a failed glibc downgrade that stalled a software release—illustrating the cascading impact of small errors and the urgent remediation steps taken.

Incident ManagementLinuxOperations

0 likes · 8 min read

How a Simple Time Adjustment Sparked a Massive Outage: Real Ops Incident Stories

Efficient Ops

Jan 8, 2024 · Operations

What Do 2023 DevOps & AIOps Assessments Reveal About China’s Digital Transformation?

Amid China's sweeping digital transformation, the China Academy of Information and Communications Technology (CAICT) reports that 104 leading enterprises across banking, securities, insurance, telecom, manufacturing and other sectors have completed 336 DevOps maturity assessments and 23 enterprises have finished 45 AIOps assessments in 2023, highlighting industry‑wide adoption of DevOps and AIOps standards and offering detailed breakdowns by sector, evaluation levels, and future guidance.

AIOpsMaturity ModelOperations

0 likes · 16 min read

Efficient Ops

Jan 8, 2024 · Information Security

How a Securities Firm Built a 100‑Day DevSecOps Prototype

At the 21st GOPS Global Operations Conference in Shanghai, Shenwan Hongyuan Securities' application security lead Wang Biansi detailed a step‑by‑step 100‑day journey to create a DevSecOps sample room, covering goal setting, research, platform design, tool integration, and security training.

Application SecurityDevSecOpsInformation Security

0 likes · 5 min read

How a Securities Firm Built a 100‑Day DevSecOps Prototype

FunTester

Jan 7, 2024 · Operations

Integrating Monitoring and Observability for Effective Application Performance Management

The article explains how combining traditional monitoring with modern observability, supported by data quality practices and unified workflows, enables more reliable, scalable, and insightful application performance management in agile and cloud‑native environments.

APMData QualityObservability

0 likes · 18 min read

Integrating Monitoring and Observability for Effective Application Performance Management

Zhuanzhuan Tech

Jan 5, 2024 · Operations

Building an Integrated Monitoring Platform: Architecture, Implementation, and Lessons from ZhaiZhai

This article presents a detailed case study of how ZhaiZhai designed and implemented a unified monitoring platform—combining business services, middleware, and operations resources—by selecting Prometheus and M3DB, automating Grafana dashboards, creating a low‑noise alerting system, and achieving large‑scale observability with significant cost and efficiency gains.

AlertingM3DBOperations

0 likes · 21 min read

Building an Integrated Monitoring Platform: Architecture, Implementation, and Lessons from ZhaiZhai

MaGe Linux Operations

Jan 3, 2024 · Operations

Master Apache Access & Error Logs: Formats, Analysis, and Monitoring Tips

This article explains what Apache access and error logs are, details the information they record, describes common log formats, shows where logs are stored on different operating systems, and offers guidance on analyzing and monitoring these logs for performance, security, and troubleshooting.

Access LogOperationsWeb Server

0 likes · 15 min read

Master Apache Access & Error Logs: Formats, Analysis, and Monitoring Tips

DevOps Engineer

Dec 31, 2023 · Operations

Automating GitHub Release Notes Classification with Release.yml and Release Drafter

This article explains two practical methods—using GitHub's native release.yml configuration and the third‑party Release Drafter tool—to automatically categorize GitHub Release Notes by title, complete with example configurations, code snippets, and a comparison of their features and limitations.

AutomationCI/CDGitHub

0 likes · 9 min read

Automating GitHub Release Notes Classification with Release.yml and Release Drafter

21CTO

Dec 30, 2023 · Operations

How G Bank Turns Application Monitoring into Business‑Driven Visual Operations

This article examines how G Bank builds an application monitoring system based on ITIL and Google SRE principles, identifies its shortcomings, and evolves the platform into a visualized operations solution that aligns technical and business perspectives for faster incident resolution and improved customer experience.

ITILOperationsSRE

0 likes · 11 min read

How G Bank Turns Application Monitoring into Business‑Driven Visual Operations

Architect

Dec 29, 2023 · Industry Insights

How Bilibili Built a Scalable Anti‑Crawling System: Architecture, Data Flow, and Real‑World Impact

The article details Bilibili's comprehensive anti‑crawling solution, covering the problem background, a two‑layer detection framework integrated with APIGW and GAIA, risk perception, strategy iteration, verification mechanisms, quantitative results, and future improvement directions, all illustrated with concrete examples and performance numbers.

API SecurityBilibiliOperations

0 likes · 23 min read

How Bilibili Built a Scalable Anti‑Crawling System: Architecture, Data Flow, and Real‑World Impact

JD Retail Technology

Dec 29, 2023 · Operations

Bug Bash Practice Guide for Big Data Real‑Time Platform Teams

This guide details how the Big Data Real‑Time Platform department organized a Bug Bash activity to train new staff, enhance cross‑product knowledge, improve product quality, and strengthen team collaboration through structured preparation, execution, and post‑event analysis.

Big DataBug BashOperations

0 likes · 8 min read

Bug Bash Practice Guide for Big Data Real‑Time Platform Teams

WeiLi Technology Team

Dec 28, 2023 · Operations

Why Pods Get Evicted: Diagnosing DiskPressure in Kubernetes Nodes

This article walks through a real‑world Kubernetes incident where a node’s disk usage exceeded the eviction threshold, causing pods to enter the Evicted state, and details the investigation steps, root‑cause analysis, and practical remediation actions.

AWSDiskPressureKarpenter

0 likes · 6 min read

Why Pods Get Evicted: Diagnosing DiskPressure in Kubernetes Nodes

ITPUB

Dec 27, 2023 · Operations

When a Snapshot Share Became a Data Leak: Lessons from a Cloud Ops Failure

A developer mistakenly set a cloud disk snapshot to public, exposing a major client’s data, and recounts the frantic rollback, the ensuing panic among teammates, and the hard‑won operational lessons about high‑risk manual tasks, proper safeguards, and the need for visualized tooling.

Data SecurityOperationsincident response

0 likes · 10 min read

When a Snapshot Share Became a Data Leak: Lessons from a Cloud Ops Failure

Selected Java Interview Questions

Dec 25, 2023 · Operations

Understanding ByteDance (Douyin) Data Center Bandwidth and Server Scale

This article explains how ByteDance's Douyin platform achieves massive concurrent user capacity by operating data centers with multi‑terabit outbound bandwidth, extensive server fleets, CDN acceleration, and dual‑link designs, providing a technical overview of its infrastructure and bandwidth estimates.

ByteDanceCDNData Center

0 likes · 10 min read

Understanding ByteDance (Douyin) Data Center Bandwidth and Server Scale

Su San Talks Tech

Dec 25, 2023 · Operations

Why Our E‑commerce Home Page Slowed to 20 seconds and How We Fixed It

A recent e‑commerce incident caused the home page to take 20 seconds to load due to a Redis memory overload, and the team resolved it by expanding memory, redesigning data structures, and implementing a layered caching strategy with local cache, MongoDB, and fallback mechanisms.

CloudMongoDBOperations

0 likes · 9 min read

Why Our E‑commerce Home Page Slowed to 20 seconds and How We Fixed It

Zhuanzhuan Tech

Dec 23, 2023 · Operations

Investigation of Zookeeper 3.4.6 Election Port (3888) Failure Caused by Malformed Packets

This article details a troubleshooting investigation of a Zookeeper 3.4.6 cluster where the election port 3888 became unresponsive due to a NegativeArraySizeException triggered by malformed packets, explains the diagnostic steps, root‑cause analysis, and recommends upgrading to a newer version to fix the issue.

ApacheZookeeperClusterTroubleshootingElectionPort

0 likes · 11 min read

Investigation of Zookeeper 3.4.6 Election Port (3888) Failure Caused by Malformed Packets

Efficient Ops

Dec 21, 2023 · Operations

How China Galaxy Securities Achieved Level 3 DevOps Continuous Delivery – A Success Story

China Galaxy Securities detailed how three core projects passed the DevOps Continuous Delivery Level‑3 assessment, highlighting tool upgrades, process improvements, metric gains, cultural shifts, and future plans that illustrate the tangible benefits of standardized DevOps practices in a financial institution.

Case StudyMaturity ModelOperations

0 likes · 15 min read

How China Galaxy Securities Achieved Level 3 DevOps Continuous Delivery – A Success Story

Meituan Technology Team

Dec 21, 2023 · Operations

AIOps for Incident Management: Practices and Insights from Meituan

Meituan’s service‑operations team applies AIOps across prevention, detection, and post‑incident stages—using change‑risk analysis, real‑time graph‑based anomaly detection, similarity‑driven root‑cause diagnosis, and NLP‑powered incident recommendation—to achieve sub‑second detection, high precision, 28% faster fault handling, and plans for intelligent log and change recognition.

AIOpsAnomaly DetectionIncident Management

0 likes · 24 min read

AIOps for Incident Management: Practices and Insights from Meituan

dbaplus Community

Dec 20, 2023 · Operations

Scaling Kafka to 1000+ Nodes: Governance, Auto‑Balancing & Tiered Storage

This article outlines how a large‑scale Kafka deployment of over a thousand machines across dozens of clusters was engineered for stability and efficiency through a custom Guardian controller that adds partition‑level throttling, automatic balancing, multi‑tenant isolation, cross‑IDC management, tiered storage, audit capabilities, and fully automated operational workflows.

KafkaMulti‑tenantOperations

0 likes · 21 min read

Scaling Kafka to 1000+ Nodes: Governance, Auto‑Balancing & Tiered Storage

Efficient Ops

Dec 20, 2023 · Operations

How Bilibili Implements SLO Engineering to Boost Service Reliability

This article details Bilibili's practical SLO engineering approach, covering foundational components, SLI selection, application and business level SLIs, alerting strategies, SLO‑driven quality operations, and the GOC framework for rapid fault discovery, localization, and recovery, illustrating how reliability is systematically improved.

OperationsReliability EngineeringSLO

0 likes · 16 min read

How Bilibili Implements SLO Engineering to Boost Service Reliability

Efficient Ops

Dec 20, 2023 · Operations

How China’s Aviation IT System Achieved Leading DevOps Standards

The article details China Civil Aviation Information Network's flight management system passing the CAICT DevOps Technical Operations Level 2+ assessment, explores the interview insights on the project's design, operational improvements, and the broader significance of DevOps standards for digital transformation in the aviation industry.

Cloud ComputingIT GovernanceOperations

0 likes · 13 min read

How China’s Aviation IT System Achieved Leading DevOps Standards

Efficient Ops

Dec 19, 2023 · Operations

How Zhongtai Securities Achieved Advanced DevOps Standards: A Success Story

Zhongtai Securities’ Centralized Operations Platform passed the CAICT DevOps Technical Operations Level‑2 assessment, showcasing how standardized DevOps practices and tool empowerment can boost quality, efficiency, and digital transformation across banking, securities, and other industries.

Case StudyOperationsdevops

0 likes · 12 min read

How Zhongtai Securities Achieved Advanced DevOps Standards: A Success Story

Efficient Ops

Dec 19, 2023 · Operations

How a Chinese Trust Firm Achieved Top‑Tier DevOps Continuous Delivery: A Success Story

Five Minerals International Trust’s OGP platform passed the CAICT DevOps Continuous Delivery Level 3 assessment, marking the first trust‑industry certification in China; the interview reveals how standard‑based DevOps, team restructuring, automation, and cloud‑native architecture boosted efficiency, quality, and security.

AutomationCase StudyOperations

0 likes · 14 min read

How a Chinese Trust Firm Achieved Top‑Tier DevOps Continuous Delivery: A Success Story

Efficient Ops

Dec 18, 2023 · Operations

Zhongtai Securities’ Path to Advanced DevOps Standards: Inside Their Assessment Success

Zhongtai Securities’ centralized operations platform recently passed the China Academy of Information and Communications Technology’s DevOps Technical Operations Level‑2 assessment, showcasing how standardized DevOps practices, tool empowerment, and rigorous evaluation can boost quality, efficiency, and digital transformation across financial institutions.

Case StudyOperationsdevops

0 likes · 14 min read

Zhongtai Securities’ Path to Advanced DevOps Standards: Inside Their Assessment Success

Efficient Ops

Dec 18, 2023 · Operations

How Jinzhou Bank Reached Domestic Leading Level 3 DevOps Continuous Delivery

Jinzhou Bank’s mobile banking investment service microservice transformation project passed the CAICT DevOps Continuous Delivery Level 3 assessment, showcasing how standardized DevOps practices, tool empowerment, and agile adoption dramatically improved delivery speed, quality, and competitive advantage in the financial sector.

Case StudyOperationscontinuous delivery

0 likes · 13 min read

How Jinzhou Bank Reached Domestic Leading Level 3 DevOps Continuous Delivery

DaTaobao Tech

Dec 18, 2023 · Industry Insights

Unlocking E‑Commerce Success: Core Principles and Data‑Driven Strategies Behind Modern Online Retail

This comprehensive guide explains what e‑commerce operation entails, breaks down its six functional areas, compares internet and e‑commerce operations, and presents data‑driven tactics—including conversion funnel analysis, traffic optimization, and average order value improvement—to help businesses boost efficiency and revenue.

ConversionData-DrivenMarketing

0 likes · 32 min read

Unlocking E‑Commerce Success: Core Principles and Data‑Driven Strategies Behind Modern Online Retail

Efficient Ops

Dec 17, 2023 · Operations

How a Chinese Trust Firm Achieved Top‑Tier DevOps Continuous Delivery Certification

In a detailed interview, Five Minerals International Trust explains how its self‑developed Operations Guarantee Platform passed the CAICT DevOps Continuous Delivery Level 3 assessment, showcasing the benefits of standardized DevOps practices, improved efficiency, quality, security, and the broader impact on its digital transformation and industry adoption.

Case StudyMaturity ModelOperations

0 likes · 14 min read

How a Chinese Trust Firm Achieved Top‑Tier DevOps Continuous Delivery Certification

Efficient Ops

Dec 17, 2023 · Operations

How FAW‑Volkswagen Reached Top‑Tier DevOps Continuous Delivery: Practices, Metrics & Lessons

The interview reveals how FAW‑Volkswagen leveraged the CAICT DevOps maturity model to achieve Level 3 continuous delivery for its OTD order‑delivery platform and multi‑functional dealer ecosystem, detailing the standards, implementation steps, performance metrics, challenges faced, and future plans for broader digital transformation.

Operationsautomotive industrycontinuous delivery

0 likes · 14 min read

How FAW‑Volkswagen Reached Top‑Tier DevOps Continuous Delivery: Practices, Metrics & Lessons

Efficient Ops

Dec 17, 2023 · Operations

How China Postal Savings Bank Achieved Leading‑Edge DevOps Automation Standards

China Postal Savings Bank’s software R&D center detailed how its "Star Platform" earned top‑level DevOps system and tool assessments, showcasing the bank’s automation capabilities, the evaluation process, key improvements, and future plans for expanding DevOps and XOps practices across the organization.

AutomationOperationsStandard Assessment

0 likes · 14 min read

How China Postal Savings Bank Achieved Leading‑Edge DevOps Automation Standards

dbaplus Community

Dec 17, 2023 · Operations

Why Kubernetes Needs an LTS Release: Balancing Stability and Speed

The article examines the rapid Kubernetes upgrade cycle, the operational challenges it creates for teams, argues for a long‑term support (LTS) version, weighs pros and cons, and proposes compromise solutions to improve cluster stability without sacrificing innovation.

KubernetesLTSOperations

0 likes · 10 min read

Why Kubernetes Needs an LTS Release: Balancing Stability and Speed

Efficient Ops

Dec 16, 2023 · Operations

How a Chinese Trust Firm Earned Top‑Tier DevOps Continuous Delivery (Level 3)

Five Minerals International Trust’s OGP platform passed the China Information & Communications Academy’s DevOps Continuous Delivery Level 3 assessment, showcasing how standardized DevOps practices, cloud‑native microservices, and automated pipelines can boost efficiency, quality, and security, while offering insights into the evaluation process and future plans.

Case StudyOperationscloud-native

0 likes · 15 min read

How a Chinese Trust Firm Earned Top‑Tier DevOps Continuous Delivery (Level 3)

Efficient Ops

Dec 16, 2023 · Operations

How China’s Aviation IT Leader Earned Top‑Tier DevOps Certification

The article details China’s Civil Aviation Information Network’s successful DevOps 2+ level assessment, highlighting the flight management system’s cloud‑native architecture, high‑concurrency capabilities, and the broader impact of CAICT’s DevOps standards on digital transformation across industries.

Aviation ITOperationsStandardization

0 likes · 12 min read

How China’s Aviation IT Leader Earned Top‑Tier DevOps Certification

FunTester

Dec 15, 2023 · Operations

Bug Root Cause Analysis: Current Situation, Scenarios, and a Four‑Step Improvement Process

This article examines why many testing teams skip bug root‑cause analysis, outlines typical scenarios where such analysis is needed, and presents a practical four‑step method—including recording, cause marking, role attribution, and improvement planning—to enhance software quality and team efficiency.

Bug AnalysisOperationsprocess improvement

0 likes · 6 min read

Bug Root Cause Analysis: Current Situation, Scenarios, and a Four‑Step Improvement Process

Data Thinking Notes

Dec 14, 2023 · Fundamentals

Why Designing Metrics Matters: From Definition to Good Indicator Practices

This article explains why metrics are essential, defines what a metric is, describes the four essential elements of metric design, outlines the three‑step design process, discusses measurement scales and time characteristics, and provides criteria for evaluating good metrics.

Indicator DesignOperationsdata analysis

0 likes · 15 min read

Why Designing Metrics Matters: From Definition to Good Indicator Practices

Efficient Ops

Dec 14, 2023 · Cloud Native

Hybrid Cloud Container Stability: Qunar Travel’s Proven Practices from GOPS 2023

At the 21st GOPS Global Operations Conference in Shanghai, Qunar Travel’s tech expert Zou Sheng shared a detailed hybrid‑cloud container stability practice covering IDC‑first deployment, resource utilization over 60%, phased migration, reliability improvements, AZ monitoring, and cost‑saving strategies.

Container StabilityHybrid CloudOperations

0 likes · 3 min read

Hybrid Cloud Container Stability: Qunar Travel’s Proven Practices from GOPS 2023

Ctrip Technology

Dec 14, 2023 · Operations

Improving Optical Transport Network Reliability at Ctrip: Architecture, Issue Analysis, and Optimization Strategies

This article describes Ctrip's optical transport network (TOTN) architecture, analyzes frequent fiber‑cut incidents and resulting device port flapping, presents technical research on fast optical switching and alarm delay, and details an optimization plan that achieved sub‑100 ms fault‑free switchover and stable Redis performance.

DCILink DelayNetwork Reliability

0 likes · 11 min read

Improving Optical Transport Network Reliability at Ctrip: Architecture, Issue Analysis, and Optimization Strategies

Alibaba Cloud Big Data AI Platform

Dec 14, 2023 · Operations

How GitOps Transforms Change Management: Automation, Code, and Transparency

GitOps leverages Git's version‑control strengths to automate, codify, and make transparent infrastructure changes, combining IaC, merge requests, and CI/CD, while exploring its principles, toolchains like FluxCD, ArgoCD, Jenkins X, and practical implementations such as SRE Stack for end‑to‑end change management.

AutomationCI/CDGitOps

0 likes · 17 min read

How GitOps Transforms Change Management: Automation, Code, and Transparency

dbaplus Community

Dec 13, 2023 · Databases

Tackling the Top 8 Challenges of Domestic Databases in Banking and Proven Strategies

The article examines the rapid growth of domestic databases in China’s banking sector, identifies eight critical pain points—from product stability and resource consumption to tooling gaps and migration difficulties—and offers detailed countermeasures covering version upgrade planning, resource optimization, functional testing, skill development, monitoring, ecosystem building, data migration, and backup‑recovery improvements.

DatabasesOperationsdomestic

0 likes · 16 min read

Tackling the Top 8 Challenges of Domestic Databases in Banking and Proven Strategies

Qunhe Technology Quality Tech

Dec 12, 2023 · Operations

How We Built a Stable Offline Testing Environment with Cloud‑Native Practices

This article details the challenges of managing a complex, multi‑layered offline testing environment at KuJiaLe, outlines the standardization of baseline, functional, and integration environments, and explains the comprehensive stability measures—including infrastructure upgrades, automated checks, emergency response, and daily operations—that dramatically improved reliability.

Operationscloud-nativeenvironment management

0 likes · 14 min read

How We Built a Stable Offline Testing Environment with Cloud‑Native Practices

FunTester

Dec 10, 2023 · Databases

How GitHub Upgraded 1,200 MySQL Servers to 8.0 Without Downtime

GitHub detailed a year‑long, multi‑team effort to upgrade over 1,200 MySQL hosts from 5.7 to 8.0 using phased rollouts, automated testing, compatibility checks, and rollback mechanisms while maintaining strict SLOs and high‑availability requirements.

GitHubHigh AvailabilityMySQL

0 likes · 16 min read

How GitHub Upgraded 1,200 MySQL Servers to 8.0 Without Downtime

DataFunTalk

Dec 10, 2023 · Operations

Designing Experiments for Peak Surge Pricing in Two‑Sided Markets: Lessons from Uber, Lyft, DoorDash and Didi

This article examines how two‑sided platforms such as Uber, Lyft, DoorDash and Didi design and evaluate peak‑surcharge experiments, addressing network effects, bias‑variance trade‑offs, time‑space slicing, random‑saturation designs, and continuous bandit‑based testing within an operations‑focused experimental system.

AB testingOperationscausal inference

0 likes · 16 min read

Designing Experiments for Peak Surge Pricing in Two‑Sided Markets: Lessons from Uber, Lyft, DoorDash and Didi

Rare Earth Juejin Tech Community

Dec 10, 2023 · Operations

Comprehensive Guide to Nginx: Architecture, Configuration, and Advanced Features

This extensive tutorial explains Nginx's architecture, installation, directory layout, configuration directives, location matching rules, reverse proxy setup, load balancing strategies, static‑dynamic separation, CORS handling, caching mechanisms, access control lists, rate limiting, HTTPS configuration, compression, and many other essential directives for effective web server and reverse‑proxy management.

CachingNginxOperations

0 likes · 66 min read

Comprehensive Guide to Nginx: Architecture, Configuration, and Advanced Features

DeWu Technology

Dec 8, 2023 · Operations

SRE Secrets: How Alibaba, Tencent & Dewu Build Ultra-Stable Cloud‑Native Services

On November 25, Dewu Technology hosted an SRE Stability Engineering salon in Hangzhou where experts from Alibaba, Tencent, Ant Group and Dewu shared practical insights on C‑end link reliability, Alibaba’s system stability operations, Tencent Game’s cloud‑native SRE practices, and Ant Group’s chaos engineering, concluding with a Q&A and resource distribution.

Industry InsightsOperationsSRE

0 likes · 7 min read

SRE Secrets: How Alibaba, Tencent & Dewu Build Ultra-Stable Cloud‑Native Services

Sohu Tech Products

Dec 6, 2023 · Operations

Diagnosing Elasticsearch node_concurrent_recoveries Slowness: Root Cause & Fix

A detailed investigation of an Elasticsearch timeout incident reveals how an overly aggressive node_concurrent_recoveries setting caused CPU saturation, disk I/O spikes, and shard relocation overload, and outlines the steps taken to isolate the faulty node and restore cluster performance.

ElasticsearchOperationsPerformance

0 likes · 14 min read

Diagnosing Elasticsearch node_concurrent_recoveries Slowness: Root Cause & Fix

JD Retail Technology

Dec 6, 2023 · Operations

How JD’s ‘localhost’ Tool Enables Seamless Remote Debugging of Local Code

This article explains the motivation, design, and implementation of JD’s lightweight Go‑based “localhost” tool that creates secure tunnels for remote debugging of locally running services, detailing its usage, core architecture, routing logic, and future enhancements.

OperationsRemote Debuggingcloud testing

0 likes · 12 min read

How JD’s ‘localhost’ Tool Enables Seamless Remote Debugging of Local Code

DevOps Coach

Dec 6, 2023 · Operations

How to Combine Azure OpenAI with Elastic Observability AI Assistant in 10 Minutes

This guide walks through setting up Azure OpenAI (GPT‑4) as a connector for Elastic Observability’s AI Assistant, covering prerequisites, Azure resource creation, connector configuration, URL formatting, and practical examples of log analysis and chat‑based troubleshooting.

AI assistantAzure OpenAIObservability

0 likes · 14 min read

How to Combine Azure OpenAI with Elastic Observability AI Assistant in 10 Minutes

Su San Talks Tech

Dec 6, 2023 · Operations

What Went Wrong in Didi’s 12‑Hour Outage? Lessons on Kubernetes Upgrades and Cost‑Cutting

An in‑depth review of Didi’s 12‑hour P0 outage reveals how a mistaken Kubernetes version downgrade during an in‑place upgrade caused master node failure, discusses cluster isolation, upgrade strategies, and the role of cost‑cutting pressures, offering practical lessons for large‑scale operations.

KubernetesOperationscluster upgrade

0 likes · 7 min read

What Went Wrong in Didi’s 12‑Hour Outage? Lessons on Kubernetes Upgrades and Cost‑Cutting

Architecture and Beyond

Dec 2, 2023 · Operations

Postmortem Analysis of the Yuque Service Outage and Lessons on Complex Systems and the KISS Principle

The article reviews the October 23 Yuque service outage, analyzes root causes such as a buggy upgrade tool and outdated storage, extracts operational lessons on testing, disaster recovery, high‑availability, communication, and advocates the KISS principle to simplify complex systems for improved reliability.

KISS principleOperationscomplex systems

0 likes · 10 min read

Postmortem Analysis of the Yuque Service Outage and Lessons on Complex Systems and the KISS Principle

Architecture and Beyond

Dec 2, 2023 · Operations

Four Dimensions of System Complexity: Component, Structure, Function, and Description

The article examines recent large‑scale service outages to illustrate how system complexity can be analyzed through four dimensions—component, structural, functional, and descriptive complexity—highlighting the need for comprehensive assessment to improve resilience and sustainable development.

Complexity AnalysisOperationsReliability

0 likes · 11 min read

Four Dimensions of System Complexity: Component, Structure, Function, and Description

Open Source Linux

Dec 1, 2023 · Operations

10 Essential Ops Tools Every Engineer Should Master

This article introduces ten indispensable tools for operations engineers, detailing each tool's functionality, suitable scenarios, advantages, and real‑world examples, and includes practical code snippets to help automate, monitor, and manage infrastructure efficiently.

AutomationOperationsdevops tools

0 likes · 8 min read

10 Essential Ops Tools Every Engineer Should Master

DevOps

Nov 30, 2023 · R&D Management

Comprehensive R&D Efficiency Metrics and Calculation Formulas

This article presents a comprehensive collection of R&D efficiency metrics and their calculation formulas, covering code integration, quality, productivity, reliability, maintainability, and deployment aspects, to help teams evaluate and improve development performance and operational effectiveness.

OperationsR&D metricscode quality

0 likes · 12 min read

Comprehensive R&D Efficiency Metrics and Calculation Formulas

Java Captain

Nov 30, 2023 · Operations

Analysis of Didi's November 2023 System Outage and Potential Technical Causes

The article reviews Didi's late‑November 2023 service disruption, detailing the timeline of failures, official apologies, and expert analyses of six possible technical causes—including software bugs, server issues, third‑party failures, DDoS, other attacks, and ransomware—while highlighting the role of a Kubernetes upgrade and cost‑cutting pressures.

DidiOperationscloud-native

0 likes · 7 min read

Analysis of Didi's November 2023 System Outage and Potential Technical Causes

Alibaba Cloud Developer

Nov 30, 2023 · Backend Development

How Alibaba Travel Billing System Achieves 100% Accuracy and Real‑Time Reconciliation

This article details the design, challenges, and monitoring strategies of Alibaba's travel billing system, explaining how a modular backend architecture, multi‑way reconciliation, full‑link monitoring, and a configurable expression engine enable near‑perfect bill accuracy and automated settlement for enterprise customers.

OperationsReconciliationbackend

0 likes · 17 min read

How Alibaba Travel Billing System Achieves 100% Accuracy and Real‑Time Reconciliation

FunTester

Nov 28, 2023 · Operations

How to Adopt a DevOps Culture: Custom Strategies, CI/CD, Automation & Metrics

This article outlines the essential steps for embracing DevOps culture, emphasizing tailored strategies, deep understanding of CI/CD, clear role assignments, extensive automation, key performance metrics, and the critical role of quality assurance to achieve faster, reliable software delivery.

AutomationCI/CDCulture

0 likes · 9 min read

How to Adopt a DevOps Culture: Custom Strategies, CI/CD, Automation & Metrics

Advanced AI Application Practice

Nov 28, 2023 · Operations

Is a Didi Outage a P0‑Level Incident? Understanding Severity Classifications

The article explains the common P0‑to‑PX incident severity hierarchy used in software development, detailing what constitutes a P0 crash versus lower‑level issues, notes that definitions can vary across organizations, and adds a personal perspective on Didi’s service reliability.

DidiIncident ManagementOperations

0 likes · 3 min read

Is a Didi Outage a P0‑Level Incident? Understanding Severity Classifications

Bilibili Tech

Nov 28, 2023 · Operations

Technical Assurance Practices for the 13th League of Legends World Championship Live Stream

For the 13th League of Legends World Championship live stream on Bilibili, a comprehensive technical‑assurance framework—covering pre‑event traffic buildup, in‑event experience, and post‑event replay—mapped over 60 business functions, applied a traffic‑estimation model, executed fault‑injection drills, load tests, strict SOPs and change control, and real‑time monitoring, enabling 120 million viewers and a peak of 460 million concurrent users.

Fault InjectionLive StreamingOperations

0 likes · 19 min read

Technical Assurance Practices for the 13th League of Legends World Championship Live Stream

Efficient Ops

Nov 27, 2023 · Operations

How 19 Leading Chinese Enterprises Accelerated IT Efficiency with the DevOps Maturity Model

This article reviews how nineteen top Chinese companies applied the CAICT‑led DevOps Capability Maturity Model, detailing their assessment results, project improvements, and concrete performance gains such as higher release frequency, full test coverage, and streamlined operations across diverse industry sectors.

Capability Maturity ModelCase StudiesIT efficiency

0 likes · 10 min read

How 19 Leading Chinese Enterprises Accelerated IT Efficiency with the DevOps Maturity Model

Efficient Ops

Nov 27, 2023 · Operations

How China’s Top Banks Accelerate Digital Transformation with DevOps Maturity Assessments

Amid a nationwide digital transformation push, seven leading Chinese joint‑stock banks have leveraged the CAICT‑led DevOps Capability Maturity Model to evaluate dozens of projects, revealing how DevOps improves IT efficiency, integrates resources, and supports business systems across the financial sector.

Maturity ModelOperationsbanking

0 likes · 19 min read

How China’s Top Banks Accelerate Digital Transformation with DevOps Maturity Assessments

Efficient Ops

Nov 27, 2023 · Operations

How China’s Telecom Giants Accelerate IT Efficiency with the DevOps Maturity Model

In the context of digital transformation, six leading Chinese telecom operators used the CAICT‑led DevOps Capability Maturity Model to evaluate 33 projects, improving IT performance, integrating resources, and supporting business systems, offering valuable industry‑wide best‑practice insights.

IT efficiencyMaturity ModelOperations

0 likes · 18 min read

How China’s Telecom Giants Accelerate IT Efficiency with the DevOps Maturity Model

Efficient Ops

Nov 27, 2023 · Operations

How 5 Leading Insurers Accelerated Digital Transformation with DevOps Maturity Assessments

This article reviews how five leading Chinese insurance firms evaluated eight projects using the CAICT DevOps Capability Maturity Model, highlighting each company's implementation details, performance improvements, and the broader significance of the model for digital transformation and operational excellence in the insurance sector.

Capability Maturity ModelCase StudyInsurance

0 likes · 10 min read

How 5 Leading Insurers Accelerated Digital Transformation with DevOps Maturity Assessments

Efficient Ops

Nov 26, 2023 · Operations

Beijing Mobile’s SRE Success: Automation, Cloud‑Native Ops & Reliability

The article details how Beijing Mobile’s SRE Smart Operations team applied SRE principles, automation, and cloud‑native tools to transform traditional DevOps into a reliable, scalable operation, highlighting their fault‑prevention, monitoring, incident response, and continuous improvement practices that earned them the 2023 IT Technology Leadership award.

AutomationOperationsReliability Engineering

0 likes · 7 min read

Beijing Mobile’s SRE Success: Automation, Cloud‑Native Ops & Reliability

Architecture and Beyond

Nov 25, 2023 · Operations

Effective Log Management Strategy: Standards, SDK Integration, and Lifecycle Practices

The article outlines common logging problems and presents a comprehensive six‑step strategy—including clear logging standards, systematic standard management, a unified SDK, centralized log management systems, regular standard reviews, and lifecycle deprecation—to transform chaotic logs into a reliable tool that boosts development efficiency.

LoggingOperationsStandards

0 likes · 7 min read

Effective Log Management Strategy: Standards, SDK Integration, and Lifecycle Practices

Cloud Native Technology Community

Nov 24, 2023 · Operations

Netflix’s Unique Developer Productivity Platform and Platform Engineering Practices

The article examines Netflix’s platform engineering approach, detailing its centralized team structure, hub‑and‑spoke model, internal customer‑support system, productivity evaluation methods, challenges such as documentation, and ongoing efforts to improve developer experience and platform adoption.

Internal SupportNetflixOperations

0 likes · 10 min read

Netflix’s Unique Developer Productivity Platform and Platform Engineering Practices

dbaplus Community

Nov 23, 2023 · Operations

How to Cut Alert Noise in Monitoring: Proven Strategies and Code Samples

This article explains why monitoring alert noise harms efficiency, presents metrics such as recall and accuracy, details rule‑based, blacklist/whitelist, ratio‑based, and intelligent noise‑reduction techniques, shares Java code examples, and shows measurable results after applying the governance process.

Alert Noise ReductionIncident ManagementOperations

0 likes · 13 min read

How to Cut Alert Noise in Monitoring: Proven Strategies and Code Samples

Qunar Tech Salon

Nov 22, 2023 · Operations

Optimizing Qunar's Monitoring System for Faster Fault Detection and Root‑Cause Analysis

This article details Qunar's comprehensive overhaul of its monitoring platform—introducing second‑level metrics, redesigning storage with VictoriaMetrics, optimizing client and server data collection, and building a root‑cause analysis tool—to dramatically reduce order‑related fault discovery time from minutes to under one minute.

OperationsTSDBcloud-native

0 likes · 22 min read

Optimizing Qunar's Monitoring System for Faster Fault Detection and Root‑Cause Analysis

Data Thinking Notes

Nov 21, 2023 · Operations

36 Essential Data Analysis Models Across 6 Business Domains

This article presents 36 concise data analysis models spanning six key business dimensions—Internet operations, strategy and organization, quality and production, marketing services, financial management, and human resources—to help analysts choose the right method for structured, logical, and effective insights.

Business AnalyticsMarketingOperations

0 likes · 12 min read

36 Essential Data Analysis Models Across 6 Business Domains

Senior Tony

Nov 21, 2023 · Operations

How to Shrink Failure Scope with Circuit Breakers, Degradation, and Link Splitting

This article explains how to reduce the impact of failures in distributed systems by simplifying service links, applying circuit‑breaker mechanisms, implementing graceful degradation, performing core‑link isolation, and, as a last resort, switching to a minimal MVP version to keep essential functionality alive.

High AvailabilityOperationscircuit breaker

0 likes · 11 min read

How to Shrink Failure Scope with Circuit Breakers, Degradation, and Link Splitting

Architects Research Society

Nov 21, 2023 · Operations

Digital Transformation Guide: Definition, Pricing, and Planning (Part 1) – Key Points and Framework for Asset Management

This article defines digital transformation, introduces the Digital Transformation Framework (DTF) and its economic, risk and financial dimensions, and explains how asset‑management firms can redesign front, middle and back‑office functions, adopt composable enterprise models, and align culture, automation and API‑driven strategies to achieve sustainable, disruptive change.

Asset ManagementDTFOperations

0 likes · 21 min read

Digital Transformation Guide: Definition, Pricing, and Planning (Part 1) – Key Points and Framework for Asset Management

Architecture and Beyond

Nov 18, 2023 · Operations

Technical Cost Optimization and Fine‑Grained Operations: A Comprehensive Guide

This article presents a systematic approach for technology leaders to reduce and control cloud‑related expenses through cost‑optimization, detailed analysis, team organization, project planning, communication, and long‑term fine‑grained operational practices.

Cloud ComputingCost OptimizationOperations

0 likes · 24 min read

Technical Cost Optimization and Fine‑Grained Operations: A Comprehensive Guide

ITPUB

Nov 17, 2023 · Operations

How Bilibili Overcame a Massive CDN Outage: Cloud‑Edge Incident Response Lessons

This article details the August 2023 Bilibili CDN failure, analyzes its root causes, describes the 1‑5‑10 emergency recovery framework, and presents cloud‑side SLB/BFS optimizations and edge‑side scheduling and fallback strategies that together restored service and improved future resilience.

CDNEdge ComputingOperations

0 likes · 20 min read

How Bilibili Overcame a Massive CDN Outage: Cloud‑Edge Incident Response Lessons

JD Tech

Nov 16, 2023 · Operations

Preparing JD's CDP Platform for Double 11: Challenges, Capacity Planning, and Lessons Learned

This article recounts the author's experience preparing JD's Customer Data Platform (CDP) for the Double 11 shopping festival, detailing the platform's capabilities, business scenarios, capacity planning, stability and performance challenges, disaster‑recovery measures, and personal reflections on the intensive technical effort involved.

Big DataCDPOperations

0 likes · 12 min read

Preparing JD's CDP Platform for Double 11: Challenges, Capacity Planning, and Lessons Learned

dbaplus Community

Nov 15, 2023 · Operations

How a Public Snapshot Leak Almost Cost a Client – Lessons from a Cloud Ops Failure

A cloud engineer mistakenly set a disk snapshot to public, exposing a major client’s data, rushed a rollback, and then reflected on the root causes, highlighting the need for strict review, visual tools, and risk‑aware practices in high‑risk operations.

Cloud ComputingData SecurityOperations

0 likes · 9 min read

How a Public Snapshot Leak Almost Cost a Client – Lessons from a Cloud Ops Failure

Efficient Ops

Nov 14, 2023 · Operations

How China’s Top State Banks Accelerate Digital Transformation with DevOps Maturity Models

This article examines how six major Chinese state-owned banks leveraged the CAICT‑led DevOps Capability Maturity Model to assess dozens of projects, improve IT efficiency, integrate resources, and achieve measurable gains in delivery speed, quality, and security across agile development, continuous delivery, operations, and risk management.

Maturity ModelOperationsbanking

0 likes · 22 min read

How China’s Top State Banks Accelerate Digital Transformation with DevOps Maturity Models

Baidu Geek Talk

Nov 14, 2023 · Industry Insights

How Elastic Cascading Controls Boost Search Engine Compute Efficiency

This article analyzes the rising compute demand in modern deep‑learning‑driven search systems, proposes a micro‑ and macro‑level adaptive power‑allocation framework, models the optimization problem with cost, time, and feasibility constraints, and details an elastic cascading architecture that dynamically balances resource usage, system state, and traffic value to achieve higher ROI and stability.

AIOperationsSearch Engine

0 likes · 14 min read

How Elastic Cascading Controls Boost Search Engine Compute Efficiency

NetEase Smart Enterprise Tech+

Nov 14, 2023 · Cloud Computing

Building a Scalable SaaS Platform: Architecture, Deployment, and Operations Insights

This article explains what SaaS is, outlines its business value, and walks through the full technical stack—from entry points and access layer to business, data, and operations layers—while comparing shared, dedicated, and hybrid deployment models and future challenges.

Backend DevelopmentOperationsSaaS

0 likes · 11 min read

Building a Scalable SaaS Platform: Architecture, Deployment, and Operations Insights

JD Tech

Nov 10, 2023 · Operations

Reducing MTTR: Monitoring, Fast Incident Response, and Team Practices

This article explains the concept and importance of MTTR (Mean Time To Repair), shows how to calculate it, and provides a comprehensive set of monitoring, alerting, rapid mitigation, tool‑assisted analysis, and team coordination techniques to significantly shorten incident resolution time and improve system reliability.

MTTROperationsReliability

0 likes · 26 min read

Reducing MTTR: Monitoring, Fast Incident Response, and Team Practices

Efficient Ops

Nov 9, 2023 · Operations

How Everbright Securities Achieved Top‑Tier DevOps Maturity and Boosted Efficiency

Everbright Securities’ Sunshine E‑Office project passed the CAICT DevOps Continuous Delivery Level‑3 assessment, showcasing how standardized DevOps practices and tool empowerment can dramatically improve development efficiency, quality, and security, while driving digital transformation across the financial sector.

Operationscontinuous deliverydevops

0 likes · 9 min read

How Everbright Securities Achieved Top‑Tier DevOps Maturity and Boosted Efficiency

Efficient Ops

Nov 7, 2023 · Operations

How CICC Wealth Reached Advanced DevOps Operations Standards

At the 2023 GOPS Global Operations Conference in Shanghai, China Information Communication Research Institute announced that CICC Wealth's unified access and authentication project passed the DevOps Technical Operations Level‑2 assessment, showcasing how standardized DevOps practices and tool empowerment can dramatically improve quality, efficiency, and market competitiveness in the financial sector.

OperationsStandardizationcontinuous delivery

0 likes · 13 min read

How CICC Wealth Reached Advanced DevOps Operations Standards

Efficient Ops

Nov 7, 2023 · Operations

Mastering SRE: How MTBF, MTTR, SLI, SLO & Error Budget Drive Reliability

This article explains Site Reliability Engineering (SRE) as a collaborative methodology, outlines its stability goals measured by MTBF and MTTR, details how SLI/SLO and the VALET selection guide fault detection, and shows how error budgets quantify reliability work and drive precise alerting.

ErrorBudgetMTBFMTTR

0 likes · 14 min read

Mastering SRE: How MTBF, MTTR, SLI, SLO & Error Budget Drive Reliability

Architect's Guide

Nov 6, 2023 · Operations

Comparison of Prometheus and Zabbix Monitoring Tools

This article compares the open‑source monitoring solutions Prometheus and Zabbix, outlining their histories, architectures, data collection methods, scalability, storage models, configuration complexity, community activity, and suitability for different environments such as traditional servers versus cloud‑native container platforms.

OperationsPrometheusZabbix

0 likes · 8 min read

Comparison of Prometheus and Zabbix Monitoring Tools

NetEase LeiHuo Testing Center

Nov 3, 2023 · Operations

Best Practices for Third‑Party Interface Collaboration: Concepts, Rate Limiting, Monitoring, and Incident Handling

The article outlines how game QA and third‑party providers can improve cooperation by aligning basic performance concepts such as TPS, QPS and concurrency, selecting appropriate rate‑limiting strategies, establishing precise monitoring and alerting, and preparing clear incident‑response and delivery standards.

Operationsmonitoringperformance testing

0 likes · 15 min read

Best Practices for Third‑Party Interface Collaboration: Concepts, Rate Limiting, Monitoring, and Incident Handling

Efficient Ops

Nov 2, 2023 · Operations

What Do China’s Top Banks Reveal About DevOps Maturity? Insights from GOPS 2023

The 21st GOPS Global Operations Conference in Shanghai unveiled the latest DevOps capability maturity assessment results from major Chinese banks, highlighting pioneering evaluations, detailed improvements across configuration, monitoring, and user experience, and introducing the comprehensive DevOps maturity model that guides digital transformation.

ChinaMaturity ModelOperations

0 likes · 10 min read

What Do China’s Top Banks Reveal About DevOps Maturity? Insights from GOPS 2023

Efficient Ops

Nov 2, 2023 · Operations

How ICBC’s SRE Team Built a Panoramic Monitoring System for Digital Ops Transformation

The Industrial and Commercial Bank of China software development center created an SRE panoramic monitoring view system that unifies data channels, standardizes metrics, offers multi‑dimensional dashboards, and introduces an intelligent Ops Assistant, dramatically improving fault detection, response speed, and cross‑team operational efficiency.

ICBCObservabilityOperations

0 likes · 6 min read

How ICBC’s SRE Team Built a Panoramic Monitoring System for Digital Ops Transformation

AntTech

Nov 2, 2023 · Cloud Native

AI and Cloud‑Native Enhancements for Ant Group’s Consumer Credit Technology Platform

The article describes how Ant Group’s consumer credit technology platform leverages AI and cloud‑native architectures to achieve ultra‑fast operations, precise fund verification, large‑scale simulation, and seamless migration for dozens of financial institutions, addressing the massive technical challenges of internet‑scale credit services.

AIOperationsSimulation

0 likes · 9 min read

AI and Cloud‑Native Enhancements for Ant Group’s Consumer Credit Technology Platform

Efficient Ops

Nov 1, 2023 · Operations

How Guangda Securities Reached DevOps Continuous Delivery Level 3 and Boosted Efficiency

This article details Guangda Securities' successful DevOps assessment at the 2023 GOPS Global Operations Conference, describing how adopting standardized DevOps practices and a continuous delivery pipeline elevated their development efficiency, quality, and competitiveness in the financial technology sector.

Case StudyOperationscontinuous delivery

0 likes · 11 min read

How Guangda Securities Reached DevOps Continuous Delivery Level 3 and Boosted Efficiency

Efficient Ops

Nov 1, 2023 · Operations

How China Merchants Securities Achieved Top DevOps Maturity: A Deep Dive

At the 2023 GOPS Global Operations Conference, China Merchants Securities showcased its successful DevOps assessments—earning multiple Level 3 ratings in agile development and continuous delivery—demonstrating how standardized processes, tool empowerment, and a unified digital management system can accelerate digital transformation and boost market competitiveness.

Maturity ModelOperationsagile development

0 likes · 14 min read

How China Merchants Securities Achieved Top DevOps Maturity: A Deep Dive

Architecture Digest

Nov 1, 2023 · Operations

Maximum Number of TCP Connections a Server Can Support and Related Linux Limits

This article explains how Linux kernel parameters, memory size, and file descriptor limits determine the maximum number of TCP connections a server or client can handle, provides configuration examples for increasing those limits, and discusses practical considerations such as port ranges and connection overhead.

LinuxOperationsTCP

0 likes · 15 min read

Maximum Number of TCP Connections a Server Can Support and Related Linux Limits

Rare Earth Juejin Tech Community

Nov 1, 2023 · Operations

Building a Prometheus‑Based Monitoring System with Docker and Kubernetes

This article explains how to design and deploy a complete monitoring solution using Prometheus, various exporters, Grafana, and Alertmanager on Docker and Kubernetes, covering installation, configuration, visualization, and best‑practice tips for reliable operations monitoring.

DockerExportersGrafana

0 likes · 10 min read

Building a Prometheus‑Based Monitoring System with Docker and Kubernetes

Efficient Ops

Oct 31, 2023 · Operations

How Zhengzhou Exchange’s Tech Team Earned Top‑Tier DevOps Level‑3 Delivery

In a detailed Q&A, Zhengzhou Yisheng Information Technology shares how its two exchange‑focused platforms achieved the DevOps Continuous Delivery Level‑3 assessment, highlighting process improvements, metric gains, architectural choices, challenges overcome, and future plans for broader digital transformation.

Case StudyOperationscontinuous delivery

0 likes · 12 min read

How Zhengzhou Exchange’s Tech Team Earned Top‑Tier DevOps Level‑3 Delivery

Continuous Delivery 2.0

Oct 31, 2023 · Operations

Understanding Platform Engineering: Goals, Practices, and Differences from Traditional DevOps

The article explains platform engineering as an evolution of DevOps that emphasizes internal developer platforms, clear organizational goals, reduced friction for engineers, and practical, incremental solutions rather than over‑reliance on complex tools, highlighting its rising popularity and distinct approach.

Internal Developer PlatformOperationssoftware delivery

0 likes · 6 min read

Understanding Platform Engineering: Goals, Practices, and Differences from Traditional DevOps

Efficient Ops

Oct 30, 2023 · Operations

How Chinese Financial Firms Are Raising Their DevOps Maturity

The 21st GOPS Global Operations Conference in Shanghai unveiled the latest DevOps capability maturity assessment results, highlighting first‑time evaluations across exchanges, securities and fund companies, detailed improvements in delivery speed, test coverage and automation, and introducing the comprehensive DevOps standards now adopted industry‑wide.

Capability MaturityFinancial IndustryOperations

0 likes · 12 min read

How Chinese Financial Firms Are Raising Their DevOps Maturity

Efficient Ops

Oct 30, 2023 · Operations

How China’s Leading Banks Are Raising the Bar with DevOps Maturity Assessments

The 21st GOPS Global Operations Conference in Shanghai unveiled the latest DevOps capability maturity assessment results, highlighting how major Chinese banks and financial institutions have adopted DevOps standards to improve technology operations, agile development, security, and system tooling across multiple projects.

AgileMaturity AssessmentOperations

0 likes · 11 min read

How China’s Leading Banks Are Raising the Bar with DevOps Maturity Assessments