Tagged articles

Operations

3329 articles · Page 27 of 34

Sep 12, 2018 · Artificial Intelligence

How Alibaba’s XSigma AI Engine Revolutionizes Customer Service Scheduling

The XSigma system combines AI‑driven demand forecasting, real‑time optimization, visual decision‑making and intelligent training to automatically schedule, scale, balance load and match customers with the best agents, dramatically improving resource utilization and user experience for Alibaba’s massive CCO operation.

Artificial IntelligenceMachine LearningOperations

0 likes · 19 min read

How Alibaba’s XSigma AI Engine Revolutionizes Customer Service Scheduling

dbaplus Community

Sep 11, 2018 · Operations

How Qunar’s Fault Injection Platform Ensures High‑Availability in Complex Backend Systems

Qunar built a fault‑injection platform that dynamically injects runtime errors into its densely coupled backend services, enabling verification of degradation and circuit‑breaker strategies, with a four‑part architecture comprising a web UI, deployment system, command server, and Java agents using Instrumentation‑API for bytecode weaving.

AOPFault InjectionJava Instrumentation

0 likes · 13 min read

How Qunar’s Fault Injection Platform Ensures High‑Availability in Complex Backend Systems

DevOps

Sep 10, 2018 · Operations

Challenges and DevOps Transformation in Traditional Financial Enterprises

This talk examines how traditional financial institutions, facing intense internet disruption, struggle with DevOps adoption, highlighting real-world case studies, the importance of granularity and decoupling, internal innovation mechanisms, and practical steps such as physical Kanban, CI/CD pipelines, and Git workflows to improve efficiency.

Operationsdevopsfinancial services

0 likes · 14 min read

Challenges and DevOps Transformation in Traditional Financial Enterprises

Youzan Coder

Sep 7, 2018 · Operations

How We Built a Configurable Online Test Monitoring System for Real‑Time CI/CD Alerts

This article details the design, evolution, and implementation of an online test‑monitoring platform that transforms CI/CD pipelines into proactive alerting systems, covering the initial Spring‑based prototype, its shortcomings, the 2.0 configurable and visual redesign, plugin architecture, and future distributed deployment plans.

CI/CDOperationsSpring

0 likes · 15 min read

How We Built a Configurable Online Test Monitoring System for Real‑Time CI/CD Alerts

360 Quality & Efficiency

Sep 5, 2018 · Operations

Jenkins Migration Guide: Environment Preparation and Step-by-Step Procedure

This article provides a detailed Jenkins migration guide, covering environment preparation, Tomcat configuration, permission settings, script adjustments, data copying, and troubleshooting tips to ensure a smooth transition to a new production server.

CI/CDJenkinsOperations

0 likes · 4 min read

Jenkins Migration Guide: Environment Preparation and Step-by-Step Procedure

DevOps

Sep 5, 2018 · Operations

Five Essential Flow Metrics for Effective DevOps Transformations

This article explains five essential flow metrics—Flow Time, Flow Efficiency, WIP Report, Aging Report, and Flow Distribution—showing how they help technology companies measure outcomes, improve predictability, and optimize DevOps transformations through data‑driven insights.

OperationsPerformancedevops

0 likes · 11 min read

Five Essential Flow Metrics for Effective DevOps Transformations

Qunar Tech Salon

Sep 5, 2018 · Operations

Tencent SNG Operations: Business Profiling for Capacity Planning, Activity Modeling, and Multi‑Region Deployment

The article explains how Tencent's SNG operations team uses business profiling—including capacity, activity, core‑link, and SET models—to address performance testing across device types, forecast activity‑driven resource needs, identify core versus peripheral services, and plan reliable multi‑region deployments.

Operationsbusiness profilingcapacity planning

0 likes · 9 min read

Tencent SNG Operations: Business Profiling for Capacity Planning, Activity Modeling, and Multi‑Region Deployment

MaGe Linux Operations

Sep 2, 2018 · Operations

Essential Linux Ops Interview Guide: 30+ Questions & Solutions

A comprehensive collection of Linux operations interview questions and answers covering topics such as system maintenance, networking, load balancing, RAID, MySQL, scripting, security, and troubleshooting, providing practical guidance for candidates seeking high‑pay Linux sysadmin roles.

LinuxOperationsinterview

0 likes · 42 min read

Essential Linux Ops Interview Guide: 30+ Questions & Solutions

Qunar Tech Salon

Aug 30, 2018 · Databases

Understanding MySQL Lock Mechanisms: Metadata Locks, InnoDB Locks, and Source Code Insights

This article provides a comprehensive overview of MySQL's lock architecture, covering the two‑layer server/storage engine design, metadata (MDL) locks, InnoDB row and gap locks, transaction isolation levels, and practical debugging techniques using source‑code entry points and real‑world examples.

Database InternalsInnoDBLocks

0 likes · 18 min read

Understanding MySQL Lock Mechanisms: Metadata Locks, InnoDB Locks, and Source Code Insights

360 Tech Engineering

Aug 29, 2018 · Operations

Monitoring Elasticsearch Performance: Host‑Level System and Network Metrics, Cluster Health, and Resource Saturation

This article continues the Elasticsearch performance monitoring series by detailing host‑level system and network metrics, cluster health and node availability, resource saturation, and related errors, providing practical guidance on disk space, I/O, CPU, network throughput, file descriptors, HTTP connections, thread pools, caches, pending tasks, and failed GET requests.

Cluster healthElasticsearchOperations

0 likes · 14 min read

Monitoring Elasticsearch Performance: Host‑Level System and Network Metrics, Cluster Health, and Resource Saturation

Efficient Ops

Aug 28, 2018 · Operations

How to Detect and Resolve Time‑Series Anomalies in Modern AIOps

This article explains practical approaches for time‑series anomaly detection, multi‑dimensional drill‑down analysis, alarm‑convergence root‑cause analysis, and future AIOps planning, combining statistical methods, unsupervised learning, and supervised models to improve monitoring accuracy and operational efficiency.

AIOpsOperationsRoot Cause Analysis

0 likes · 20 min read

How to Detect and Resolve Time‑Series Anomalies in Modern AIOps

Alibaba Cloud Developer

Aug 28, 2018 · Operations

How Alibaba Achieves Full‑Link Business Monitoring: A Practical Guide

Alibaba’s infrastructure team introduces a full‑link business monitoring approach that visualizes end‑to‑end health from a business perspective, unifies metrics, automates data collection, and leverages intelligent baseline alerts, enabling rapid issue detection, precise root‑cause analysis, and fine‑grained dimension monitoring across services.

AlibabaOperationsbusiness metrics

0 likes · 11 min read

How Alibaba Achieves Full‑Link Business Monitoring: A Practical Guide

Qunar Tech Salon

Aug 23, 2018 · Operations

Alibaba Search Middle Platform DevOps Practices: Sophon, Bahamut, and AIOps

This article details Alibaba's three‑year journey building a search middle platform, describing how DevOps, goal‑driven operations, and AI‑assisted automation (Sophon, Bahamut, and AIOps) were introduced to improve scalability, stability, and efficiency for large‑scale search services.

AIOpsBahamutOperations

0 likes · 16 min read

Alibaba Search Middle Platform DevOps Practices: Sophon, Bahamut, and AIOps

dbaplus Community

Aug 22, 2018 · Operations

When Ops Gets Blamed: Three Real‑World Troubleshooting Cases and What They Teach

The article shares three detailed production incidents—an Oracle overload, a blockchain media service overload, and a 502 failure in an Nginx‑Tomcat rental app—explaining how the author diagnosed, mitigated, and permanently resolved each problem, and distilling key operational lessons.

NginxOperationsOracle

0 likes · 9 min read

When Ops Gets Blamed: Three Real‑World Troubleshooting Cases and What They Teach

Efficient Ops

Aug 21, 2018 · Operations

How Tencent SNG Uses Business Profiling to Optimize Capacity, Activity, and Multi‑Region Deployment

This article explains how Tencent's SNG operations team builds and applies business profiling models—including capacity, activity, core‑link, and SET planning—to predict performance, automate scaling, identify critical services, and efficiently distribute workloads across multiple regions.

Operationsactivity modelingcapacity planning

0 likes · 11 min read

How Tencent SNG Uses Business Profiling to Optimize Capacity, Activity, and Multi‑Region Deployment

HomeTech

Aug 21, 2018 · Operations

Automated Asset Collection for CMDB Using Puppet Facter and Assets_Report

This article explains how to build an automated CMDB asset collection system by extending Puppet's Facter with custom plugins, using a custom Report Processor to post data to an AutoBank service, and deploying a Python/Django API server for storage and retrieval.

Asset CollectionAutomationCMDB

0 likes · 7 min read

Automated Asset Collection for CMDB Using Puppet Facter and Assets_Report

MaGe Linux Operations

Aug 20, 2018 · Operations

Essential Linux Performance Tools: Quick Guide to Diagnose System Bottlenecks

This article compiles and explains a set of Linux command‑line utilities—including uptime, dmesg, vmstat, mpstat, pidstat, iostat, free, sar and top—showing how to interpret their output to quickly identify CPU, memory, I/O, and network performance issues, with practical examples and key columns to monitor.

Command-line ToolsLinuxOperations

0 likes · 18 min read

Essential Linux Performance Tools: Quick Guide to Diagnose System Bottlenecks

Efficient Ops

Aug 15, 2018 · Operations

Why Multi‑Threaded Downloads Spike Bandwidth and How to Diagnose Them

This article examines a real‑world case where a client’s multi‑threaded download caused sudden internet‑outbound bandwidth congestion, details the packet‑level investigation that revealed partial HTTP requests, explains the underlying network traffic analysis architecture, and outlines how automated monitoring and alerts improve operations efficiency.

Operationsbandwidth monitoringmulti-threaded download

0 likes · 10 min read

Why Multi‑Threaded Downloads Spike Bandwidth and How to Diagnose Them

Big Data and Microservices

Aug 15, 2018 · Operations

What Is APM? A Deep Dive into Application Performance Management and Top Open‑Source Tools

This article explains Application Performance Management (APM), its role in monitoring distributed and micro‑service systems, outlines the five‑dimensional APM model, details core monitoring functions, and reviews leading open‑source APM solutions such as PinPoint, Zipkin, SkyWalking, Prometheus, CAT and Hawkular.

APMDistributed TracingOperations

0 likes · 8 min read

What Is APM? A Deep Dive into Application Performance Management and Top Open‑Source Tools

DevOps

Aug 10, 2018 · Operations

Effective Strategies for Promoting DevOps with Minimal Risk and Cost

This article examines how enterprises can adopt DevOps with minimal risk and cost by leveraging agile management, continuous delivery frameworks like the 100‑to‑100 model, Conway’s Law, automation, scripting, and containerization with Docker, while also presenting a recruitment call for DevOps engineers.

AutomationConway's LawDocker

0 likes · 9 min read

Effective Strategies for Promoting DevOps with Minimal Risk and Cost

Efficient Ops

Aug 9, 2018 · Operations

How a Bank Built an Automated Operations Platform with Ansible and Open‑Source Tools

This article outlines the motivations, design principles, system architecture, and key tools—including Cobbler, Ignite‑UX, WSUS, and Ansible—behind a bank’s automated operations platform, and details Ansible’s features, capabilities across Linux, HPUX, Windows and OpenStack, and its practical application scenarios such as batch changes, software installation, and environment delivery.

AnsibleAutomationCloud

0 likes · 22 min read

How a Bank Built an Automated Operations Platform with Ansible and Open‑Source Tools

58 Tech

Aug 8, 2018 · Databases

58 Cloud DB Platform: Architecture, Automation, and Intelligent Operations

The article presents a detailed case study of the 58 Cloud DB Platform, describing its architecture, automated workflow using Celery and Ansible, and intelligent features such as server selection and alarm merging powered by machine‑learning, highlighting how it streamlines MySQL, Redis, and MongoDB operations for developers and DBAs.

AutomationMachine LearningMongoDB

0 likes · 10 min read

58 Cloud DB Platform: Architecture, Automation, and Intelligent Operations

Qunar Tech Salon

Aug 7, 2018 · Operations

Comprehensive DevOps Glossary, Tool Periodic Table, and Skill Roadmap

This article presents an extensive DevOps glossary covering key terms and practices, a detailed periodic table of DevOps tools, and a skill roadmap outlining the essential knowledge and technologies needed to successfully implement DevOps in modern software delivery.

AutomationOperationscontinuous delivery

0 likes · 16 min read

Comprehensive DevOps Glossary, Tool Periodic Table, and Skill Roadmap

Efficient Ops

Aug 6, 2018 · Cloud Native

How We Built a Hybrid Container‑VM Private Cloud: Lessons from a Large‑Scale Deployment

This article details the challenges and solutions encountered while transitioning a rapidly growing financial services platform from a VM‑centric private cloud to a hybrid environment that combines containers and virtual machines, covering network integration, IP management, container image standards, resource isolation, scheduling compatibility, and future lightweight container strategies.

MacvlanOperationsPrivate Cloud

0 likes · 10 min read

How We Built a Hybrid Container‑VM Private Cloud: Lessons from a Large‑Scale Deployment

ITPUB

Aug 3, 2018 · Operations

How to Monitor Log Files in Real-Time with Python: 3 Simple Methods

When high service reliability demands immediate detection of slow requests, this guide shows three Python techniques—using tail via subprocess, file.tell/seek loops, and a generator with yield—to continuously watch log files and trigger alerts as soon as specified patterns appear.

Log MonitoringOperationsPython

0 likes · 4 min read

How to Monitor Log Files in Real-Time with Python: 3 Simple Methods

360 Zhihui Cloud Developer

Aug 2, 2018 · Operations

How to Build Systems That Run Stably for 10 Years

This article shares practical methodologies for building software systems that remain stable for a decade, covering goal setting, holistic design, operator and data‑center choices, cross‑region active‑active challenges, server and platform selection, comprehensive monitoring, and the importance of continuous personal improvement.

OperationsSoftware Architecturecontinuous improvement

0 likes · 7 min read

How to Build Systems That Run Stably for 10 Years

Efficient Ops

Aug 1, 2018 · Operations

How Tencent Revolutionized Monitoring: From IDC Crises to AI‑Driven AIOps

This talk by Tencent’s monitoring R&D lead outlines a decade of evolution in large‑scale monitoring, covering real‑world incident cases, the three drivers behind architectural upgrades, the implementation of a three‑dimensional monitoring framework, and the application of AI‑powered AIOps for precise, rapid anomaly detection.

AIOpsBig DataCloud Computing

0 likes · 18 min read

How Tencent Revolutionized Monitoring: From IDC Crises to AI‑Driven AIOps

DevOps

Aug 1, 2018 · Operations

A Simple DevOps Value System: Business, Architecture, Technology, People, Process, Tools, Principles, Methods, Practices

The article presents a straightforward DevOps value framework that links business, architecture, technology, people, process, tools, principles, methods, and practices, illustrating how each element supports the others and offering practical guidance for startups, micro‑service adoption, and economic decision‑making in software delivery.

Operationsbusinessdevops

0 likes · 12 min read

A Simple DevOps Value System: Business, Architecture, Technology, People, Process, Tools, Principles, Methods, Practices

Efficient Ops

Jul 30, 2018 · Big Data

Building a Simple Yet Scalable Big Data Platform for Live Streaming with Consul

This article shares how a fast‑growing short‑video company designed a lean big‑data architecture, introduced the ALPS foundation service, and leveraged Consul to automate CMDB, job distribution, service discovery, and monitoring, enabling efficient growth with minimal operational overhead.

ALPSAutomationBig Data

0 likes · 18 min read

Building a Simple Yet Scalable Big Data Platform for Live Streaming with Consul

MaGe Linux Operations

Jul 28, 2018 · Operations

Master the Most Common Ansible Modules: From ping to get_url

This guide introduces the most frequently used Ansible modules—including ping, setup, file, copy, service, cron, yum, user, group, synchronize, mount, and get_url—explaining their purpose, key options, and providing concrete command‑line examples to help you automate system tasks efficiently.

AnsibleAutomationModules

0 likes · 15 min read

Master the Most Common Ansible Modules: From ping to get_url

Open Source Tech Hub

Jul 19, 2018 · Operations

How to Retrieve Jenkins Initial Admin Password on Windows

This guide explains what Jenkins is—a free, powerful CI/CD platform for any build or deployment—and shows the exact command to display the initial administrator password stored in the Jenkins home directory on a Windows host.

CI/CDInitialAdminPasswordJenkins

0 likes · 2 min read

How to Retrieve Jenkins Initial Admin Password on Windows

360 Tech Engineering

Jul 18, 2018 · Operations

How to Monitor Elasticsearch Performance: Query, Indexing, and JVM Metrics

The article explains how to proactively monitor Elasticsearch by covering key performance areas such as query and indexing latency, JVM heap and garbage‑collection behavior, and host‑level system metrics, providing practical guidance and visual diagrams for effective operations management.

ElasticsearchJVMOperations

0 likes · 12 min read

How to Monitor Elasticsearch Performance: Query, Indexing, and JVM Metrics

UCloud Tech

Jul 18, 2018 · Operations

How to Build a Unified Monitoring System for Microservices: Key Dimensions & Scenarios

This article explains how microservice architectures require a comprehensive monitoring system, covering data, resource, and code dimensions, and describes eight atomic monitoring scenarios such as URL, host, product, component, custom, resource, APM, and event monitoring to help engineers design effective observability solutions.

APMObservabilityOperations

0 likes · 7 min read

How to Build a Unified Monitoring System for Microservices: Key Dimensions & Scenarios

转转QA

Jul 18, 2018 · Operations

Improving Test Efficiency and Continuous Integration with the Beetle Platform: An Interface Testing Case Study

The article discusses how embracing speed and flexible configuration in QA, exemplified by the Beetle platform’s interface testing workflow, can improve project efficiency, enable unified automated testing, and integrate continuous integration, while emphasizing that tools alone cannot guarantee test quality.

Continuous IntegrationOperationsTestNG

0 likes · 9 min read

Improving Test Efficiency and Continuous Integration with the Beetle Platform: An Interface Testing Case Study

Architecture Digest

Jul 18, 2018 · Operations

A Comprehensive Overview of ELK Stack Tools for Efficient Development and Operations

This article presents a curated collection of ELK Stack utilities—including head plugins, Kibana extensions, cluster monitoring, migration, security, visualization, automation, SQL, and alerting tools—designed to enhance Elasticsearch development, management, and operational efficiency for developers and ops teams.

ELKElasticsearchOperations

0 likes · 9 min read

A Comprehensive Overview of ELK Stack Tools for Efficient Development and Operations

DevOps

Jul 16, 2018 · Operations

Why Traditional Maturity Models Are Obsolete for DevOps and an Introduction to the DevOps Capability Growth Model

The article argues that static, five‑level maturity models are unsuitable for DevOps, outlines their three main shortcomings, and presents the data‑driven DevOps Capability Growth Model with its five capability categories and suggested measurement practices.

Capability GrowthMaturity ModelOperations

0 likes · 10 min read

Why Traditional Maturity Models Are Obsolete for DevOps and an Introduction to the DevOps Capability Growth Model

Efficient Ops

Jul 12, 2018 · Big Data

How Sogou Built a Scalable Big Data Platform: Lessons from a User Perspective

This article shares Sogou's journey in constructing a large‑scale big data platform, covering business overview, the evolution of its operations infrastructure, productization practices, security measures, and practical tips for medium‑size teams seeking to add value from data.

Big DataData PlatformData Security

0 likes · 22 min read

How Sogou Built a Scalable Big Data Platform: Lessons from a User Perspective

Efficient Ops

Jul 11, 2018 · Operations

How Tencent Scales Automated Operations with Package Management and CMDB

This article outlines Tencent's automated operations framework, covering the evolution of its package management system, multi‑center organizational structures, CMDB resource imaging, process automation, version control, and release management, while sharing practical lessons and pitfalls from real‑world deployments.

AutomationCMDBOperations

0 likes · 21 min read

How Tencent Scales Automated Operations with Package Management and CMDB

ITPUB

Jul 11, 2018 · Operations

Parallelizing Bash Loops Without Extra Tools: Practical Shell Techniques

This article explains how Linux administrators can replace slow serial shell loops with concurrent executions using background processes, simulated queues, and FIFO pipes, providing step‑by‑step scripts, performance comparisons, and practical guidelines to control process counts safely.

OperationsParallelScripting

0 likes · 10 min read

Parallelizing Bash Loops Without Extra Tools: Practical Shell Techniques

Efficient Ops

Jul 8, 2018 · Operations

How to Seamlessly Take Over New Ops Responsibilities: A Practical Checklist

This guide outlines a step‑by‑step approach for taking over new operational responsibilities, covering communication with development leaders, business overview, asset inventory, basic and business‑specific monitoring, standardization, SOP creation, failure drills, cost and capacity planning, and effective cross‑team communication.

Asset ManagementOperationsStandardization

0 likes · 10 min read

How to Seamlessly Take Over New Ops Responsibilities: A Practical Checklist

Efficient Ops

Jul 3, 2018 · Operations

From Fire‑Fighting to Proactive Delivery: How Meizu Built a Cloud‑Native CI/CD Ops Platform

Meizu’s operations team transformed reactive firefighting into proactive delivery by building a cloud‑native continuous integration platform, detailing their automation journey, challenges, platform components, release evolution, and intelligent ops that together boost quality, efficiency, cost control, and security.

AutomationContinuous IntegrationOperations

0 likes · 16 min read

From Fire‑Fighting to Proactive Delivery: How Meizu Built a Cloud‑Native CI/CD Ops Platform

MaGe Linux Operations

Jul 1, 2018 · Operations

Essential Linux Commands and Options: A Comprehensive Guide

This article provides a detailed reference of common Linux commands—including ls, mv, cp, scp, rm, touch, cd, mkdir, find, grep, tar, chmod, and many others—explaining each option, flag, and typical usage examples to help system administrators and developers work efficiently in the shell.

LinuxOperationsShell

0 likes · 34 min read

Essential Linux Commands and Options: A Comprehensive Guide

dbaplus Community

Jun 30, 2018 · Operations

How to Seamlessly Take Over a New Service’s Operations: 16 Essential Steps

This comprehensive guide outlines sixteen practical steps—from initial communication with developers to capacity planning and incident response—to help engineers efficiently assume ownership of a new business’s operations while ensuring stability, security, and cost‑effectiveness.

OperationsSOPcapacity planning

0 likes · 11 min read

How to Seamlessly Take Over a New Service’s Operations: 16 Essential Steps

Dada Group Technology

Jun 29, 2018 · Operations

Standardizing Operations and Building a Public‑Cloud CMDB to Accelerate Deployment

The article describes how Dada‑JD Daojia tackled operational bottlenecks by introducing standards, automating processes, building a public‑cloud CMDB, and implementing self‑service code release, reducing a multi‑machine scaling operation from 18 minutes to about five minutes during major sales events.

AutomationCMDBCloud

0 likes · 7 min read

Standardizing Operations and Building a Public‑Cloud CMDB to Accelerate Deployment

Efficient Ops

Jun 27, 2018 · Operations

How ZhiYun Job Platform Revolutionizes Automated Operations

The article introduces the ZhiYun Job Platform, detailing its evolution from basic tool construction to advanced orchestration and API integration, highlighting how it standardizes, automates, and secures repetitive operational tasks for enterprises across cloud environments.

AutomationCloud ComputingOperations

0 likes · 10 min read

How ZhiYun Job Platform Revolutionizes Automated Operations

DataFunTalk

Jun 24, 2018 · Big Data

OPPO Big Data Platform Operations and R&D Practices: Architecture, Scaling, and Monitoring

This article summarizes OPPO's rapid growth of its big‑data platform, detailing the three‑layer architecture, the evolution from Flume‑Kafka to NiFi for data ingestion, the upgrade of the OFlow task scheduler, comprehensive monitoring of data, resources and task SLA, and the development of a self‑service analytics tool called InnerEye to ensure stability, efficiency, and security.

AirflowBig DataNiFi

0 likes · 10 min read

OPPO Big Data Platform Operations and R&D Practices: Architecture, Scaling, and Monitoring

Architecture Digest

Jun 24, 2018 · Databases

Designing a High‑Availability Redis Service with Sentinel

This article explains how to build a highly available Redis service using Sentinel, discusses failure scenarios, compares single‑instance, master‑slave, and multi‑Sentinel architectures, and provides practical guidance on deployment, VIP handling, and operational considerations.

OperationsRedisSentinel

0 likes · 11 min read

Designing a High‑Availability Redis Service with Sentinel

ITPUB

Jun 23, 2018 · Operations

How to Diagnose Server Failures Within the First 5 Minutes

This guide walks you through a systematic, step‑by‑step process for quickly identifying the root cause of a server outage, covering everything from gathering context and checking who is logged in to inspecting processes, network services, hardware, I/O performance, filesystem mounts, and relevant logs.

Operationsmonitoringserver troubleshooting

0 likes · 8 min read

How to Diagnose Server Failures Within the First 5 Minutes

ITPUB

Jun 20, 2018 · Databases

How JD Logistics Scales Warehouse Databases with Automation and High‑Availability Strategies

This article details JD Logistics' warehouse management system database architecture, the shift between local and centralized deployments, and how the UDBA automation platform, performance tuning, fault‑self‑healing, data archiving, and MySQL upgrades together ensure high performance and high availability across thousands of warehouses.

AutomationDatabasesOperations

0 likes · 13 min read

How JD Logistics Scales Warehouse Databases with Automation and High‑Availability Strategies

21CTO

Jun 19, 2018 · Operations

How Netflix’s Full‑Cycle Developers Eliminate the DevOps Bottleneck

Netflix’s Edge Engineering team shares how adopting a full‑cycle developer model—where engineers own design, development, testing, deployment, operations, and support—reduces hand‑off delays, improves feedback loops, and scales productivity across the entire software lifecycle.

Full-cycle DevelopmentNetflixOperations

0 likes · 13 min read

How Netflix’s Full‑Cycle Developers Eliminate the DevOps Bottleneck

Ctrip Technology

Jun 19, 2018 · Artificial Intelligence

AIOps at Ctrip: Concepts, Typical Application Scenarios, and Algorithmic Practices

This article introduces Ctrip's AIOps journey, explaining the AI‑driven operations concept, showcasing typical use cases such as anomaly detection, intelligent fault diagnosis, and resource utilization improvement, and detailing the underlying statistical and machine‑learning algorithms that enable these capabilities.

AIOpsCtripMachine Learning

0 likes · 16 min read

AIOps at Ctrip: Concepts, Typical Application Scenarios, and Algorithmic Practices

AntTech

Jun 19, 2018 · Cloud Native

Financial‑Grade Cloud Native Architecture: Challenges, Practices, and Transformation Path

This article outlines the evolution of financial‑grade cloud native architecture, describing its origins, key principles, incremental delivery, sustainable innovation, and evolutionary planning, while addressing scalability, disaster‑recovery, distributed‑transaction, and elastic resource challenges with practical Ant Financial case studies.

DatabasesOperationsfinancial technology

0 likes · 37 min read

Financial‑Grade Cloud Native Architecture: Challenges, Practices, and Transformation Path

DevOps

Jun 14, 2018 · Operations

Understanding DevOps: Role Merging, Automation, and Organizational Impact

This article examines how DevOps emerged from the merging of development and operations roles, explores automation practices in small and large teams, outlines the three-step DevOps workflow, and discusses the cultural and organizational challenges of adopting DevOps at scale.

AutomationContinuous IntegrationOperations

0 likes · 9 min read

Understanding DevOps: Role Merging, Automation, and Organizational Impact

Tencent Cloud Developer

Jun 14, 2018 · Operations

Tencent Cloud Database Massive Operations: Team Building, Automated Operations Platform, and Intelligent Practices

Tencent Cloud Database’s massive‑operation strategy combines a dedicated architect team, a three‑layer automated platform for resource, task and health management, and AI‑driven intelligent services that customize workloads, automate tuning, and enable proactive scaling and self‑healing across hundreds of thousands of instances.

AIAutomationOperations

0 likes · 11 min read

Tencent Cloud Database Massive Operations: Team Building, Automated Operations Platform, and Intelligent Practices

JD Tech

Jun 14, 2018 · Operations

Design and Implementation of a Lightweight Service Monitoring and Traffic Management System

This article shares the design and implementation of a lightweight, robust, and low‑intrusion monitoring management system for microservice traffic, detailing data collection via client filters, Redis‑based structured storage, alerting, rate‑limiting, degradation, and authorization mechanisms, and discusses performance optimizations and future improvements.

OperationsRedisTraffic Management

0 likes · 11 min read

Design and Implementation of a Lightweight Service Monitoring and Traffic Management System

DevOps Cloud Academy

Jun 11, 2018 · Operations

Creating and Configuring Jenkins Project Views

This guide explains how to create a new view in Jenkins, configure its settings, and modify the view later through the edit interface, providing step‑by‑step instructions with illustrative screenshots for effective job organization.

CI/CDJenkinsOperations

0 likes · 1 min read

Creating and Configuring Jenkins Project Views

Programmer DD

Jun 7, 2018 · Operations

How to Build a High‑Availability RabbitMQ Cluster with Load Balancing

This guide explains the principles behind RabbitMQ clustering, shows how metadata synchronization works, compares design choices, and provides step‑by‑step instructions—including component installation, node configuration, HAProxy load‑balancing setup, and a sample architecture diagram—to create a reliable, scalable RabbitMQ cluster for production use.

ClusteringHAProxyOperations

0 likes · 16 min read

How to Build a High‑Availability RabbitMQ Cluster with Load Balancing

dbaplus Community

Jun 7, 2018 · Operations

Why Ceph’s Unlimited Scalability Isn’t As Simple As It Looks

The article examines Ceph’s claimed infinite scalability, cost advantages, and operational stability from an SRE perspective, comparing it with centralized systems like HDFS, and reveals practical challenges such as expansion granularity, crushmap rebalancing, utilization limits, and maintenance overhead.

CephDistributed storageHDFS

0 likes · 15 min read

Why Ceph’s Unlimited Scalability Isn’t As Simple As It Looks

ITPUB

Jun 5, 2018 · Operations

How to Diagnose CPU Spikes on Linux: A Real‑World Top and Thread Dump Walkthrough

This article walks through a practical Linux performance investigation, showing how to use the top command to pinpoint high‑CPU processes, examine thread details, convert thread IDs, analyze thread dumps for lock contention, and interpret key top output fields for effective troubleshooting.

CPULinuxOperations

0 likes · 6 min read

How to Diagnose CPU Spikes on Linux: A Real‑World Top and Thread Dump Walkthrough

Efficient Ops

Jun 4, 2018 · Operations

How QQ Built Multi‑Region Resilience with Set‑Based Deployment and Smart Scheduling

This article explains how QQ’s operations team designed a multi‑region, set‑based deployment architecture, tackled data synchronization, employed sharding strategies, and implemented flexible scheduling policies to ensure high availability and rapid disaster recovery for hundreds of millions of users.

DeploymentOperationsSet-Based

0 likes · 16 min read

How QQ Built Multi‑Region Resilience with Set‑Based Deployment and Smart Scheduling

DevOps

Jun 3, 2018 · R&D Management

The Dissolution of Roles in Workshop‑Style Teams: From Full‑Stack Engineers to the Vanishing DBA

The article examines how small, workshop‑style development teams blur and eventually eliminate traditional roles such as full‑stack engineers, DevOps practitioners, and DBAs, illustrating the shift from rigid role separation to overlapping responsibilities driven by speed, resource constraints, and modern tooling.

DBAFull-StackOperations

0 likes · 10 min read

The Dissolution of Roles in Workshop‑Style Teams: From Full‑Stack Engineers to the Vanishing DBA

MaGe Linux Operations

Jun 3, 2018 · Operations

Step-by-Step Guide to Install Zabbix 3.4.6 on CentOS 7 with MariaDB

This tutorial walks you through preparing a CentOS 7.4 system, installing MariaDB, configuring Zabbix 3.4.6 (including repository setup, database creation, service startup, PHP timezone adjustment, and web UI deployment), and verifies the monitoring platform is fully operational.

CentOSInstallationLinux

0 likes · 7 min read

Step-by-Step Guide to Install Zabbix 3.4.6 on CentOS 7 with MariaDB

Efficient Ops

May 30, 2018 · Databases

How SF Express Transformed Its Database Operations: From Legacy to Open‑Source, Distributed, and Intelligent Ops

This talk details SF Express’s journey from heterogeneous legacy databases to standardized open‑source, distributed architectures and intelligent operations, covering standardization, migration to open‑source, scaling with Mycat, automated resource pooling, and the ThinkDB platform that drives proactive, automated DBA workflows.

AutomationMycatOperations

0 likes · 18 min read

How SF Express Transformed Its Database Operations: From Legacy to Open‑Source, Distributed, and Intelligent Ops

Tencent Cloud Developer

May 30, 2018 · Operations

Tencent Hub: DevOps Best Practices and Workflow Architecture

Zou Hui explained Tencent Hub’s end‑to‑end DevOps platform, detailing how clarified, automated workflows—spanning code development, building, release, containerized plugins, and a multi‑level artifact registry—enable balanced quality and speed while supporting flexible, parallel execution and comprehensive permission‑controlled management across diverse deployment scenarios.

AutomationCloudOperations

0 likes · 10 min read

Tencent Hub: DevOps Best Practices and Workflow Architecture

Qunar Tech Salon

May 30, 2018 · Operations

Recap of the QInfrarch Session at the 2018 Qunar Technology Carnival

The QInfrarch special session of the 2018 Qunar Technology Carnival gathered a packed audience on May 27, featuring multiple technical talks on real‑time push architecture, IDC networking, ticket search, decentralization, multi‑datacenter redundancy, and fault‑injection platforms, followed by lively Q&A, networking, and enthusiastic follow‑up requests.

OperationsQInfrarchTech Conference

0 likes · 4 min read

Recap of the QInfrarch Session at the 2018 Qunar Technology Carnival

Efficient Ops

May 29, 2018 · Operations

How JD’s “Woodpecker” System Ensures Real‑Time E‑Commerce Activity Monitoring

The article explains JD’s Woodpecker monitoring system, detailing its architecture, functional and performance checks, use of headless Chrome and Puppeteer, scheduling and alert modules, and how it efficiently detects and resolves thousands of daily e‑commerce activity issues.

AutomationOperationsPerformance

0 likes · 11 min read

How JD’s “Woodpecker” System Ensures Real‑Time E‑Commerce Activity Monitoring

Efficient Ops

May 27, 2018 · Operations

Mastering High Availability and High Concurrency: Principles and Practical Techniques

This article outlines guiding principles, high‑availability strategies, and high‑concurrency techniques—covering stateless design, resource isolation, quota management, monitoring, degradation, rollback, and scaling—to help engineers build resilient, scalable systems while balancing cost and performance.

OperationsSystem Designfault tolerance

0 likes · 21 min read

Mastering High Availability and High Concurrency: Principles and Practical Techniques

ITFLY8 Architecture Home

May 27, 2018 · Information Security

How Google Secures Its Global Data Centers: Inside the Infrastructure

Google’s technical infrastructure—supporting services like Search, Gmail, G Suite, and GCP—employs layered physical, hardware, software, and operational security measures, including biometric access, custom secure chips, encrypted boot, service isolation, identity management, and robust DoS defenses to protect data and operations worldwide.

Data Center SecurityGoogleOperations

0 likes · 20 min read

How Google Secures Its Global Data Centers: Inside the Infrastructure

Efficient Ops

May 23, 2018 · Operations

How Alibaba Guarantees High‑Availability Ops for New Retail

This article explains Alibaba's GOC‑driven operation‑assurance solution for new retail, covering the sector's evolution, unique reliability challenges, a four‑pillar support framework—including high‑availability, mobile ops, emergency response, and change control—and real‑world best practices from Hema Fresh.

AlibabaOperationsemergency response

0 likes · 19 min read

How Alibaba Guarantees High‑Availability Ops for New Retail

Efficient Ops

May 21, 2018 · Operations

Mastering Service Performance: CPU, Memory, JVM & Linux Monitoring Guide

This comprehensive guide explains how to monitor and tune service performance by examining CPU load, system and JVM memory usage, buffer/cache concepts, key performance metrics such as response time, throughput, QPS, and provides essential Linux tools and commands for effective operations management.

JVMOperationsperformance monitoring

0 likes · 21 min read

Mastering Service Performance: CPU, Memory, JVM & Linux Monitoring Guide

MaGe Linux Operations

May 20, 2018 · Operations

Boost Your Linux Ops: Master Xargs, Background Jobs, and Advanced Monitoring Tricks

This guide walks Linux operators through practical uses of xargs, background execution with nohup, memory and CPU process ranking, multitail log aggregation, continuous ping logging, TCP state inspection, top‑IP discovery, and SSH port forwarding, each illustrated with real commands and output screenshots.

LinuxOperationsShell

0 likes · 10 min read

Boost Your Linux Ops: Master Xargs, Background Jobs, and Advanced Monitoring Tricks

DevOpsClub

May 11, 2018 · Operations

How Anti‑Fragility and GameDays Turn System Failures into Growth

This article explores anti‑fragility theory and real‑world DevOps practices such as Phoenix Server, Chaos Monkey, GameDays, and blameless post‑mortems, showing how organizations can transform inevitable failures into opportunities for resilience and continuous improvement.

Anti-FragilityBlameless CultureOperations

0 likes · 11 min read

How Anti‑Fragility and GameDays Turn System Failures into Growth

Efficient Ops

May 10, 2018 · Operations

How Ele.me Scaled to 10M+ Daily Orders with Multi‑Active Architecture

The talk details Ele.me’s rapid growth from 300k to over 10 million daily orders, describing the challenges of high‑concurrency, multi‑active micro‑service architecture, IDC planning, database refactoring, disaster‑recovery, NOC operations, and the systematic processes that enabled stable, scalable delivery across two data centers.

Cloud ComputingIDC planningOperations

0 likes · 19 min read

How Ele.me Scaled to 10M+ Daily Orders with Multi‑Active Architecture

Efficient Ops

May 9, 2018 · Operations

How eBay Automates Cross‑Platform Patch Deployment at Scale

This article details eBay's 11‑year journey in automating system‑wide patch deployment across Windows and Linux servers, covering challenges, process evolution, security considerations, testing strategies, and future plans for kernel hot‑patching and container‑based updates.

AutomationCross‑PlatformOperations

0 likes · 17 min read

How eBay Automates Cross‑Platform Patch Deployment at Scale

dbaplus Community

May 8, 2018 · Operations

How to Build Reliable Operations: From BCM to Google SRE Practices

This article examines the growing challenges of system availability in modern operations, explains the concept of availability and the N‑nine metric, introduces Business Continuity Management and Google SRE approaches, and provides concrete technical and managerial methods—including architecture standardization, scaling strategies, tooling, emergency drills, and incident‑centralized management—to improve operational reliability.

BCMIncident ManagementOperations

0 likes · 30 min read

How to Build Reliable Operations: From BCM to Google SRE Practices

Efficient Ops

May 8, 2018 · Operations

20 Proven Ops Automation Rules Every Team Should Follow

This article presents twenty practical principles for building and maintaining an effective, business‑oriented operations automation system, covering mindset, architecture, design, tooling, team composition, data handling, security, and implementation best practices for modern enterprises.

AutomationBest PracticesOperations

0 likes · 5 min read

20 Proven Ops Automation Rules Every Team Should Follow

MaGe Linux Operations

May 6, 2018 · Operations

6 Common Linux Ops Issues and How to Diagnose & Fix Them

Learn a systematic Linux troubleshooting workflow and detailed solutions for six typical operational problems—including filesystem corruption, disk space exhaustion, inode depletion, lingering deleted files, too‑many‑open‑files errors, and read‑only filesystem issues—complete with command‑line examples and step‑by‑step fixes.

FilesystemLinuxOperations

0 likes · 13 min read

6 Common Linux Ops Issues and How to Diagnose & Fix Them

Python Crawling & Data Mining

May 3, 2018 · Operations

How to Configure Cluster VM Network Settings on Linux: Step-by-Step Guide

This guide walks you through editing the network interface file on a master node, replicating the settings on slave nodes, and verifying connectivity with ping commands, providing a complete step-by-step process to configure a clustered virtual machine network on Linux.

Network ConfigurationOperationscluster

0 likes · 3 min read

How to Configure Cluster VM Network Settings on Linux: Step-by-Step Guide

dbaplus Community

May 2, 2018 · Big Data

Why Big Data Clusters Need a Robust Automated Monitoring & Alerting System

The article explains the unique challenges of monitoring and alerting in large‑scale big‑data environments, outlines the evolution and architecture of such systems, and provides detailed guidance on data collection, time‑series storage, rule definition, and alert actions for reliable operations.

Operationsarchitecturemonitoring

0 likes · 17 min read

Why Big Data Clusters Need a Robust Automated Monitoring & Alerting System

Efficient Ops

May 2, 2018 · Operations

How Tencent Scales 20,000+ Servers: Lessons from SNG Operations

This talk outlines the five major challenges faced by Tencent's SNG component operations—geographic distribution, HTTPS certificate management, massive device failures, long‑term maintenance, and large‑scale scaling—and describes the underlying architecture, operational principles, and practical techniques used to automate and reliably support millions of users during peak events.

AutomationOperationsTencent

0 likes · 20 min read

How Tencent Scales 20,000+ Servers: Lessons from SNG Operations

System Architect Go

May 1, 2018 · Operations

How to Set Up Real-Time Logging with Slack

This guide explains step‑by‑step how to configure Slack as a real‑time log channel by creating a workspace, setting up a channel, generating an incoming webhook URL, and posting JSON log messages via HTTP so you can monitor application logs instantly.

OperationsReal-time loggingSlack

0 likes · 2 min read

How to Set Up Real-Time Logging with Slack

Efficient Ops

Apr 25, 2018 · Operations

How Tencent Cut Over $1B in Bandwidth Costs with Smart Image & Video Compression

This article shares Tencent SNG's practical experience in bandwidth cost optimization, detailing how advanced image and video compression techniques, adaptive resolution, AI‑driven super‑resolution, and efficient transcoding pipelines reduced over a billion yuan in cash flow while preserving user experience and product quality.

AIOperationsbandwidth optimization

0 likes · 24 min read

How Tencent Cut Over $1B in Bandwidth Costs with Smart Image & Video Compression

Architecture and Beyond

Apr 22, 2018 · Backend Development

Comprehensive Guide to Building a Backend Technology Stack for Startup Companies

This article provides a detailed, step‑by‑step overview of how startups can design, select, and integrate languages, components, processes, and systems—including databases, RPC frameworks, monitoring, CI/CD, and cloud services—to construct a robust, scalable backend architecture that balances cost, performance, and operational maturity.

Operationsbackendcomponents

0 likes · 31 min read

Comprehensive Guide to Building a Backend Technology Stack for Startup Companies

Efficient Ops

Apr 19, 2018 · Operations

How Alibaba Prevents Release Failures in Billion‑Dollar Transactions

Alibaba’s experts share how they boost release speed and stability for trillion‑dollar transactions by combining P2P file distribution, automated monitoring, AI‑driven anomaly detection, and an unattended release system that automatically pauses risky deployments, reducing faults while handling massive e‑commerce workloads.

AI monitoringDeploymentOperations

0 likes · 25 min read

How Alibaba Prevents Release Failures in Billion‑Dollar Transactions

Meituan Technology Team

Apr 19, 2018 · Operations

How Meituan‑Dianping Built a 100% High‑Availability Core Transaction System

This article analyzes the rapid growth challenges of Meituan‑Dianping's core payment flow, explains key availability metrics such as MTBF and MTTR, and presents a comprehensive set of architectural, operational, and tooling strategies—including dependency decoupling, timeout tuning, circuit breaking, and full‑link stress testing—to achieve stable, fault‑tolerant transactions.

High AvailabilityOperationscircuit breaker

0 likes · 20 min read

How Meituan‑Dianping Built a 100% High‑Availability Core Transaction System

ITPUB

Apr 19, 2018 · Databases

How Didi Scales MySQL: From Manual Ops to Full Automation

This article outlines Didi's MySQL database architecture, the challenges of managing thousands of instances, and the step‑by‑step automation framework—including dbproxy, high‑availability, backup, monitoring, and deployment modules—that reduces manual DBA work by over 70%.

DBADatabase AutomationDidi

0 likes · 14 min read

How Didi Scales MySQL: From Manual Ops to Full Automation

DevOps

Apr 17, 2018 · Operations

Managing Shared Configuration in VSTS Using Library Variable Groups

This guide explains how to centralize duplicated VSTS deployment parameters and PowerShell scripts by creating Library variable groups, setting their security, and referencing them in Release definitions to simplify configuration management across multiple projects.

Azure DevOpsCI/CDLibrary

0 likes · 3 min read

Managing Shared Configuration in VSTS Using Library Variable Groups

MaGe Linux Operations

Apr 13, 2018 · Operations

How Alibaba Built Its DevOps Automation Platform: Key Practices and Lessons

This article outlines Alibaba's DevOps transformation, describing the three operational stages, four foundations of automated operations, CI/CD implementation, essential system characteristics, development‑defined operations, config‑driven changes, and the tools that enable high‑availability, efficiency, and scalability.

AlibabaAutomationOperations

0 likes · 10 min read

How Alibaba Built Its DevOps Automation Platform: Key Practices and Lessons

Alibaba Cloud Developer

Apr 11, 2018 · Fundamentals

How to Choose, Use, and Extend Open‑Source Projects Without Reinventing the Wheel

This article shares practical guidelines for selecting suitable open‑source projects, safely integrating them into production, and extending them when needed, while highlighting common pitfalls, maturity checks, operational considerations, and risk‑mitigation strategies for developers.

Best PracticesOperationsproject selection

0 likes · 13 min read

How to Choose, Use, and Extend Open‑Source Projects Without Reinventing the Wheel

Practical DevOps Architecture

Apr 10, 2018 · Operations

Ansible Installation and Configuration Guide

This guide explains how to install Ansible via yum or pip, outlines its directory layout, describes host inventory setup, details SSH key configuration for password‑less access, and introduces common modules such as ping for basic connectivity testing.

AnsibleAutomationInstallation

0 likes · 4 min read

Ansible Installation and Configuration Guide

MaGe Linux Operations

Apr 9, 2018 · Operations

Master Zabbix Alerts: Email, Phone, SMS, WeChat & More with Code Samples

This article explains the most common Zabbix alert methods—including email, phone call, SMS, WeChat, and other channels—detailing their implementation ideas, required parameters, action configurations, and providing Python code snippets to retrieve performance graphs and send notifications.

AlertEmailOperations

0 likes · 8 min read

Master Zabbix Alerts: Email, Phone, SMS, WeChat & More with Code Samples

Efficient Ops

Apr 8, 2018 · Operations

Why ELK Is the Ultimate Solution for Log Management and Monitoring

This article introduces the ELK stack—Elasticsearch, Logstash, and Kibana—explaining its core components, architecture, comparison with databases and grep, typical use cases across security, networking, and application monitoring, deployment considerations, challenges, SaaS prospects, and recommended learning resources.

ELKElasticsearchOperations

0 likes · 10 min read

Why ELK Is the Ultimate Solution for Log Management and Monitoring

Architecture Digest

Apr 7, 2018 · Operations

Comparison of Service Discovery Tools: Zookeeper, etcd, and Consul

This article compares three popular service discovery solutions—Zookeeper, etcd, and Consul—detailing their architectures, features, integration methods, strengths, and weaknesses, and concludes with a recommendation for using Consul in multi‑data‑center environments while noting its real‑time notification limitations.

ConsulEtcdOperations

0 likes · 8 min read

Comparison of Service Discovery Tools: Zookeeper, etcd, and Consul

Efficient Ops

Apr 2, 2018 · Operations

How Bilibili Revamped Its Monitoring Architecture: From Zabbix to Dapper

An in‑depth look at Bilibili’s multi‑layer monitoring overhaul, detailing the shift from a monolithic Zabbix setup to micro‑service‑based ELK, Dapper, Misaka, Traceon and Lancer systems, and how layered observability improves fault detection across business, application, and infrastructure levels.

Distributed TracingObservabilityOperations

0 likes · 10 min read

How Bilibili Revamped Its Monitoring Architecture: From Zabbix to Dapper

MaGe Linux Operations

Mar 31, 2018 · Operations

Essential Linux Ops Tools: Monitoring, Performance, and Security Utilities

This article introduces a curated set of practical Linux operations tools—including Nethogs, IOZone, IOTop, IPtraf, IFTop, Fail2ban, Tmux, NMON, MultiTail, NMap, and Httperf—detailing their purpose, installation steps, key command‑line options, and usage examples to help system administrators monitor bandwidth, disk I/O, processes, logs, and security on Linux servers.

LinuxOperationsPerformance

0 likes · 11 min read

Essential Linux Ops Tools: Monitoring, Performance, and Security Utilities

JD Tech

Mar 30, 2018 · Backend Development

Effective Logging Practices and Standards for Java Backend Systems

This article explains why proper logging is crucial for Java backend maintenance, defines useful log levels, outlines team rules and best‑practice implementations—including traceId usage, log file organization, and real‑time monitoring—to enable fast issue diagnosis and improve overall engineering quality.

JavaLoggingOperations

0 likes · 10 min read

Effective Logging Practices and Standards for Java Backend Systems

DevOps Coach

Mar 29, 2018 · Operations

7 Must-Have Skills Every DevOps Engineer Needs

The article outlines the seven essential competencies—flexibility, security, collaboration, scripting, decision‑making, infrastructure knowledge, and soft skills—that DevOps engineers must master to bridge development and operations, accelerate delivery, and maintain secure, reliable systems.

CollaborationOperationsScripting

0 likes · 8 min read

7 Must-Have Skills Every DevOps Engineer Needs

Tencent Cloud Developer

Mar 29, 2018 · Artificial Intelligence

How AI Powers a Smart Ops Bot for Seamless Dev‑Ops Collaboration

This article explains the motivation behind the growing gap between developers and operations, introduces Tencent Cloud's AI‑driven intelligent operations robot, outlines its core features, typical use cases, and dives into the retrieval‑based dialogue system and matching models that enable natural‑language interactions.

AI OpsChatbotNLP

0 likes · 13 min read

How AI Powers a Smart Ops Bot for Seamless Dev‑Ops Collaboration

Efficient Ops

Mar 27, 2018 · Cloud Computing

Why X86 Bare‑Metal Services Matter and How to Build Them in the Cloud

This article explains why X86 bare‑metal services are essential for high‑performance, security‑critical workloads, describes their architecture and management processes, and outlines the steps—standardization, automation, service‑orientation, and self‑service—used by Hengfeng Bank to implement and operate them.

AutomationBare MetalCloud Computing

0 likes · 16 min read

Why X86 Bare‑Metal Services Matter and How to Build Them in the Cloud

DevOps

Mar 22, 2018 · Operations

Leading a DevOps Transformation: Five Misconceptions, Five Practices, and Concrete Implementation Advice

This article examines why DevOps transformations often fail, outlines five common misconceptions and five proven practices, and provides concrete, data‑driven recommendations—including cultural evolution, small‑batch work, feedback loops, value‑stream collaboration, and waste elimination—to help organizations achieve faster, safer, and more reliable software delivery.

Operationscontinuous deliverydevops

0 likes · 21 min read

Leading a DevOps Transformation: Five Misconceptions, Five Practices, and Concrete Implementation Advice