Với nền tảng iGaming, mỗi phút gián đoạn trong giờ cao điểm là doanh thu mất đi và niềm tin sứt mẻ. Observability và SRE là nền tảng để duy trì độ sẵn sàng cao và phản ứng nhanh với sự cố.
Ba trụ cột của observability
- Metrics: đo sức khoẻ hệ thống theo thời gian thực
- Logs: ghi lại chi tiết sự kiện phục vụ điều tra
- Traces: theo dõi hành trình request xuyên dịch vụ
Thực hành SRE cốt lõi
Định nghĩa SLO/SLI rõ ràng, quản lý ngân sách lỗi (error budget) và tự động hoá vận hành giúp cân bằng giữa tốc độ phát triển và độ ổn định.
Sẵn sàng cho giờ cao điểm
Kiểm thử tải, lập kế hoạch dung lượng và diễn tập sự cố trước mùa cao điểm giúp hệ thống chịu được đỉnh tải mà không sập.
Câu hỏi thường gặp
Observability khác monitoring thế nào?
Monitoring cho biết hệ thống có vấn đề; observability giúp hiểu vì sao, nhờ kết hợp metrics, logs và traces.
Error budget là gì?
Là mức độ lỗi cho phép trong một khoảng thời gian; dùng nó để cân bằng giữa ra tính năng mới và giữ ổn định.
