Chuẩn Bị Phỏng Vấn SRE 2026: Luyện Tập Với AI Cho Site Reliability Engineer
Hầu hết ứng viên SRE thất bại vì tư duy vận hành, không phải kiến thức kỹ thuật. Bài viết bao gồm 6 nhóm câu hỏi cốt lõi, câu hỏi error budget, và cách AI mô phỏng tình huống sự cố thực tế.

TL;DR: Chuẩn bị phỏng vấn SRE đòi hỏi một tư duy hoàn toàn khác so với phỏng vấn kỹ thuật phần mềm thông thường. Lý do thất bại phổ biến nhất không phải là thiếu kiến thức kỹ thuật — mà là trả lời theo kiểu lập trình viên trong khi hội đồng phỏng vấn cần một kỹ sư độ tin cậy. Bài viết này bao gồm 6 nhóm câu hỏi SRE cốt lõi, cách thức hoạt động thực tế của các câu hỏi error budget và SLO, lý do ứng viên senior thất bại, và cách luyện tập có hỗ trợ AI giúp xây dựng khả năng phán đoán vận hành mà các danh sách câu hỏi tĩnh không thể làm được.
Một kỹ sư senior đã mô tả điều này trong hướng dẫn phỏng vấn 2026 đăng trên DEV.to: "Hầu hết ứng viên thất bại ở vòng SRE của Google đều đã đọc SRE Book. Họ biết toil là gì. Họ có thể định nghĩa SLO. Họ thất bại vì khi service đang 'bốc cháy', họ chọn tối ưu code thay vì giảm thiểu sự cố." Đó chính là khoảng cách đó.
Phỏng vấn SRE kiểm tra xem bạn có tư duy của một người vận hành dưới áp lực hay không — không phải kiểm tra bạn có thuộc lòng đúng từ ngữ kỹ thuật không. Và đó chính xác là lý do tại sao các danh sách câu hỏi chung chung không đủ để chuẩn bị.
Điều Gì Làm Cho Phỏng Vấn SRE Khác Biệt
Phỏng vấn kỹ sư phần mềm kiểm tra bạn có thể xây dựng gì. Phỏng vấn SRE kiểm tra bạn làm gì khi mọi thứ đổ vỡ.
Các tiêu chí đánh giá cốt lõi trong phỏng vấn SRE:
- Tư duy ưu tiên giảm thiểu: Khi có sự cố, bạn chọn sửa hay rollback trước?
- Nhận thức về toil: Bạn có thể xác định công việc cần được tự động hóa và giải thích tại sao tự động hóa đáng đầu tư không?
- Tư duy blast radius: Bạn ra quyết định như thế nào khi cái giá của sai lầm là downtime với người dùng?
- Văn hóa postmortem: Bạn có thể làm blameless postmortem, hay phản xạ tự nhiên của bạn là tìm người để đổ lỗi?
Đây là lý do tại sao các công ty như Google, Meta và Netflix tổ chức vòng phỏng vấn SRE riêng biệt so với vòng SWE.
Google SRE Books định nghĩa SRE là "điều xảy ra khi một kỹ sư phần mềm được giao nhiệm vụ mà trước đây được gọi là vận hành."
Với thị trường IT Việt Nam, vai trò SRE đang phát triển nhanh chóng — đặc biệt tại các công ty FDI như Samsung, Intel, LG đang mở rộng hoạt động tại Việt Nam, cũng như các công ty công nghệ trong nước như VNG, MoMo, Tiki đang đầu tư mạnh vào hạ tầng. Ngoài ra, ngày càng nhiều kỹ sư Việt ứng tuyển vị trí SRE remote cho công ty nước ngoài — nơi yêu cầu trình bày tư duy vận hành bằng tiếng Anh một cách trôi chảy.
6 Nhóm Câu Hỏi Phỏng Vấn SRE Cốt Lõi
1. SLOs, SLIs và Error Budgets
Câu hỏi thường gặp: "Service của bạn có SLO khả dụng 99.9% và bạn đã dùng hết 80% error budget tháng này vào tuần thứ hai. Bạn làm gì?"
Câu trả lời yếu: giải thích error budget là gì. Câu trả lời mạnh: đóng băng các deployment không quan trọng, làm postmortem, điều chỉnh cảnh báo, và có cuộc trò chuyện với product về đánh đổi giữa độ tin cậy và tốc độ phát triển.
2. Quản Lý Sự Cố và On-Call
"Một service quan trọng đang trải qua độ trễ cao. Dẫn tôi qua quy trình xử lý sự cố của bạn."
Kỳ vọng: kiểm tra dashboard → xác định phạm vi → giảm thiểu trước → ổn định → rồi mới phân tích nguyên nhân gốc rễ.
3. Giảm Toil và Tự Động Hóa
"Toil là gì và bạn giảm thiểu nó có hệ thống như thế nào?" Nêu tên cụ thể toil bạn đã loại bỏ và lượng hóa giá trị của việc tự động hóa.
4. Thiết Kế Hệ Thống Cho Độ Tin Cậy
Tập trung vào khả năng phục hồi: circuit breaker, canary deployment, feature flag, graceful degradation.
5. Observability và Monitoring
Phân biệt metrics/logs/traces. Giải thích SLO-based burn rate alerting so với threshold-based alerting.
6. Kiến Thức Cơ Bản Linux và Infrastructure
"Bạn sẽ xử lý CPU usage cao trên Linux server như thế nào?" Bao gồm top, htop, perf, container CPU throttling.
Câu Hỏi Phỏng Vấn Site Reliability Engineer Bạn Sẽ Gặp
Câu hỏi khái niệm: Sự khác biệt giữa SRE và DevOps là gì? Bạn quyết định vấn đề nào thuộc phạm vi nhóm bạn và vấn đề nào không như thế nào?
Câu hỏi vận hành: Kể cho tôi nghe về một sự cố lớn. Bạn quyết định rollback hay roll forward như thế nào?
Câu hỏi kỹ thuật: Bạn triển khai distributed tracing trong microservices như thế nào? Thiết kế một rate limiter không phải điểm đơn lỗi (single point of failure).
Câu hỏi hành vi: Mô tả một postmortem bạn dẫn dắt. Kể về việc bạn bất đồng với nhóm về đánh đổi độ tin cậy.
Câu Hỏi Error Budget và SLO Trong Phỏng Vấn
Hội đồng kiểm tra ba điều:
- Error budget như công cụ thương lượng (rủi ro có chủ đích vs. tiêu hao ngoài ý muốn)
- Bảo vệ SLO trước cả kỹ sư lẫn product
- Chọn SLI phù hợp (latency, khả dụng, tỷ lệ lỗi, độ bền, tính chính xác)
Tại Sao Kỹ Sư Senior Thất Bại Ở Phỏng Vấn SRE
- Tư duy debug vs. giảm thiểu: Giảm thiểu trước, điều tra sau.
- Công cụ vs. nguyên tắc: "SLO-based burn rate alerting" thuyết phục hơn "tôi dùng Prometheus."
- Coi độ tin cậy là việc của người khác: SRE xem độ tin cậy là yêu cầu hàng đầu.
Sử Dụng AI Để Luyện Tập Phỏng Vấn SRE
AI lấp đầy khoảng trống mà danh sách câu hỏi tĩnh không thể làm được:
- Mô phỏng tình huống sự cố với phản hồi theo thời gian thực
- Luyện tính toán error budget
- Huấn luyện câu hỏi hành vi theo mental model SRE
- Phân tích sau luyện tập: bạn đang dùng khung tư duy lập trình viên hay vận hành viên?
AceRound AI cung cấp gợi ý trả lời theo thời gian thực trong phỏng vấn trực tiếp.
Liên quan: Hướng dẫn phỏng vấn DevOps engineer | Hướng dẫn phỏng vấn cloud architect
Danh Sách Kiểm Tra Chuẩn Bị
- Đọc Google SRE Book các chương về toil, SLO, error budget
- Luyện 2–3 tình huống sự cố với khung tư duy ưu tiên giảm thiểu
- Nắm phép tính error budget: 99.9% = cho phép tối đa 43.8 phút downtime/tháng
- Chuẩn bị một postmortem bạn đã dẫn dắt
- Xem blog kỹ thuật của công ty mục tiêu để tìm postmortem công khai
- Luyện một câu hỏi NALSD
Câu Hỏi Thường Gặp
Sự khác biệt giữa SRE và DevOps trong phỏng vấn là gì? DevOps: CI/CD, container, tooling. SRE: kỹ thuật độ tin cậy, error budget, quản lý sự cố, đánh đổi giữa tốc độ và ổn định.
Làm thế nào để xử lý alert nhiễu hoặc alert fatigue? Chuyển sang SLO-based burn rate alerting. Cảnh báo khi đang tiêu thụ error budget ở tốc độ đe dọa SLO — không phải khi một metric vượt ngưỡng tĩnh.
Mô tả quy trình xử lý độ trễ cao của bạn. Kiểm tra dashboard → xác định phạm vi → giảm thiểu → gọi người hỗ trợ → phân tích nguyên nhân sau khi giảm thiểu.
Toil là gì và bạn giảm thiểu có hệ thống như thế nào? Công việc vận hành thủ công, lặp đi lặp lại, không có giá trị lâu dài. Ghi chép → ưu tiên theo tần suất × chi phí → tự động hóa → đo lường. 50% thời gian SRE nên là công việc kỹ thuật.
Tại sao kỹ sư senior thất bại ở phỏng vấn Google SRE? Vấn đề ưu tiên giảm thiểu; xử lý nó như vòng system design SWE không có ràng buộc độ tin cậy.
Tôi có nên dùng AI trong phỏng vấn SRE không? Luyện tập với AI trước phỏng vấn giúp đẩy nhanh tốc độ chuẩn bị đáng kể — đặc biệt cho các tình huống sự cố.
Tác giả · Alex Chen. Tư vấn sự nghiệp và cựu nhà tuyển dụng công nghệ. Dành 5 năm ở phía tuyển dụng trước khi chuyển sang hỗ trợ ứng viên. Viết về thực tế phỏng vấn, không phải lời khuyên từ sách giáo khoa.
