خدمات SRE | مهندسی قابلیت اطمینان با SLO

۹۹٫۹۵٪

میانگین SLA پروژه‌های Managed SRE ما

5 فاز

روش‌شناسی ساختاریافته

10+

Deliverable مستند

بازخورد مستقیم مشتری

Our Methodology

معماری Observability و Reliability در خدمات SRE

ستون فقرات معماری SRE ما بر سه ستون داده رصدپذیری (Metrics، Logs، Traces) بنا شده است. لایه Control بر اساس SLOها تصمیم‌گیری می‌کند، Alertmanager به runbookها متصل است و خط Incident Response با On-Call و post-mortem به چرخه بهبود مستمر ختم می‌شود. تمام مولفه‌ها بومی‌سازی شده و قابل استقرار On-Premise هستند.

SLO Control Plane

هر سرویس یک SLO رسمی دارد، Error Budget محاسبه می‌شود و سیاست release بر اساس آن اعمال می‌گردد.

Three Pillars Observability

Metrics + Logs + Traces به‌صورت یکپارچه با correlation خودکار از طریق exemplars و trace_id.

Symptom-based Alerting

Alertها بر اساس burn rate چندپنجره‌ای SLO ساخته می‌شوند تا noise حذف و precision بالا باشد.

Blameless PIR Pipeline

هر incident تبدیل به یک سند PIR استاندارد، با timeline دقیق، root cause و action itemهای پیگیری‌شده می‌شود.

چارچوب‌ها و استانداردهای مرجع

Prometheus2.xOpenTelemetry1.0 GALoki3.xTempo2.xAlertmanager0.27+Grafana11.x

Deliverables

قابلیت‌های خدمات SRE در مهندسی قابلیت اطمینان

هر deliverable در پایان engagement به‌صورت مستند، executive-ready و قابل ارائه به هیأت مدیره به شما تحویل داده می‌شود.

کارگاه تعریف SLO و SLI

هسته اصلی

تعریف SLOهای کاربر-محور برای هر سرویس حیاتی، با مشارکت تیم محصول و مهندسی.

تصمیم‌های مهندسی داده‌محور به‌جای حدس

استقرار Observability Stack

Observability

Prometheus + Grafana + Loki + Tempo + Alertmanager، production-grade و یکپارچه.

دید کامل ۳۶۰ درجه از رفتار سامانه

راه‌اندازی On-Call Rotation

Incident Response

ساختار on-call استاندارد با rotation منصفانه، escalation policy و ابزار مدرن.

MTTA کمتر از ۵ دقیقه برای incidentهای حیاتی

کتابخانه Runbook استاندارد

Knowledge

Runbookهای اجرایی برای ۹۰٪ سناریوهای incident — قابل اجرا حتی توسط junior on-call.

MTTR کاهش ۶۰٪ در سناریوهای شناخته‌شده

فرآیند PIR بدون سرزنش

فرهنگ

Post-Incident Review استاندارد با تمرکز بر یادگیری، نه سرزنش افراد.

کاهش تکرار incidentهای مشابه تا ۸۰٪

Chaos Engineering

تاب‌آوری

تزریق کنترل‌شده خطا برای کشف ضعف‌ها قبل از incident واقعی.

کشف ۷۰٪ ضعف‌ها قبل از incident واقعی

Toil Reduction Tracker

بهره‌وری

اندازه‌گیری دقیق Toil و کاهش سیستماتیک با اولویت‌بندی خودکارسازی.

آزاد شدن ۲۰۰+ ساعت/ماه برای کارهای استراتژیک

Capacity Planning

ظرفیت

مدل ظرفیت داده‌محور با پیش‌بینی ۳ ماهه و سناریوهای رشد.

حذف surprise capacity outages

Progressive Rollout

Release

Canary، blue/green و feature flags با auto-rollback بر اساس SLO.

حذف ۹۰٪ incidentهای ناشی از release

بهبود DevEx و Tooling

DevEx

ابزار و فرآیندهایی که تجربه روزانه توسعه‌دهنده را بهبود می‌دهد.

کاهش زمان onboarding مهندس جدید از ۴ هفته به ۱ هفته

Engagement Journey

مراحل استقرار خدمات SRE Managed در ۱۲ هفته

۰۱

SRE Maturity Assessment

۲ هفته

ارزیابی بلوغ SRE فعلی، شناسایی gapها، اولویت‌بندی بهبودها و طراحی نقشه راه.

سند Maturity Report + Roadmap

۰۲

تعریف SLO و استقرار Observability

۴ هفته

کارگاه SLO، استقرار stack Observability، اتصال سرویس‌های pilot و dashboardهای پایه.

SLOهای رسمی + Stack production-ready

۰۳

Incident Response و Runbook

۳ هفته

راه‌اندازی on-call، نگارش runbookهای حیاتی، آموزش تیم و اولین drillها.

On-Call فعال + کتابخانه Runbook

۰۴

Chaos، Capacity و Progressive Rollout

۳ هفته

اجرای اولین game day، مدل capacity، فعال‌سازی canary و auto-rollback.

تاب‌آوری اثبات‌شده + Release engineering

۰۵

عملیات Managed و بهبود مستمر

دائمی

On-Call ۲۴/۷، گزارش‌های ماهانه SLO و Toil، Reliability Review هفتگی و بهبود مستمر.

SLA تضمین‌شده + گزارش ماهانه

Side by Side

مقایسه تیم Ops داخلی، پشتیبانی ابر و SRE Managed

معیار

راهکار سنتی

راهکار متداول

GITA

تعریف SLO و Error Budget

وجود ندارد

محدود به infra metrics

کارگاه رسمی + Policy امضاشده

Observability Stack

ابزارهای پراکنده

ابر-اختصاصی، vendor lock-in

Prometheus/Grafana/Loki/Tempo بومی

On-Call و Incident Response

بدون rotation رسمی

Best effort، بدون runbook

Rotation منصفانه + runbook کامل

Post-mortem

غیرفرمال و سرزنشی

بدون پیگیری action item

Blameless PIR + tracking

Chaos Engineering

—

ابزار خام بدون فرآیند

Game day ماهانه + سناریوهای ساختاریافته

Toil Tracking

اندازه‌گیری نمی‌شود

—

داشبورد رسمی + هدف < ۵۰٪

Capacity Planning

حدسی

بر اساس billing alerts

مدل forecast ۳ ماهه

پشتیبانی فارسی

تیم داخلی

انگلیسی، فقط email

۲۴/۷ فارسی، تماس مستقیم

Client Outcomes

تجربه تیم‌های مهندسی همکار با خدمات SRE

«قبل از ورود تیم SRE گیتی افروز، on-call ما یک شب‌بیداری جمعی بود. شش ماه بعد، با SLO رسمی و runbook استاندارد، MTTR ما ۷۰٪ کاهش پیدا کرد و دیگر کسی از کشیک نمی‌ترسد. مهم‌تر اینکه فرهنگ blameless جا افتاد.»

VP مهندسی — فین‌تک با ۳ میلیون کاربر فعال

«Toil تیم ما از ۶۵٪ به ۲۸٪ رسید — این یعنی هر مهندس ۸ ساعت در هفته برای کارهای استراتژیک آزاد شد. داشبورد ماهانه Toil که گیتی افروز طراحی کرد، الان به یکی از مهم‌ترین ابزارهای مدیریتی ما تبدیل شده است.»

Director of Platform — پلتفرم SaaS B2B

«اولین game day مان وحشتناک بود — سه سرویس حیاتی همزمان افتاد. اما با مربی‌گری تیم SRE، در شش ماه به جایی رسیدیم که chaos تست‌ها در production بدون استرس اجرا می‌شود. این تغییر فرهنگی واقعاً ارزشمند بود.»

مدیر زیرساخت — تجارت الکترونیک با ۱۰ میلیون کاربر

فین‌تک و درگاه پرداخت

SLO سختگیرانه برای latency و availability، انطباق با الزامات شاپرک و بانک مرکزی، پاسخ‌گویی ۲۴/۷ به incidentهای کاربر.

تجارت الکترونیک

آمادگی کمپین‌های بزرگ، capacity planning پیک، A/B test infra و progressive rollout برای feature releaseهای پرریسک.

پلتفرم‌های SaaS

Multi-tenant SLO، per-tenant observability، billing reliability و SLA contract managed برای مشتریان enterprise.

بانکداری دیجیتال

Mission-critical SLA، استقرار On-Premise، DR site فعال، audit-ready observability برای ممیزی بانک مرکزی.

گیمینگ و real-time

Latency-sensitive workload، global edge، capacity پویا برای رویدادهای زنده و chaos engineering پیشرفته.

Streaming و رسانه

CDN observability، QoE metrics کاربر-محور، capacity برای پخش زنده و سناریوهای پیک ساعت پربیننده.

اپراتورهای MVNO و مخابراتی

Carrier-grade SLA، telco-specific observability، فرآیندهای ITIL-aligned و گزارش‌گیری برای رگولاتور.

خدمات الکترونیک دولت

On-Premise کامل، Air-Gapped capable، انطباق با ابلاغیه‌های افتا، گزارش‌گیری برای سازمان فناوری.

Common Questions

سؤال‌های متداول

01تفاوت SRE Managed با DevOps سنتی چیست؟

DevOps یک فرهنگ و مجموعه شیوه‌هاست. SRE یک پیاده‌سازی مهندسی‌محور از همان اصول است — با SLO رسمی، Error Budget، فرآیند incident response استاندارد و هدف رسمی برای کاهش Toil. ما ابزار، فرآیند و فرهنگ را همزمان پیاده می‌کنیم.

02آیا تیم Ops داخلی ما با ورود شما حذف می‌شود؟

خیر. مدل پیش‌فرض ما Co-managed است — تیم شما هسته دانش دامنه را نگه می‌دارد و ما به‌عنوان مولتی‌پلایر در SLO، فرآیند و on-call عمل می‌کنیم. در مدل Fully Managed، تیم ما on-call را به‌طور کامل بر عهده می‌گیرد. انتخاب بر اساس بلوغ و ترجیح سازمان شما است.

03Stack Observability ما در حال حاضر متفاوت است (مثلاً Datadog). آیا migrate لازم است؟

نه الزاماً. ما با Datadog، New Relic، Splunk و Elastic کار کرده‌ایم. اگر stack فعلی شما پاسخگو است، آن را حفظ می‌کنیم و فقط فرآیندها و SLO را اضافه می‌کنیم. در صورت تمایل به مهاجرت به stack بومی، روادمپ مهاجرت کنترل‌شده ارائه می‌دهیم.

04On-Call شما چگونه با تیم داخلی ما هماهنگ می‌شود؟

در مدل Co-managed، escalation در دو سطح است: سطح اول تیم ما (پاسخ زیر ۵ دقیقه)، سطح دوم تیم شما برای تصمیمات کسب‌وکاری و دامنه. تمام ارتباط در یک کانال ChatOps متمرکز است و runbookها مشترک بازنویسی می‌شوند.

05Chaos engineering در production خطرناک نیست؟

ما هرگز در production بدون آمادگی شروع نمی‌کنیم. مسیر استاندارد: ابتدا staging، سپس production با blast radius بسیار محدود (مثلاً ۱٪ ترافیک)، با kill switch دستی و خودکار، و در ساعات کم‌مصرف. ماه‌ها طول می‌کشد تا به سطحی برسیم که در ساعت پیک هم chaos اجرا شود.

06گزارش‌های ماهانه شامل چه چیزی است؟

گزارش ماهانه ۱۵–۲۵ صفحه شامل: وضعیت هر SLO و Error Budget مصرف‌شده، فهرست incidentها و post-mortemها، شاخص Toil، capacity forecast، action itemهای پیگیری شده، و توصیه‌های استراتژیک. این گزارش در جلسه ماهانه با CTO/VPE مرور می‌شود.

07SLA رسمی شما چیست؟

SLA پاسخ‌گویی on-call: MTTA کمتر از ۵ دقیقه برای P1 و ۱۵ دقیقه برای P2 با ۹۹٫۵٪ تطابق. SLA پلتفرم: ۹۹٫۹۵٪ uptime برای stack observability ما. Penalty clause بر اساس میزان نقض در قرارداد گنجانده می‌شود.

08استقرار On-Premise و Air-Gapped پشتیبانی می‌شود؟

بله. تمام stack Observability ما (Prometheus، Grafana، Loki، Tempo، Alertmanager) قابلیت استقرار On-Premise و Air-Gapped دارند. به‌روزرسانی‌ها از طریق mirror داخلی انجام می‌شود و هیچ telemetry به بیرون ارسال نمی‌شود.

09Toil را چگونه به‌صورت عینی اندازه می‌گیرید؟

مطابق Google SRE Book: Toil کاری است که دستی، تکراری، خودکارسازی‌پذیر، تاکتیکی و فاقد ارزش پایدار باشد. هر مهندس هفته‌ای زمان صرف شده برای Toil را ثبت می‌کند. تیم SRE با مشاهده کار نیز ممیزی موازی انجام می‌دهد تا دقت گزارش‌ها حفظ شود.

10زمان معمول برای دیدن نتایج محسوس چقدر است؟

بر اساس تجربه ما در ۲۰+ پروژه، نتایج محسوس در سه افق دیده می‌شود: ۳۰ روز (observability پایه و SLOهای اولیه)، ۹۰ روز (کاهش MTTR و alert noise)، ۱۸۰ روز (کاهش Toil زیر ۵۰٪، فرهنگ blameless جا افتاده، capacity planning رسمی).

ارزیابی بلوغ SRE سازمان خود را شروع کنید

یک جلسه ۴۵ دقیقه‌ای با Head of SRE ما رزرو کنید. وضعیت فعلی، gapهای کلیدی و اولین گام‌های عملی را با هم مرور می‌کنیم. رایگان، بدون پرزنتیشن فروش، با خروجی عملیاتی.

رزرو جلسه Discovery دریافت SoW نمونه

تلفن

۰۲۱ ۹۱۰۱۷۸۰۳

ایمیل

gityafrouz@gmail.com

ساعات

شنبه تا چهارشنبه — ۹ تا ۱۸ (On-Call ۲۴/۷ برای مشتریان Managed)

اولین جلسه رایگان، بدون پرزنتیشن فروش

خدمات SRE (مهندسی قابلیت اطمینان)

معماری Observability و Reliability در خدمات SRE

SLO Control Plane

Three Pillars Observability

Symptom-based Alerting

Blameless PIR Pipeline

قابلیت‌های خدمات SRE در مهندسی قابلیت اطمینان

کارگاه تعریف SLO و SLI

استقرار Observability Stack

راه‌اندازی On-Call Rotation

کتابخانه Runbook استاندارد

فرآیند PIR بدون سرزنش

Chaos Engineering

Toil Reduction Tracker

Capacity Planning

Progressive Rollout

بهبود DevEx و Tooling

مراحل استقرار خدمات SRE Managed در ۱۲ هفته

SRE Maturity Assessment

تعریف SLO و استقرار Observability

Incident Response و Runbook

Chaos، Capacity و Progressive Rollout

عملیات Managed و بهبود مستمر

مقایسه تیم Ops داخلی، پشتیبانی ابر و SRE Managed

تجربه تیم‌های مهندسی همکار با خدمات SRE

سؤال‌های متداول

ارزیابی بلوغ SRE سازمان خود را شروع کنید