فن آوران گیتی افروز
مهندسی قابلیت اطمینان سامانهعملیات، SRE و Managed Servicesپایدار

از آتش‌نشانی شبانه به قابلیت اطمینان مهندسی‌شده — SLOمحور، خودکار و قابل اندازه‌گیری

خدمات SRE بر اساس کتاب Google SRE — تعریف SLO/SLI و Error Budget، استقرار stack رصدپذیری مدرن، کاهش Toil و فرهنگ Post-mortem بدون سرزنش، با مدل Managed یا Co-managed.

بر اساس Google SRE BookError Budget Policy رسمیOn-Call ۲۴/۷ توسط تیم بومی
عملیات، SRE و MANAGED SERVICES
SRE
SLO
SLO Control Plane
  • کارگاه تعریف SLO و SLI
  • استقرار Observability Stac
  • راه‌اندازی On-Call Rotatio
  • کتابخانه Runbook استاندارد
Three
Three Pillars Observability
  • راه‌اندازی On-Call Rotatio
  • کتابخانه Runbook استاندارد
  • فرآیند PIR بدون سرزنش
  • Chaos Engineering
Symptom
Symptom-based Alerting
  • فرآیند PIR بدون سرزنش
  • Chaos Engineering
  • Toil Reduction Tracker
  • Capacity Planning
Blameless
Blameless PIR Pipeline
  • Toil Reduction Tracker
  • Capacity Planning
  • Progressive Rollout
  • بهبود DevEx و Tooling
۹۹٫۹۵٪
میانگین SLA پروژه‌های Managed SRE ما
5 فاز
روش‌شناسی ساختاریافته
10+
Deliverable مستند
3+
بازخورد مستقیم مشتری
Our Methodology

معماری Observability و Reliability ما

ستون فقرات معماری SRE ما بر سه ستون داده رصدپذیری (Metrics، Logs، Traces) بنا شده است. لایه Control بر اساس SLOها تصمیم‌گیری می‌کند، Alertmanager به runbookها متصل است و خط Incident Response با On-Call و post-mortem به چرخه بهبود مستمر ختم می‌شود. تمام مولفه‌ها بومی‌سازی شده و قابل استقرار On-Premise هستند.

01

SLO Control Plane

هر سرویس یک SLO رسمی دارد، Error Budget محاسبه می‌شود و سیاست release بر اساس آن اعمال می‌گردد.

02

Three Pillars Observability

Metrics + Logs + Traces به‌صورت یکپارچه با correlation خودکار از طریق exemplars و trace_id.

03

Symptom-based Alerting

Alertها بر اساس burn rate چندپنجره‌ای SLO ساخته می‌شوند تا noise حذف و precision بالا باشد.

04

Blameless PIR Pipeline

هر incident تبدیل به یک سند PIR استاندارد، با timeline دقیق، root cause و action itemهای پیگیری‌شده می‌شود.

چارچوب‌ها و استانداردهای مرجع
Prometheus2.xOpenTelemetry1.0 GALoki3.xTempo2.xAlertmanager0.27+Grafana11.x
Deliverables

قابلیت‌هایی که قابلیت اطمینان را مهندسی می‌کنند

هر deliverable در پایان engagement به‌صورت مستند، executive-ready و قابل ارائه به هیأت مدیره به شما تحویل داده می‌شود.

کارگاه تعریف SLO و SLI

هسته اصلی

تعریف SLOهای کاربر-محور برای هر سرویس حیاتی، با مشارکت تیم محصول و مهندسی.

تصمیم‌های مهندسی داده‌محور به‌جای حدس

استقرار Observability Stack

Observability

Prometheus + Grafana + Loki + Tempo + Alertmanager، production-grade و یکپارچه.

دید کامل ۳۶۰ درجه از رفتار سامانه

راه‌اندازی On-Call Rotation

Incident Response

ساختار on-call استاندارد با rotation منصفانه، escalation policy و ابزار مدرن.

MTTA کمتر از ۵ دقیقه برای incidentهای حیاتی

کتابخانه Runbook استاندارد

Knowledge

Runbookهای اجرایی برای ۹۰٪ سناریوهای incident — قابل اجرا حتی توسط junior on-call.

MTTR کاهش ۶۰٪ در سناریوهای شناخته‌شده

فرآیند PIR بدون سرزنش

فرهنگ

Post-Incident Review استاندارد با تمرکز بر یادگیری، نه سرزنش افراد.

کاهش تکرار incidentهای مشابه تا ۸۰٪

Chaos Engineering

تاب‌آوری

تزریق کنترل‌شده خطا برای کشف ضعف‌ها قبل از incident واقعی.

کشف ۷۰٪ ضعف‌ها قبل از incident واقعی

Toil Reduction Tracker

بهره‌وری

اندازه‌گیری دقیق Toil و کاهش سیستماتیک با اولویت‌بندی خودکارسازی.

آزاد شدن ۲۰۰+ ساعت/ماه برای کارهای استراتژیک

Capacity Planning

ظرفیت

مدل ظرفیت داده‌محور با پیش‌بینی ۳ ماهه و سناریوهای رشد.

حذف surprise capacity outages

Progressive Rollout

Release

Canary، blue/green و feature flags با auto-rollback بر اساس SLO.

حذف ۹۰٪ incidentهای ناشی از release

بهبود DevEx و Tooling

DevEx

ابزار و فرآیندهایی که تجربه روزانه توسعه‌دهنده را بهبود می‌دهد.

کاهش زمان onboarding مهندس جدید از ۴ هفته به ۱ هفته
Engagement Journey

از ارزیابی تا عملیات Managed در ۱۲ هفته + پشتیبانی دائم

۰۱

SRE Maturity Assessment

۲ هفته

ارزیابی بلوغ SRE فعلی، شناسایی gapها، اولویت‌بندی بهبودها و طراحی نقشه راه.

سند Maturity Report + Roadmap
۰۲

تعریف SLO و استقرار Observability

۴ هفته

کارگاه SLO، استقرار stack Observability، اتصال سرویس‌های pilot و dashboardهای پایه.

SLOهای رسمی + Stack production-ready
۰۳

Incident Response و Runbook

۳ هفته

راه‌اندازی on-call، نگارش runbookهای حیاتی، آموزش تیم و اولین drillها.

On-Call فعال + کتابخانه Runbook
۰۴

Chaos، Capacity و Progressive Rollout

۳ هفته

اجرای اولین game day، مدل capacity، فعال‌سازی canary و auto-rollback.

تاب‌آوری اثبات‌شده + Release engineering
۰۵

عملیات Managed و بهبود مستمر

دائمی

On-Call ۲۴/۷، گزارش‌های ماهانه SLO و Toil، Reliability Review هفتگی و بهبود مستمر.

SLA تضمین‌شده + گزارش ماهانه
Side by Side

تیم Ops داخلی، پشتیبانی Premium ابر، SRE Managed گیتی افروز

معیار
راهکار سنتی
راهکار متداول
GITA
تعریف SLO و Error Budget
وجود ندارد
محدود به infra metrics
کارگاه رسمی + Policy امضاشده
Observability Stack
ابزارهای پراکنده
ابر-اختصاصی، vendor lock-in
Prometheus/Grafana/Loki/Tempo بومی
On-Call و Incident Response
بدون rotation رسمی
Best effort، بدون runbook
Rotation منصفانه + runbook کامل
Post-mortem
غیرفرمال و سرزنشی
بدون پیگیری action item
Blameless PIR + tracking
Chaos Engineering
ابزار خام بدون فرآیند
Game day ماهانه + سناریوهای ساختاریافته
Toil Tracking
اندازه‌گیری نمی‌شود
داشبورد رسمی + هدف < ۵۰٪
Capacity Planning
حدسی
بر اساس billing alerts
مدل forecast ۳ ماهه
پشتیبانی فارسی
تیم داخلی
انگلیسی، فقط email
۲۴/۷ فارسی، تماس مستقیم
Client Outcomes

بازخورد از تیم‌های مهندسی همکار

«قبل از ورود تیم SRE گیتی افروز، on-call ما یک شب‌بیداری جمعی بود. شش ماه بعد، با SLO رسمی و runbook استاندارد، MTTR ما ۷۰٪ کاهش پیدا کرد و دیگر کسی از کشیک نمی‌ترسد. مهم‌تر اینکه فرهنگ blameless جا افتاد.»
VP مهندسی — فین‌تک با ۳ میلیون کاربر فعال
«Toil تیم ما از ۶۵٪ به ۲۸٪ رسید — این یعنی هر مهندس ۸ ساعت در هفته برای کارهای استراتژیک آزاد شد. داشبورد ماهانه Toil که گیتی افروز طراحی کرد، الان به یکی از مهم‌ترین ابزارهای مدیریتی ما تبدیل شده است.»
Director of Platform — پلتفرم SaaS B2B
«اولین game day مان وحشتناک بود — سه سرویس حیاتی همزمان افتاد. اما با مربی‌گری تیم SRE، در شش ماه به جایی رسیدیم که chaos تست‌ها در production بدون استرس اجرا می‌شود. این تغییر فرهنگی واقعاً ارزشمند بود.»
مدیر زیرساخت — تجارت الکترونیک با ۱۰ میلیون کاربر
فین‌تک و درگاه پرداخت
SLO سختگیرانه برای latency و availability، انطباق با الزامات شاپرک و بانک مرکزی، پاسخ‌گویی ۲۴/۷ به incidentهای کاربر.
تجارت الکترونیک
آمادگی کمپین‌های بزرگ، capacity planning پیک، A/B test infra و progressive rollout برای feature releaseهای پرریسک.
پلتفرم‌های SaaS
Multi-tenant SLO، per-tenant observability، billing reliability و SLA contract managed برای مشتریان enterprise.
بانکداری دیجیتال
Mission-critical SLA، استقرار On-Premise، DR site فعال، audit-ready observability برای ممیزی بانک مرکزی.
گیمینگ و real-time
Latency-sensitive workload، global edge، capacity پویا برای رویدادهای زنده و chaos engineering پیشرفته.
Streaming و رسانه
CDN observability، QoE metrics کاربر-محور، capacity برای پخش زنده و سناریوهای پیک ساعت پربیننده.
اپراتورهای MVNO و مخابراتی
Carrier-grade SLA، telco-specific observability، فرآیندهای ITIL-aligned و گزارش‌گیری برای رگولاتور.
خدمات الکترونیک دولت
On-Premise کامل، Air-Gapped capable، انطباق با ابلاغیه‌های افتا، گزارش‌گیری برای سازمان فناوری.
Common Questions

سؤال‌های متداول

01تفاوت SRE Managed با DevOps سنتی چیست؟

DevOps یک فرهنگ و مجموعه شیوه‌هاست. SRE یک پیاده‌سازی مهندسی‌محور از همان اصول است — با SLO رسمی، Error Budget، فرآیند incident response استاندارد و هدف رسمی برای کاهش Toil. ما ابزار، فرآیند و فرهنگ را همزمان پیاده می‌کنیم.

02آیا تیم Ops داخلی ما با ورود شما حذف می‌شود؟

خیر. مدل پیش‌فرض ما Co-managed است — تیم شما هسته دانش دامنه را نگه می‌دارد و ما به‌عنوان مولتی‌پلایر در SLO، فرآیند و on-call عمل می‌کنیم. در مدل Fully Managed، تیم ما on-call را به‌طور کامل بر عهده می‌گیرد. انتخاب بر اساس بلوغ و ترجیح سازمان شما است.

03Stack Observability ما در حال حاضر متفاوت است (مثلاً Datadog). آیا migrate لازم است؟

نه الزاماً. ما با Datadog، New Relic، Splunk و Elastic کار کرده‌ایم. اگر stack فعلی شما پاسخگو است، آن را حفظ می‌کنیم و فقط فرآیندها و SLO را اضافه می‌کنیم. در صورت تمایل به مهاجرت به stack بومی، روادمپ مهاجرت کنترل‌شده ارائه می‌دهیم.

04On-Call شما چگونه با تیم داخلی ما هماهنگ می‌شود؟

در مدل Co-managed، escalation در دو سطح است: سطح اول تیم ما (پاسخ زیر ۵ دقیقه)، سطح دوم تیم شما برای تصمیمات کسب‌وکاری و دامنه. تمام ارتباط در یک کانال ChatOps متمرکز است و runbookها مشترک بازنویسی می‌شوند.

05Chaos engineering در production خطرناک نیست؟

ما هرگز در production بدون آمادگی شروع نمی‌کنیم. مسیر استاندارد: ابتدا staging، سپس production با blast radius بسیار محدود (مثلاً ۱٪ ترافیک)، با kill switch دستی و خودکار، و در ساعات کم‌مصرف. ماه‌ها طول می‌کشد تا به سطحی برسیم که در ساعت پیک هم chaos اجرا شود.

06گزارش‌های ماهانه شامل چه چیزی است؟

گزارش ماهانه ۱۵–۲۵ صفحه شامل: وضعیت هر SLO و Error Budget مصرف‌شده، فهرست incidentها و post-mortemها، شاخص Toil، capacity forecast، action itemهای پیگیری شده، و توصیه‌های استراتژیک. این گزارش در جلسه ماهانه با CTO/VPE مرور می‌شود.

07SLA رسمی شما چیست؟

SLA پاسخ‌گویی on-call: MTTA کمتر از ۵ دقیقه برای P1 و ۱۵ دقیقه برای P2 با ۹۹٫۵٪ تطابق. SLA پلتفرم: ۹۹٫۹۵٪ uptime برای stack observability ما. Penalty clause بر اساس میزان نقض در قرارداد گنجانده می‌شود.

08استقرار On-Premise و Air-Gapped پشتیبانی می‌شود؟

بله. تمام stack Observability ما (Prometheus، Grafana، Loki، Tempo، Alertmanager) قابلیت استقرار On-Premise و Air-Gapped دارند. به‌روزرسانی‌ها از طریق mirror داخلی انجام می‌شود و هیچ telemetry به بیرون ارسال نمی‌شود.

09Toil را چگونه به‌صورت عینی اندازه می‌گیرید؟

مطابق Google SRE Book: Toil کاری است که دستی، تکراری، خودکارسازی‌پذیر، تاکتیکی و فاقد ارزش پایدار باشد. هر مهندس هفته‌ای زمان صرف شده برای Toil را ثبت می‌کند. تیم SRE با مشاهده کار نیز ممیزی موازی انجام می‌دهد تا دقت گزارش‌ها حفظ شود.

10زمان معمول برای دیدن نتایج محسوس چقدر است؟

بر اساس تجربه ما در ۲۰+ پروژه، نتایج محسوس در سه افق دیده می‌شود: ۳۰ روز (observability پایه و SLOهای اولیه)، ۹۰ روز (کاهش MTTR و alert noise)، ۱۸۰ روز (کاهش Toil زیر ۵۰٪، فرهنگ blameless جا افتاده، capacity planning رسمی).

ارزیابی بلوغ SRE سازمان خود را شروع کنید

یک جلسه ۴۵ دقیقه‌ای با Head of SRE ما رزرو کنید. وضعیت فعلی، gapهای کلیدی و اولین گام‌های عملی را با هم مرور می‌کنیم. رایگان، بدون پرزنتیشن فروش، با خروجی عملیاتی.

تلفن
+۹۸ ۲۱ ۱۲۳۴ ۵۶۷۸
ایمیل
sre@gitiafrooz.com
ساعات
شنبه تا چهارشنبه — ۹ تا ۱۸ (On-Call ۲۴/۷ برای مشتریان Managed)
اولین جلسه رایگان، بدون پرزنتیشن فروش