فن آوران گیتی افروز
دریاچه داده و Lakehouse سازمانیدریاچه داده و Lakehouse سازمانیپایدار

یک منبع حقیقت واحد برای تمام داده‌های سازمان — از CDC بانکی تا CDR مخابراتی، با ACID روی Object Storage

پلتفرم بومی Lakehouse مبتنی بر Apache Iceberg، Trino و Spark — با کاتالوگ REST، Time Travel، Schema Evolution و حاکمیت داده کامل. طراحی‌شده برای سازمان‌هایی که داده‌هایشان از مرز چند ترابایت گذشته و معماری Hadoop/Hive پاسخگو نیست.

سازگار با Apache Iceberg و Delta LakePetabyte-scale در محیط Productionپشتیبانی فارسی ۲۴/۷
دریاچه داده و LAKEHOUSE سازمانی
Lakehouse
احراز هویت
Authentication
  • Single Sign-On
  • Passkeys & FIDO2
  • Adaptive MFA
  • Biometric
حاکمیت دسترسی
Authorization
  • RBAC / ABAC
  • PAM
  • Zero Trust
  • Just-in-Time
چرخه عمر
Lifecycle
  • Provisioning
  • Deprovisioning
  • Audit Trail
  • Compliance
یکپارچگی
Integration
  • SAML 2.0
  • OIDC / OAuth
  • SCIM 2.0
  • REST API

اعتماد سازمان‌های داده‌محور ایرانی

۴ بانک و فین‌تک۲ اپراتور مخابراتی۳ retailer بزرگ۶ سازمان حاکمیتی
+۲۸۰ترابایت داده فعال مدیریت‌شده روی Iceberg
مسیر ارزش‌آفرینی

ما نه فقط دردهای شما را می‌فهمیم — برای رسیدن به آنچه که سازمان شما باید باشد، نقشه می‌سازیم.

GITA Lakehouse یک پلتفرم بومی Lakehouse است که بر پایه Apache Iceberg، Trino و Spark ساخته شده — با کاتالوگ REST اختصاصی، governance یکپارچه (OpenLineage + Great Expectations) و موتور compaction هوشمند. تیم معماران ارشد ما در فاز Discovery، نقشه راه مهاجرت از Hive/Teradata/Oracle DWH به Lakehouse را با حداقل downtime طراحی می‌کنند.

Before

وضعیت رایج امروز

  1. 01

    Hadoop/Hive قدیمی شما با هر فایل کوچک ETL، ساعت‌ها NameNode pressure دارد

    هزینه پنهان: +۴۰٪ هزینه زیرساخت و SLA از دست رفته در گزارش‌های روزانه

  2. 02

    هر تغییر schema در جداول DWH = ۳ هفته downtime و migration دستی

    هزینه پنهان: پروژه‌های BI متوقف و عقب‌ماندگی از نیاز کسب‌وکار

  3. 03

    هیچ‌کس نمی‌داند گزارش دیروز با چه نسخه‌ای از داده تولید شده

    هزینه پنهان: ناتوانی در reproducibility و رد شدن در ممیزی مدل

  4. 04

    streaming (Kafka) و batch (Spark) دو دنیای جدا با کد دوبل هستند

    هزینه پنهان: هزینه نگه‌داشت ۲ pipeline و عدم تطابق آمار real-time و گزارش

After

با Lakehouse

  1. 01

    Iceberg با compaction خودکار و Z-Order

    قبلاً: HDFS با هزاران فایل کوچک Parquet

  2. 02

    Schema Evolution بدون rewrite

    قبلاً: هر تغییر schema = downtime

  3. 03

    Trino + Spark + DuckDB + ClickHouse روی همان جدول

    قبلاً: فقط Hive Metastore و Spark

  4. 04

    یک منبع حقیقت با Iceberg REST Catalog

    قبلاً: گزارش‌ها از چند DWH ناهمگن

معماری راهکار

معماری GITA Lakehouse چگونه کار می‌کند — جریان داده زنده

لایه ذخیره‌سازی روی Object Storage سازگار با S3 (MinIO، Ceph یا ابرهای داخلی) قرار دارد. Apache Iceberg به‌عنوان Table Format، ACID و Snapshot Isolation را فراهم می‌کند. کاتالوگ REST (سازگار با Polaris و Unity) متادیتا را در یک مکان واحد نگه می‌دارد و موتورهای محاسباتی Trino، Spark، DuckDB و ClickHouse همه روی همان جداول کار می‌کنند. لایه حاکمیت (RBAC + ABAC + OpenLineage + Great Expectations) به‌صورت موازی و بدون vendor lock-in اجرا می‌شود.

جریان داده
ورودی‌ها
Clients & Identities
L01
End Users
Web · Mobile
Employees
SSO Portal
Service Accounts
mTLS · API
هسته احراز
Gateway · Auth · Policy · Token
L02
Identity Gateway
Edge · TLS 1.3
Auth Engine
SSO · MFA · FIDO2
Policy Engine
RBAC · ABAC · ZTNA
Token Service
JWT · OAuth · OIDC
لایه داده
Identity Store · HSM · Directory
L03
Identity Store
PostgreSQL
HSM
PKCS#11
Directory Sync
AD / Workday
ممیزی و تله‌متری
Audit Pipeline · Kafka
L04
Audit Pipeline
Kafka stream
اپلیکیشن‌ها
Apps & Cloud
L05
Apps & Cloud
ERP · Email · Custom
درخواست احراز هویت
ارزیابی سیاست
صدور توکن
گزارش ممیزی
همگام‌سازی داده

روی برچسب‌های بالا کلیک کنید تا فقط یک نوع جریان داده فعال شود — یا روی هر نود حرکت کنید برای نمایش پررنگ‌تر.

قابلیت‌های محصول

قابلیت‌هایی که در عملیات روزمره داده تفاوت می‌سازند

10 ماژول تخصصی یکپارچه و قابل توسعه — برای انتخاب هر قابلیت، روی آن کلیک کنید.

هسته اصلی

تراکنش‌های ACID روی Object Storage — concurrent writes، schema evolution و hidden partitioning بدون rewrite.

GITA Lakehouse بر پایه Apache Iceberg 1.5 ساخته شده و از تمام قابلیت‌های پیشرفته آن استفاده می‌کند: Hidden Partitioning، Partition Evolution، Z-Order Clustering و Merge-on-Read. هر commit به‌صورت Snapshot ذخیره می‌شود و خوانندگان همیشه یک نمای consistent از داده می‌بینند. concurrent writers بدون نیاز به lock مدیریت می‌شوند.

نکات کلیدی
  • Snapshot Isolation و Serializable Writes
  • Hidden Partitioning و Partition Evolution
  • Z-Order Clustering برای جستجوی چندبعدی
  • Merge-on-Read و Copy-on-Write قابل انتخاب
برای شماکاهش ۷۰٪ زمان ETL نسبت به Hive سنتی
موارد استفاده صنعتی

راهکار متناسب با صنعت شما

بانک — Regulatory Reporting

تجمیع داده core banking، سوئیچ کارت و وام در یک Lakehouse با time travel — گزارش‌های روزانه بانک مرکزی، صورت سود و زیان IFRS9 و کشف تقلب با reproducibility کامل.

بیمه — Actuarial Analytics

تحلیل اکچوئری روی petabyte داده تاریخی بیمه‌نامه و خسارت. مدل‌های pricing و reserve با Snapshotهای دقیق برای رد ممیزی Solvency.

مخابرات — CDR & Network Analytics

Ingest روزانه میلیاردها CDR از سوییچ‌های 4G/5G، تحلیل کیفیت شبکه، churn prediction و billing reconciliation روی Iceberg با partition بر اساس cell-tower.

Retail — Customer-360

ادغام داده POS، فروشگاه آنلاین، CRM و loyalty در یک نمای واحد مشتری — basket analysis، RFM segmentation و recommendation در زمان واقعی.

تولیدی — IoT و Predictive Maintenance

Ingest سنسورهای خط تولید با Kafka، ذخیره در Iceberg با partition زمانی و اجرای مدل‌های پیش‌بینی خرابی روی Spark MLlib — بدون انتقال داده به ابر.

سازمان‌های دولتی و حاکمیتی

Data Lake ملی با استقرار On-Premise و Air-Gapped، حاکمیت داده کامل، انطباق با ابلاغیه‌های افتا و قابلیت federation بین سازمان‌ها از طریق Iceberg REST Catalog.

درمانی و پژوهشی

Lakehouse برای داده‌های پرونده الکترونیک سلامت، تصاویر DICOM متادیتا و کلینیکال تریال — با masking ستون‌محور برای داده هویتی و reproducibility پژوهشی.

انرژی و نفت و گاز

تجمیع داده SCADA، سنسورهای میدانی و سیستم‌های HSE روی Object Storage داخلی — تحلیل time-series سنگین با Spark و دشبورد real-time با ClickHouse.

یکپارچه‌سازی

با تمام ابزارهای داده سازمان شما کار می‌کند

+۸۵ کانکتور آماده، تأیید‌شده در محیط Production
پایگاه داده‌های منبع (CDC)
  • Oracle
  • PostgreSQL
  • MySQL
  • SQL Server
  • MongoDB
  • Cassandra
Streaming و Messaging
  • Apache Kafka
  • Redpanda
  • Pulsar
  • Debezium
  • Kafka Connect
موتورهای محاسباتی
  • Trino
  • Apache Spark
  • DuckDB
  • ClickHouse
  • Apache Flink
Object Storage
  • MinIO
  • Ceph
  • AWS S3 API
  • ابر آروان
  • ابر فردوسی
BI و Visualization
  • Apache Superset
  • Metabase
  • Power BI
  • Tableau
  • Grafana
Orchestration و ML
  • Apache Airflow
  • Dagster
  • Prefect
  • MLflow
  • Jupyter / Zeppelin
Governance
  • OpenLineage
  • Great Expectations
  • Apache Atlas
  • DataHub
  • GITA Identity
کانکتور موردنیازتان را پیدا نمی‌کنید؟ ادغام سفارشی درخواست دهید
فرآیند پیاده‌سازی

از تماس اول تا Production در ۴ فاز

نقشه راه شفاف از اولین تماس تا عملیات دائمی — هر مرحله با خروجی قابل اندازه‌گیری.

PHASE 01۲ هفته

ارزیابی و طراحی معماری داده

جلسه با معمار ارشد داده، بررسی DWH و دریاچه داده فعلی، شناسایی منابع CDC، طراحی schema لایه bronze/silver/gold و نقشه راه مهاجرت از Hive یا Teradata.

سند Lakehouse Architecture Blueprint
PHASE 02۴–۶ هفته

پیاده‌سازی Pilot روی ۳ دامنه

استقرار Iceberg + Trino + Spark، اتصال CDC از ۲ تا ۳ پایگاه داده اصلی، ساخت اولین داشبوردهای BI و آموزش تیم داده شما در استانداردهای Lakehouse.

Lakehouse عملیاتی روی ۳ دامنه داده
PHASE 03۸–۱۶ هفته

مهاجرت سازمانی و دامنه‌های جدید

مهاجرت تدریجی از Hive/Oracle DWH، فعال‌سازی RBAC و OpenLineage، استقرار Great Expectations و آموزش data stewardها.

پوشش کامل داده‌های تحلیلی سازمان
PHASE 04دائمی

بهره‌برداری و بهینه‌سازی مستمر

پشتیبانی ۲۴/۷، tuning compaction و Z-Order بر اساس workload واقعی، گزارش ماهانه FinOps داده و معرفی قابلیت‌های جدید Iceberg.

SLA تضمین‌شده + بهینه‌سازی دائمی هزینه
سوالات متداول فنی

سوالاتی که تیم فنی شما احتمالاً می‌پرسد

Iceberg در برابر Delta Lake و Hudi — کدام را انتخاب کنیم؟+

GITA Lakehouse هر سه را پشتیبانی می‌کند، اما پیشنهاد پیش‌فرض ما Iceberg است. دلیل: استاندارد باز با حاکمیت Apache، REST Catalog مستقل از vendor، Hidden Partitioning، Partition Evolution و Branching/Tagging از همه قوی‌تر است. Delta برای تیم‌هایی که در اکوسیستم Databricks سرمایه‌گذاری کرده‌اند مناسب است و Hudi برای workloadهای upsert سنگین streaming. در فاز Discovery، با workload واقعی شما تصمیم می‌گیریم.

مهاجرت از Hive Metastore و HDFS چقدر طول می‌کشد و چقدر ریسک دارد؟+

ما یک ابزار migration اختصاصی داریم که جدول‌های Hive را به Iceberg به‌صورت in-place تبدیل می‌کند — فایل‌های Parquet موجود را بدون rewrite استفاده می‌کند و فقط متادیتای Iceberg را می‌سازد. برای یک DWH با ۵۰۰ جدول و ۸۰ ترابایت داده، معمولاً ۸ تا ۱۲ هفته مهاجرت تدریجی با dual-write انجام می‌شود — بدون downtime برای گزارش‌های production.

performance Trino در برابر Spark چگونه است؟ کدام را برای چه کاری استفاده کنیم؟+

Trino برای کوئری‌های BI تعاملی (sub-second تا چند ثانیه) و ad-hoc analysis بهینه است — MPP engine بدون JVM overhead per-query. Spark برای ETL سنگین، transformation پیچیده و ML بهتر است. در GITA Lakehouse هر دو روی همان جدول Iceberg کار می‌کنند و شما می‌توانید برای هر workload بهترین موتور را انتخاب کنید. DuckDB برای تحلیل embedded و ClickHouse برای دشبورد real-time هم در دسترس‌اند.

Schema Evolution در Iceberg چگونه کار می‌کند؟ آیا rewrite لازم است؟+

Iceberg از in-place schema evolution پشتیبانی می‌کند: add column، drop column، rename، reorder و حتی تغییر type (با قواعد سازگاری) بدون نیاز به rewrite داده. هر ستون با ID داخلی track می‌شود نه نام، پس rename هزینه ندارد. Partition Evolution هم پشتیبانی می‌شود — می‌توانید partition strategy را تغییر دهید و داده قدیمی با strategy قدیمی و داده جدید با strategy جدید کنار هم زندگی کنند.

Time Travel و Branching چه سناریوهایی را پوشش می‌دهد؟+

سه سناریوی اصلی: (۱) Audit و Reproducibility — بازتولید گزارش‌های قدیمی با Snapshot ID؛ (۲) Rollback — برگرداندن فوری جدول به snapshot قبلی بعد از یک bad write؛ (۳) WAP (Write-Audit-Publish) — نوشتن داده در یک branch، اجرای quality checkها، و publish به main فقط بعد از تأیید. Branchها فضای فیزیکی اضافی مصرف نمی‌کنند تا زمانی که تغییر داده شوند.

RBAC و Row/Column Level Security چطور پیاده‌سازی می‌شود؟+

موتور policy ما با Trino و Spark integration دارد. policyها در یک repository مرکزی نوشته می‌شوند (DSL یا UI) و در زمان query parsing اعمال می‌شوند — یعنی Trino خودش query را rewrite می‌کند تا فقط ردیف‌ها و ستون‌های مجاز خوانده شوند. masking پویا (مثل تبدیل شماره کارت به ۴ رقم آخر) برای کاربران غیرمجاز اعمال می‌شود. attributeهای کاربر از GITA Identity (SCIM) خوانده می‌شوند.

Multi-Tenant Lakehouse چگونه isolate می‌شود؟+

از سه لایه isolation استفاده می‌کنیم: (۱) Namespace در REST Catalog با policyهای جداگانه؛ (۲) bucket یا prefix جداگانه در Object Storage با IAM مستقل؛ (۳) Trino resource groups برای محدودیت CPU/Memory per-tenant. هر tenant کاتالوگ خودش را می‌بیند، نمی‌تواند به متادیتای tenant دیگر دسترسی داشته باشد و quota محاسباتی و ذخیره‌سازی مستقل دارد.

هزینه ذخیره‌سازی را چطور کنترل می‌کنید؟ Compaction خودکار است؟+

بله. scheduler maintenance ما به‌صورت دوره‌ای: (۱) فایل‌های کوچک را compact می‌کند (هدف ۵۱۲MB-۱GB)؛ (۲) Z-Order rewrite بر اساس کوئری‌های پرکاربرد انجام می‌دهد؛ (۳) Snapshotهای قدیمی‌تر از retention policy را expire می‌کند؛ (۴) orphan filesها را پاک می‌کند. در Object Storage هم erasure coding (مثل ۱۰+۴) به‌جای replication ۳x استفاده می‌کنیم — کاهش ۵۰٪+ هزینه نسبت به HDFS سنتی.

streaming و batch چطور در یک جدول unified می‌شوند؟+

Iceberg از همان جدول هم برای streaming write (با Flink یا Spark Structured Streaming یا Kafka Connect) و هم batch write پشتیبانی می‌کند. ما الگوی Medallion (Bronze/Silver/Gold) را پیاده می‌کنیم: Bronze با CDC از Debezium به‌صورت append-only، Silver با merge-on-read برای upsert، Gold با aggregate batch روزانه. خوانندگان همیشه snapshot consistent می‌بینند و isolation بین streaming و batch به‌صورت خودکار مدیریت می‌شود.

اتصال Power BI، Tableau و Superset چطور انجام می‌شود؟+

از طریق Trino JDBC/ODBC که با تمام ابزارهای BI استاندارد سازگار است. برای Power BI کانکتور اختصاصی Trino و برای Tableau هم driver رسمی وجود دارد. Superset و Metabase به‌صورت native پشتیبانی می‌شوند. برای کارایی بالاتر، می‌توانید Materialized Views در Trino بسازید یا از کش result استفاده کنید — کوئری‌های داشبورد روی petabyte در sub-second پاسخ می‌دهند.

تماس مستقیم با تیم فنی

جلسه فنی با معمار ارشد داده رزرو کنید

۴۵ دقیقه با معمار ارشد داده ما صحبت کنید. معماری Lakehouse را برای workload و منابع داده شما تشریح می‌کنیم. رایگان، بدون پرزنتیشن فروش، بدون تعهد.

تلفن مستقیم
+۹۸ ۲۱ ۱۲۳۴ ۵۶۷۹
ایمیل تخصصی
lakehouse@gitiafrooz.com
ساعات کاری
شنبه تا چهارشنبه — ۹ تا ۱۸
فرم درخواست جلسه
مرحله ۱ از ۲

۳۰ ثانیه طول می‌کشد

معمار ارشد ما طی ۴ ساعت کاری با شما تماس می‌گیرد.

رایگان · بدون پرزنتیشن فروش · بدون تعهد