بیانیه ابر آروان درباره‌ی اختلال ۴۰ دقیقه‌ای DNS ابری و جبران خدمات - حلقه ارتباطی ابر آروان

ابر آروان

زیرساخت یکپارچه ابری

4 نوامبر 2019

بیانیه ابر آروان درباره‌ی اختلال ۴۰ دقیقه‌ای DNS ابری و جبران خدمات

امروز ۱۳ آبان ۹۸ از ساعت ۱۵:۳۸ تا ۱۶:۱۸ سرویس DNS ابر آروان با اختلال شدیدی مواجه شد که منجر به از دسترس خارج شدن بسیاری از وب‌سایت‌ها شد.

اختلال برای هر سرویس اینترنتی یک خسران و برای شرکت‌های زیرساختی دارای ابعاد بسیار گسترده‌تری است، ما آگاهیم که بروز چنین رخداد‌هایی چه‌طور می‌تواند اعتماد کاربران را خدشه‌دار  و به کسب‌وکارهای مختلفی که به ابر آروان اعتماد کرده‌اند، خسارت‌ وارد کند.

پوزش خواستن از مشتریان، پاسخ‌گویی و تعهد به قراردادهای جبران خدمات، اعلام شفاف علت‌های بروز این حادثه و بیان دقیق اقدامات ابر آروان در راستای جلوگیری از تکرار این چنین حوادثی را جزو وظایف خود می‌دانیم و این بیانیه در راستای تعهد حرفه‌ای ابر آروان منتشر شده است.

به گزارش تیم فنی ابر آروان دلیل این اختلال یک اشتباه انسانی در فرآیند Deployment نسل جدید مجموعه سرویس‌های امنیت ابری بوده است. وجود یک تداخل در ساختار Configuration Management و Automatic Deployment نسل جدید سرویس امنیت ابری و نسخه‌ی پایدار (فعلی) DNS ابر آروان باعث حذف تنظیمات از روی سرورهای لبه شد.

شبکه ابر آروان از یک ساختار Multi Master – Multi Agent استفاده می‌کند که به‌کمک آن و از طریق یک Distributed Key-Value Store از یکپارچگی تنظیمات در تمام نقاط دنیا اطمینان پیدا می‌کند. حذف تنظیمات دامنه‌ها از روی تمام Masterها موجب Sync بلافاصله‌ی سرورهای لبه و حذف تنظیمات از روی آن‌ها شد، که در نتیجه سرورهای لبه‌ی DNS امکان پاسخ‌گویی به درخواست‌ها را از دست دادند.

این اختلال در ساعت ۱۵:۳۵ آغاز و تا ۱۵:۴۰ (به‌مدت ۵ دقیقه) به‌شکل سراسری شبکه را متاثر کرد. پس از ۵ دقیقه با تشخیص دقیق مشکل پیش آمده، فرآیند بازسازی و تولید تنظیمات دامنه‌ها آغاز شد. سرورهای مستر، تنظیمات هر دامنه را از پایگاه داده بازخوانی کرده و با ورود این اطلاعات به Distributed Key-Value Store فرآیند Sync سرورهای لبه آغاز شد. با یکپارچه شدن تنظیمات در تمام سرورها و اطمینان از رفع کامل مشکل در ساعت ۱۶:۱۸ مشکل از سمت ابر آروان به‌طور کامل برطرف شد.

کاربرانی که از DNS سرورهای ۴.۲.۲.۴ و ۴.۲.۲.۲ استفاده می‌کردند، دقایق بیش‌تری اختلال را احساس کردند، طولانی‌تر شدن این اختلال به‌دلیل مشکل به‌روزرسانی name serverهای شرکت level3 بوده است. در این مدت این شرکت یک آدرس تبلیغاتی را به‌عنوان پاسخ به کاربران برمی‌گرداند.

پس از رفع کامل اشکال، تیم فنی جلسه‌ی کالبد شکافی (Post Mortem) را برگزار کرد؛ در این جلسه موارد زیر مطرح شد:

  • بررسی عمیق مشکل و روش‌های جلوگیری از بروز مجدد آن
  • اصلاح سناریوی دیزستر ریکاوری
  • توقف دیپلویمنت به‌مدت دو هفته برای اصلاح فرآیند و جلوگیری از اشتباه انسانی

 

آگاهیم که این اختلال در سطوح متفاوت مشتریان ابر آروان را تحت تاثیر قرار داده است و وظیفه‌ی خود می‌دانیم که در برابر این مشکل پاسخ‌گو باشیم.

ابر آروان با بالاترین سقف جبران خدمات (SLA) به میزان ۱۰ برابر مدت زمان قطعی سرویس یعنی معادل ۴۰۰ دقیقه، حساب تمامی مشتریان را متناسب با سطح مصرف سرویس‌شان شارژ می‌کند. این شارژ تا ساعت ۲۴ امشب ۱۳ آبان ۱۳۹۸ به اعتبار حساب مشتریان افزوده خواهد شد.

گفتنی است، این جبران خدمات حتا برای مشتریانی که مشمول SLA نبودند نیز اعمال می‌شود.

به‌علاوه، تمام تلاش‌مان را به‌کار خواهیم گرفت تا با پیش‌بینی اتفاقات احتمالی در آینده و راه‌حل‌های آن، از بروز چنین رخدادهایی پیش‌گیری کنیم.

از این‌که با شکیبایی‌تان ما را همراهی کردید سپاس‌گزاریم.

  • زئوس گفت:

    حدود دو سالی میشه که دارم از خدمات اروان استفاده میکنم ، تا حالا همچین اخلال گسترده ای رو ندیده بودم اول فکر کردم سرورهای سایت دان شدن بعد متوجه شدم دی ان اس ها از کار افتاده ، جز صبر کار دیگه ای نمیشد کرد.
    امیدوارم که در اینده شاهد چنین اتفاقاتی نباشیم، موفق و پیرز باشید.
    در ضمن همچنان به استفاده و حمایت از خدمات بومی آروان ادامه خواهیم داد

  • اگرچه مشتری شرکت شما نیستیم
    اما دیدن چنین تعهد، شفافیت و جراتی که به خرج دادید تحسین برانگیز است
    برای مشکل پیش آمده متاسفیم، اما عمیقا امیدواریم پیشرفت روزافزون تان را ببینیم.

  • سعید گفت:

    سلام خیلی خوبه که موارد رو شفاف سازی کردید. بهتره از ابزار های دوآپس زیرساخت برای ایجاد حلقه ای برای جلوگیری از خطای انسانی استفاده کنید و سرورهاتون رو از مرحله توسعه تا رسیدن به پروداکشن با رویکرد دوآپس مدیریت کنید. قطعا دوآپس در بخش توسعه نرم افزارتون وجود داره و میتونید همین رو در زیرساختتون هم داشته باشید.

  • سیامک گفت:

    با سلام و تشکر از شما بابت اطلاع رسانی دقیق و مو شکافانه خودتون

    سوالی که برای من پیش آمده اینه که قطعا در شرکت های کلود هاستینگ بزرگ جهان هم امکان خطاهای انسانی وجود داره، و باید از تجربیات اونها برای جلوگیری از رخداد مجدد این مسایل استفاده کرد. آیا بررسی کردید که چه راه حلی برای جلوگیری از مشکلات دیپلویمنت در این شرکت ها استفاده میشه؟

    سوال بعدی اینکه من مدتیه که روی سرویس dadi.cloud تحقیق میکنم که تغییر نام داده به edge.network و یک سرویس کلود بیس بر روی شبکه بلاک چین هست و وعده میده که سرویس های کلود رو به شکل غیر متمرکز ارائه میده. بدیهیه که شما مزیت های بلاک چین رو میدونید، و اینکه با چنین ساختاری بشه خطاهایی رو پوشش داد خیلی جذابه، آیا شما در تیم تحقیق و توسعه خودتون بر روی کاربرد بلاک چین در کلود هاستینگ کار کردید؟

    ممنون

  • یک دوست آروانی گفت:

    قبل از خوندن مقاله؛پست های توییتر فرهاد و پویا رو دیدم و چقدر دلم از ناراحتی شما گرفت.چقدر ناراحت شدم که میبینم آروان امروز تحت فشار بوده و کیفیت سرویسش افت کرده.

    اما چند نکته:
    بروز چنین مشکلاتی اجتناب ناپذیره.باید تجربه بشه تا پخته تر بشین.پس اشکال نداره …. 🙂
    بروز مشکل؛نظم و سازماندهای و پروسه های مدیریت بحران رو بهبود میده و به قوی تر شدنتون کمک میکنه.

    به این فکر میکنم اگر ساعت ۳ شب مشکل بروز پیدا کرده بود؛آیا حل مشکل باز هم ۴۰ دقیقه طول میکشید؟؟به این بخش فکر کنید.

    خوشحال میشم بدونم فرهنگ برخوردتون با فرد(یا افرادی) که در بروز مشکل موثر بودند رو بیان کنید.شکی نیست که برخوردتون همراه با منطق و حرفه ای گری بوده؛اما دوست داشتم این وجه از فرهنگ سازمانیتون رو هم بدونم.

    پایدار و سربلند باشید-خدانگهدار

  • arash گفت:

    ساعت انجام این تغییرات در شبکه مناسب نیست. فکر کنم ساعات off-peak بهتری میشد انتخاب کرد

  • سهراب گفت:

    متاسفانه شارژ به حساب من اضافه نشده …
    البته این موضوع رو نگفتم که بخوام شارژ رو از شما پیگیری کنم. چون فقط از شبکه توزیع محتوای شما استفاده می‌کنم و فاکتورهای پرداختیم بر اساس زمان محاسبه نمیشن … قبول دارم که ۴۰۰ دقیقه شارژ برای شما هزینه زیادیه ولی برای مشتریانتون جبران نیست.
    تنشی که در لحظه قطع سرویس‌ها ما به ما وارد میشه و زمانی که برای پیگیری این مشکلات صرف می‌کنیم. هزینه از دست رفته کمپین‌های تبلیغاتی ما در زمان اختلال، سفارشاتی که در زمان قطع سرویس‌ها به علت عدم اعتماد برای همیشه از دست میرن، نارضایتی کاربران از ما و چیزی که تو ذهنشون می‌مونه، … همه و همه در کنار هم باعث میشن که ۴۰۰ دقیقه شارژ به چشم نیاد.
    احتمالا این کامنت رو پاک می‌کنید … می‌تونستم این موضوع رو در تیکت پشتیبانی بنویسم ولی چون قطعی خدمات شما علنی بود به خودم حق دادم که این حرف‌ها رو علنی بیان کنم.

  • سپاس از گزارش و شفاف سازی شما، این گزارشات مشتریان را دلگر م می کند که در صورت بروز موارد این چنینی نظارت درستی بوده و سیستم تحت کنترل هست، چقدر خوشحالم که میتونم سامانه فوق تخصصی ایرانی را به خیال آسوده جایگزین سیستم مشابه خارجی کنم و ما خیلی از وب سایت هامون رو به آروان منتقل کردیم و به این انتقال ها حتما ادامه میدیم، خسته نباشید میگم و خداقوت

  • امین گفت:

    سلام
    در خطوط آخر ، غلط املایی را بهتر است اصلاح کنید ، اونجا که نوشتید :
    “گفتنی است، این جبران خدمات حتا برای مشتریانی که مشمول SLA نبودند نیز اعمال می‌شود. ”
    حتا => حتی

    موفق باشید

  • × برای اطلاع از آخرین اخبار و مقالات آروان عضو خبرنامه ما شوید