جرثقیل سقفی

پدافند غیرعامل-مدیریت بحران در دیتاسنتر

حمیدرضا لطفی– تابستان 1401
چکیده
هدف از این مقاله بررسی نقاط شکست1 سامانه‌های دیتاسنتر و تدوین طرح بازیابی فاجعه2 برای کلیه سیستم‌ها و بانک‌های اطلاعاتی در شرایط بحرانی است. نتیجه این کار، کارشناسی و تدوین یک برنامه بازیابی3 است که در زمان بروز فاجعه‌ای از نوع فناوری اطلاعات بکار گرفته می‌شود. در این مقاله به نحوه مدیریت بحران در حوزه IT می‌پردازیم.

  1. مقدمه
    طرح بازیابی فاجعه یا به‌اختصار 4DRP یک رویکرد ساختاریافته برای پاسخ به حوادث غیر برنامه‌ریزی‌شده در زیرساخت فناوری اطلاعات شامل بخش سخت‌افزار، نرم‌افزار، شبکه‌ها، فرایندها و افراد است. حفاظت از سرمایه‌گذاری شرکت در زیرساخت‌های فناوری‌و توانایی شرکت برای انجام کسب‌وکار بدون وقفه، دلایل کلیدی برای اجرای یک “برنامه بهبود فاجعه فناوری اطلاعات” است. سازمان‌ها نمی‌توانند به دلیل قطع برق منطقه‌ای، حمله سایبری یا خرابی سخت‌افزار، از سرویس‌دهی به ذی‌نفعان باز بمانند. ایجاد اختلال در سیستم‌های بدون وقفه به معنای درآمد ازدست‌رفته است. در برخی موارد از دسترس خارج‌شدن سرویس‌ها، شرکت‌ها را با زیان‌های جبران‌ناپذیری مواجه می‌کند که با ارزش ریالی نمی‌توان آنها را تخمین زد. این خسارت‌ها می‌توانند شامل ازدست‌رفتن اعتبار یک شرکت یا مؤسسه باشد. نظر به اهمیت سرویس‌های مرکز ملی شماره‌گذاری کالا و خدمات ایران، در سطح ملي و وابستگي بسياري از عناصر موردنیاز جهت به حركت درآوردن چرخه توسعه ملي به اين سيستم، جهت جلوگيري از ايجاد وقفه در عملكرد منابع اطلاعاتي و تضمين ارائه سرويس بدون وقفه در آن‌ها، بايستي معماري را در نظر گرفت كه بتواند مسئوليت همه اجزاي زيرساخت را براي تضمين فعاليت بي‌وقفه و بازيابي پس از وقوع حادثه، بر عهده گيرد.
  2. برنامه بازیابی فاجعه در فناوری اطلاعات یا به‌اختصار5 IT-DRP چیست؟
    برنامه‌های بازیابی فاجعه فناوری اطلاعات یا IT-DRP برنامه‌های گام‌به‌گام برای بازیابی سیستم‌ها و شبکه‌های مختل شده را فراهم می‌کنند و به سازمان‌ها کمک می‌کنند تا عملیات عادی را ادامه دهند. هدف از این فرآیندها، به‌حداقل‌رساندن تأثیرات منفی به عملیات شرکت است. فرايند بازیافت، فاجعه در فناوري اطلاعات و شبکه‌های بحرانی را شناسایی می‌کند، زمان بازیابی آنها را اولویت‌بندی می‌کند و مراحل موردنیاز برای راه‌اندازی مجدد، تنظیم مجدد و بازیابی آنها را مشخص می‌کند. برنامه جامع IT-DR شامل همه مخاطبین تأمین‌کننده مربوطه، منابع تخصصی برای بازیابی سیستم‌های خراب شده و دنباله‌ای منطقی از اقدامات برای بازیابی مستقیم است.پس از اتمام ارزیابی ریسک و شناسایی تهدیدات بالقوه به زیرساخت IT ، گام بعدی این است که تعیین کنید کدام عناصر زیربنایی برای عملکرد کسب‌وکار شرکت شما مهم است.
  3. توصیه‌های موسسه ملی فناوری و استاندارد 6NIST در مورد مدیریت بحران در دیتاسنتر:
    مؤسسه ملی فناوری و استاندارد NIST در انتشارات ویژه 800-34، زیر ساختار ایده‌آل برای یک برنامه بازیابی فاجعه IT را به این شرح بیان می‌کند:
  • سیاست‌های برنامه‌ریزی احتمالی را توسعه دهید: یک سیاست رسمی (تأیید شده توسط مدیران ارشد سازمان) ، اقتدار و هدایت لازم را برای ایجاد طرح مؤثر احتمالی فراهم می‌کند.
  • تجزیه‌وتحلیل تأثیر کسب‌وکار را انجام دهید: تجزیه‌وتحلیل تأثیر کسب‌وکار کمک می‌کند تا شناسایی و اولویت‌بندی سیستم‌های IT و اجزای مهم بحرانی شناسایی شوند.
  • شناسایی کنترل‌های پیشگیرانه: اقداماتی که باعث کاهش تأثیرات اختلالات سیستم می‌شوند، می‌توانند دردسترس‌بودن سیستم‌ها را افزایش دهند و هزینه‌های چرخه عمر احتمالی را کاهش دهند.
  • توسعه استراتژی‌های بازیابی: استراتژی‌های بازسازی کامل اطمینان می‌دهند که سیستم می‌تواند به‌سرعت و به طور مؤثر پس از یک اختلال بهبود یابد.
  • برنامه اضطراری IT را توسعه دهید: طرح احتمالی باید شامل دستورالعمل دقیق و مراحل برای بازگرداندن سیستم آسیب‌دیده باشد.
  • آموزش کارکنان و تست برنامه: بهبود برنامه و آمادگی سازمان را ارتقای می‌بخشند و شکاف‌های برنامه‌ریزی را شناسایی می‌کنند. آموزش، کارکنان تعمیرات و نگاهداشت را برای فعال‌سازی برنامه آماده می‌کند.
  • برنامه نگهداری این طرح باید یک سند به‌روز باشد: که به طور مرتب به بهبود می‌یابد تا با پیشرفت‌های سیستم فعلی سازگار بماند.
  1. بررسی Single Point of Failure – نقاط شکست سامانه‌های دیتاسنتر
    برای اینکه بدانیم چه باید انجام دهیم ابتدا باید درک درستی از وضعیت فعلی داشته باشیم و با شناسایی نقاط قوت و ضعف در شرایط فعلی، برای جلوگیری از هزینه‌های بالای ناشی از حوادث برنامه‌ریزی کنیم.
    به این منظور شبکه فعلی را از نظر سخت‌افزار و نرم‌افزار و سرویس‌های موجود به قسمت‌های ریز و مجزا تقسیم می‌کنیم و سپس نقاط شکست آنها را بررسی می‌کنیم. به‌طورکلی می‌توان عوامل مؤثر در پدافند غیرعامل – مدیریت بحران دیتاسنتر را به به‌صورت زیر دسته‌بندی کرد:
    • شرایط بحرانی برای محیط فیزیکی دیتاسنتر:
    مهم‌ترین این عوامل عبارت‌اند از وقوع بلایای طبیعی، قطع انرژی، آتش‌سوزی، ازدیاد رطوبت یا گرما و یا خرابکاری‌های عمدی .
    • شرایط بحرانی برای سرویس‌های نرم‌افزاری:
    خرابی‌هایی مانند خرابی سیستم‌عامل OS، خرابی پایگاه اطلاعاتیDatabase software، خرابی Aplication برنامه‌های‌کاربردی ‌و‌ خرابی سرویس‌ها Services از این دسته هستند.
    • شرایط بحرانی از نوع سخت‌افزار: مانند خرابی CPU , RAM , Power , MB
    • خرابی شبکه انتقال اطلاعات:
    واضح است که هرگونه اختلال در شبکه‌های اتصال و انتقال اطلاعات باعث اختلال در سرویس‌دهی خواهد شد. خرابی‌ها می‌توانند از نوع قطع فیزیکی ارتباط و یا خرابی در سوئیچ‌ها و مسیریاب‌ها باشند.
    همچنین ممکن است این خرابی ناشی از اختلال در کار )سرویس‌دهی (Provider باشد.
    • خرابی دیتا و اطلاعات Media & Data : امروزه دیتا و اطلاعات از سرمایه اصلی شرکت‌ها هستند. شرایط بحرانی که می‌توانند اطلاعات ذخیره شده را دچار خسران کنند عبارت‌اند از: خرابی دیسک محل نگهداری اطلاعات، خرابی نرم‌افزاری دیتا ناشی از باگ‌های نرم‌افزاری، خرابی نرم‌افزاری دیتا ناشی از تروجان یا باج‌افزار. همچنین در برخی شرایط عامل انسانی نقش اصلی در ایجاد شرایط بحرانی دارد مانند: خطاهای کاربران عمومی، خطاهای مربوط به ادمین دیتابیس‌ها، خطاهای مربوط به ادمین سرور و خرابکاری عمدی.
    • خرابکاری‌های عمدی:
    یکی از غیرقابل‌پیش‌بینی‌ترین انواع خرابی‌ها و بحران‌های پیش‌آمده در دیتاسنتر، بروز حوادثی است که توسط یک فرد یا افرادی از داخل و یا خارج سازمان به جهت ایجاد مشکل در خدمات‌رسانی و بروز اختلال در سرویس‌های حیاتی، طراحی و اجرا می‌شوند. مقابله با این تهدید همکاری همه ارکان سازمان را می‌طلبد. همچنین نشت اطلاعات حیاتی و محرمانه مانند فایل‌های محرمانه، مستندات دیجیتالی مهم سازمان و دیتابیس‌ها نیز از خرابکاری‌های عمدی و انسانی شمرده می‌شوند.
  2. راهکارهای پیشنهادی برای پدافند غیرعامل – مدیریت بحران در دیتاسنتر
    البته مطمئن‌ترین روش برای به‌حداقل‌رساندن خسارات ناشی از بحران در IT این است که برای هر سایت موجود یک سایت Mirror در مکانی دیگر راه‌اندازی کنیم و یک نمونه کپی از همه سخت‌افزارها و نرم‌افزارهای سایت اول در آن نصب کنیم بطوریکه هر دو به‌صورت موازی و آنلاین بتوانند کار سرویس‌دهی و انجام خدمات را انجام دهند که به این مدلFault Tolerance یا به‌اختصار FT می‌گویند.
    هرچند این مورد پرهزینه‌ترین پیشنهاد نیز هست. دیتاسنتر باید در حد امکان استانداردهای تعریف شده در این زمینه را دارا باشد. استانداردهای جهانی ISO 27001/ISO 22301 جهت انتخاب درست یک دیتاسنتر این موارد را توصیه می‌کند :
    • اولین و مهم‌ترین پارامتر داشتن فاصله بین ۵۵ مایلی (۹۰ کیلومتر) تا ۱۰۰ مایلی (۱۶۰ کیلومتر) از سایت اصلی تا سایت بازگشت از بحران.
    • سازه دیتاسنتر مقصد باید از لحاظ فیزیکی از چندین لایه دیوار بتنی ساخته شده باشد.
    • دیتاسنتر مقصد باید در مقابل حملات الکترومغناطیس محافظت شده باشد.
    • دیتاسنتر مقصد باید دارای چندین مسیر تأمین برق باشد.
    • پهنای باند دیتاسنتر مقصد باید جوابگوی پهنای باند موردنیاز شما باشد.
    • دیتاسنتر مقصد باید دارای مدرن‌ترین سیستم‌های اطفا حریق باشد.
  3.  مکانیزم Disaster Recovery Plan در مرکز ملی شماره‌گذاری کالا و خدمات ایران
    مرکز ملی شماره‌گذاری کالا و خدمات ایران، دارای بانک‌های اطلاعتی شامل بیش از 4 میلیون کد قلم کالا با همه مشخصات و یکی از ۱۲ بانک اطلاعات مرجع در کنار سایر بانک‌های اطلاعاتی کشور است که در حوزه کالا و خدمات به سازمان‌ها سرویس‌های لازم را ارائه می‌نماید؛ بنابراین پایداری سرویس‌ها و حفاظت از اطلاعات طبقه‌بندی‌شده، مهم‌ترین وظیفه کارشناسان حوزه فناوری اطلاعات و بخش دیتاسنتر است. به این منظور برای مواجهه با شرایط بحرانی در دیتاسنتر، طرحی عملیاتی تهیه شده که به قسمت‌هایی از آن اشاره می‌شود.
  • راهکارهایی برای پدافند غیرعامل – شرایط بحرانی محیط فیزیکی دیتاسنتر
  • استفاده از دیتاسنترهای پارک فناوری پردیس و قراردادن سرورهای عملیاتی در خارج شهر به‌عنوان دومین دیتاسنتر عملیاتی و تقسیم وظایف بین سرورهای مختلف.
  • وجود سیستم اعلام حریق و دود با امکان ارسال پیامک هشدار، وجود کپسول آتش‌نشانی از نوع گاز.
  • وجود کولر سرمایشی دوم برای موارد ضروری.
  • وجود UPS آنلاین برای تأمین انرژی لازم برای سرورها و تجهیزات داخل.
  • اتصال کابل ارت به تجهیزات.
  • مجهز بودن به ژنراتور برای قطع برق طولانی.
  • راهکارهایی برای پدافند غیرعامل – شرایط بحرانی سرویس‌های نرم‌افزاری
  • استفاده از تکنولوژی‌های روز مجازی‌سازی سرور و شبکه. بیش از 90 درصد سرورهای اصلی مرکز ملی شماره‌گذاری کالا و خدمات ایران مجازی‌سازی شده است. یکی از مزایای این کار، چابکی و سرعت عمل در رفع خطاها است.
  • از سیستم‌عامل و دیتابیس‌ها در زمان‌های مشخص و به‌صورت دوره‌ای Backup گرفته شده و در چندین مکان مختلف ذخیره می‌شود .
  • ارتقای سیستم‌عامل‌ها به نسخه بالاتر در حد امکان و به‌صورت دوره‌ای انجام می‌گیرد. تغییرات در مستندات و پرونده‌های موجود ثبت می‌شود، یک نسخه جدید بک‌آپ از سرور گرفته می‌شود.
  • ایجاد مستندات سرورها و تجهیزات دیگر و نگهداری در محل امن. اطلاعات مهمی مانند ورژن سیستم‌عامل، آدرس‌های شبکه، برنامه‌های نصب شده، دیتابیس‌ها و سرویس‌های موجود روی سرورها و حتی کاربران و سطوح دسترسی به سیستم‌عامل در این پرونده‌ها آورده شده است تا در زمان لازم بتوان به آنها رجوع کرد.
  • راهکارهایی برای پدافند غیرعامل – شرایط بحرانی سخت‌افزارها
  • استفاده از سرورهای صنعتی که معمولاً طول عمر بالا داشته و معمولاً دو یا چند پردازنده فیزیکی و همچنین دو منبع تغذیه جداگانه برای اتصال به برق شهر و برق اضطراری دارند.
  • همه تجهیزات سخت‌افزاری توسط نرم‌افزارهای مخصوص مانیتورینگ، رصد می‌شوند و در صورت بروز خرابی در بخشی از آنها، به‌سرعت برای رفع خرابی اقدام می‌شود. در حال حاضر سیستم مانیتورینگ مرکز ملی شماره‌گذاری کالا و خدمات ایران دارای 3000 سنسور برای پایش سرورها، تجهیزات شبکه و همچنین سرویس‌های خدماتی است که به‌صورت 24 ساعته دیتاسنتر را مانیتور می‌کنند. این سیستم مجهز به تجهیزات سخت‌افزاری و نرم‌افزاری ارسال هشدار به‌صورت های مختلف مانند ارسال پیامک است.
  • استفاده از تکنولوژی‌های مرتبط با Fault Tolerance و High Availibility .
  • راهکارهایی برای پدافند غیرعامل – شرایط بحرانی شبکه‌های انتقال اطلاعات
  • استفاده از خطوط انتقال اطلاعات بین سرورها و استوریج‌ها به‌صورت موازی.
  • تهیه مستندات به‌روز از توپولوژی ارتباطات بین سرورها و سوئیچ‌ها و استوریج‌ها، شامل فایل‌های بک‌آپ، نقشه شبکه و مستندات لازم دیگر.
  • نظارت و مانیتورینگ دائمی ارتباطات بین سرورها و شبکه.
  • آماده بودن لوازم‌یدکی موردنیاز مانند کارت شبکه7 ، فیبر نوری و درگاه آن8 برای مواقع ضروری.
  • راهکارهایی برای پدافند غیرعامل – شرایط بحرانی در خرابی‌های Media & Data
  • استفاده از تکنولوژی Raid در محل ذخیره اطلاعات.
  • نگهداری و بایگانی اطلاعات مهم و پشتیبان‌گیری در مکان‌های مختلف و خارج از شبکه اصلی.
  • استفاده از فایروال‌های سخت‌افزاری و نرم‌افزاری در گذرگاه‌های شبکه .
  • استفاده از آنتی‌ویروس به‌روز و معتبر روی سرورها، استفاده از آنتی باج‌افزار.
  • بالا نگه‌داشتن سطح امنیت سایت‌ها و انجام تست‌های نفوذ مطابق دستورالعمل‌های افتا.
  • بسته بودن درگاه‌های غیرضروری سیستم‌ها مانند USB , CDROM .
  • راهکارهایی برای پدافند غیرعامل – شرایط بحرانی ناشی از خرابکاری عمدی
    واقعیت این است که دلیل پیچیدگی رفتارهای انسانی، پیش‌بینی خرابکاری‌های عمدی انسانی بسیار دشوار است و همچنین بنا به شرایط مختلف می‌تواند بسیار متفاوت و متنوع باشد؛ بنابراین مواردی که در این بخش عنوان می‌شوند بسیار خلاصه بوده و هر مسئول دیتاسنتر می‌بایست باتوجه‌به شرایط سازمانی، مسائل را اولویت‌بندی و طرح نماید و سپس دنبال راه‌حل‌هایی برای آنها باشد. برخی از توصیه‌های عمومی به این شرح هستند:
  • آموزش پرسنل برای حفاظت از اطلاعات دیجیتالی و استفاده درست از فایل‌های اشتراکی.
  • قراردادن رمز روی فایل‌های خیلی محرمانه و سپس ذخیره در محل‌های اختصاصی.
  • عدم افشای رمز کاربری برای دوستان و همکاران
  • ابلاغ سراسری به همه پرسنل مبنی بر اینکه هیچ شخص یا واحدسازمانی حق ارائه هرگونه نسخه پشتیبان و یا دیتا را بدون تأیید کتبی یا نامه رسمی اتوماسیون اداری نداشته باشد.
  • تهیه مستندات مربوط به اطلاعات مهم بطوریکه موارد زیر در آنها مشخص شده باشد : نام ، نسخه، محل نگهداری، کاربران تعریف شده و سطوح دسترسی، ادمین مسئول آن دیتابیس و موارد دیگر.
  • هر کاربر عضو دامین فقط بتواند از کامپیوتری که به ایشان تخصیص‌داده‌شده است لاگین نماید.
  • در استوریج‌های شبکه به هر کاربر فضایی اختصاص‌داده‌شده که فقط خود ایشان به آن دسترسی داشته و بتواند اطلاعات مهم و حیاتی را در آن ذخیره نماید.
  • برای هر واحد سازمانی بخش ویژه‌ای برای به‌اشتراک‌گذاری فایل‌ها اختصاص‌داده‌شده که فقط پرسنل عضو آن واحد به این بخش دسترسی داشته باشند.
  • برای دسترسی به دیتابیس‌های اصلی، نام‌های کاربری مشخص با دسترسی‌های متفاوت تعریف شده است.
  • استفاده از دوربین مداربسته در دیتاسنتر.
  1. نتیجه‌گیری
    با بررسی جامع نقاط شکست یک دیتاسنتر، توجه ما به مواردی جلب می‌شود که شاید از ذهن ما پنهان مانده بودند و همچنین درک عمیق‌تری نسبت به شرایط بحرانی و احتمالات بروز حوادث پیدا خواهیم کرد. به جرات می‌توان گفت که مهمترین بخش این موضوع ، نگهداری و بروز رسانی مرتب نسخه های پشتیبان از همه اطلاعات است.
  2. منابع
    [1]https://csrc.nist.gov/publications/detail/sp/800-34/rev-1/final
    [2]https://www.itgovernanceusa.com/blog/how-iso-27001-and-iso-22301-can-help-keep-your-organization-secure

1- Single Point of Failure
2- Disaster Recovery
3- Recovery
4- Disaster Recovery Plan
5-Information Technology Disaster Recovery Plan
6- National Institute of Standards and Technology
7- Network Interface Connection

8- Fiber Cable , FSB

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد.