پدافند غیرعامل-مدیریت بحران در دیتاسنتر
حمیدرضا لطفی– تابستان 1401
چکیده
هدف از این مقاله بررسی نقاط شکست1 سامانههای دیتاسنتر و تدوین طرح بازیابی فاجعه2 برای کلیه سیستمها و بانکهای اطلاعاتی در شرایط بحرانی است. نتیجه این کار، کارشناسی و تدوین یک برنامه بازیابی3 است که در زمان بروز فاجعهای از نوع فناوری اطلاعات بکار گرفته میشود. در این مقاله به نحوه مدیریت بحران در حوزه IT میپردازیم.
- مقدمه
طرح بازیابی فاجعه یا بهاختصار 4DRP یک رویکرد ساختاریافته برای پاسخ به حوادث غیر برنامهریزیشده در زیرساخت فناوری اطلاعات شامل بخش سختافزار، نرمافزار، شبکهها، فرایندها و افراد است. حفاظت از سرمایهگذاری شرکت در زیرساختهای فناوریو توانایی شرکت برای انجام کسبوکار بدون وقفه، دلایل کلیدی برای اجرای یک “برنامه بهبود فاجعه فناوری اطلاعات” است. سازمانها نمیتوانند به دلیل قطع برق منطقهای، حمله سایبری یا خرابی سختافزار، از سرویسدهی به ذینفعان باز بمانند. ایجاد اختلال در سیستمهای بدون وقفه به معنای درآمد ازدسترفته است. در برخی موارد از دسترس خارجشدن سرویسها، شرکتها را با زیانهای جبرانناپذیری مواجه میکند که با ارزش ریالی نمیتوان آنها را تخمین زد. این خسارتها میتوانند شامل ازدسترفتن اعتبار یک شرکت یا مؤسسه باشد. نظر به اهمیت سرویسهای مرکز ملی شمارهگذاری کالا و خدمات ایران، در سطح ملي و وابستگي بسياري از عناصر موردنیاز جهت به حركت درآوردن چرخه توسعه ملي به اين سيستم، جهت جلوگيري از ايجاد وقفه در عملكرد منابع اطلاعاتي و تضمين ارائه سرويس بدون وقفه در آنها، بايستي معماري را در نظر گرفت كه بتواند مسئوليت همه اجزاي زيرساخت را براي تضمين فعاليت بيوقفه و بازيابي پس از وقوع حادثه، بر عهده گيرد. - برنامه بازیابی فاجعه در فناوری اطلاعات یا بهاختصار5 IT-DRP چیست؟
برنامههای بازیابی فاجعه فناوری اطلاعات یا IT-DRP برنامههای گامبهگام برای بازیابی سیستمها و شبکههای مختل شده را فراهم میکنند و به سازمانها کمک میکنند تا عملیات عادی را ادامه دهند. هدف از این فرآیندها، بهحداقلرساندن تأثیرات منفی به عملیات شرکت است. فرايند بازیافت، فاجعه در فناوري اطلاعات و شبکههای بحرانی را شناسایی میکند، زمان بازیابی آنها را اولویتبندی میکند و مراحل موردنیاز برای راهاندازی مجدد، تنظیم مجدد و بازیابی آنها را مشخص میکند. برنامه جامع IT-DR شامل همه مخاطبین تأمینکننده مربوطه، منابع تخصصی برای بازیابی سیستمهای خراب شده و دنبالهای منطقی از اقدامات برای بازیابی مستقیم است.پس از اتمام ارزیابی ریسک و شناسایی تهدیدات بالقوه به زیرساخت IT ، گام بعدی این است که تعیین کنید کدام عناصر زیربنایی برای عملکرد کسبوکار شرکت شما مهم است. - توصیههای موسسه ملی فناوری و استاندارد 6NIST در مورد مدیریت بحران در دیتاسنتر:
مؤسسه ملی فناوری و استاندارد NIST در انتشارات ویژه 800-34، زیر ساختار ایدهآل برای یک برنامه بازیابی فاجعه IT را به این شرح بیان میکند:
- سیاستهای برنامهریزی احتمالی را توسعه دهید: یک سیاست رسمی (تأیید شده توسط مدیران ارشد سازمان) ، اقتدار و هدایت لازم را برای ایجاد طرح مؤثر احتمالی فراهم میکند.
- تجزیهوتحلیل تأثیر کسبوکار را انجام دهید: تجزیهوتحلیل تأثیر کسبوکار کمک میکند تا شناسایی و اولویتبندی سیستمهای IT و اجزای مهم بحرانی شناسایی شوند.
- شناسایی کنترلهای پیشگیرانه: اقداماتی که باعث کاهش تأثیرات اختلالات سیستم میشوند، میتوانند دردسترسبودن سیستمها را افزایش دهند و هزینههای چرخه عمر احتمالی را کاهش دهند.
- توسعه استراتژیهای بازیابی: استراتژیهای بازسازی کامل اطمینان میدهند که سیستم میتواند بهسرعت و به طور مؤثر پس از یک اختلال بهبود یابد.
- برنامه اضطراری IT را توسعه دهید: طرح احتمالی باید شامل دستورالعمل دقیق و مراحل برای بازگرداندن سیستم آسیبدیده باشد.
- آموزش کارکنان و تست برنامه: بهبود برنامه و آمادگی سازمان را ارتقای میبخشند و شکافهای برنامهریزی را شناسایی میکنند. آموزش، کارکنان تعمیرات و نگاهداشت را برای فعالسازی برنامه آماده میکند.
- برنامه نگهداری این طرح باید یک سند بهروز باشد: که به طور مرتب به بهبود مییابد تا با پیشرفتهای سیستم فعلی سازگار بماند.
- بررسی Single Point of Failure – نقاط شکست سامانههای دیتاسنتر
برای اینکه بدانیم چه باید انجام دهیم ابتدا باید درک درستی از وضعیت فعلی داشته باشیم و با شناسایی نقاط قوت و ضعف در شرایط فعلی، برای جلوگیری از هزینههای بالای ناشی از حوادث برنامهریزی کنیم.
به این منظور شبکه فعلی را از نظر سختافزار و نرمافزار و سرویسهای موجود به قسمتهای ریز و مجزا تقسیم میکنیم و سپس نقاط شکست آنها را بررسی میکنیم. بهطورکلی میتوان عوامل مؤثر در پدافند غیرعامل – مدیریت بحران دیتاسنتر را به بهصورت زیر دستهبندی کرد:
• شرایط بحرانی برای محیط فیزیکی دیتاسنتر:
مهمترین این عوامل عبارتاند از وقوع بلایای طبیعی، قطع انرژی، آتشسوزی، ازدیاد رطوبت یا گرما و یا خرابکاریهای عمدی .
• شرایط بحرانی برای سرویسهای نرمافزاری:
خرابیهایی مانند خرابی سیستمعامل OS، خرابی پایگاه اطلاعاتیDatabase software، خرابی Aplication برنامههایکاربردی و خرابی سرویسها Services از این دسته هستند.
• شرایط بحرانی از نوع سختافزار: مانند خرابی CPU , RAM , Power , MB
• خرابی شبکه انتقال اطلاعات:
واضح است که هرگونه اختلال در شبکههای اتصال و انتقال اطلاعات باعث اختلال در سرویسدهی خواهد شد. خرابیها میتوانند از نوع قطع فیزیکی ارتباط و یا خرابی در سوئیچها و مسیریابها باشند.
همچنین ممکن است این خرابی ناشی از اختلال در کار )سرویسدهی (Provider باشد.
• خرابی دیتا و اطلاعات Media & Data : امروزه دیتا و اطلاعات از سرمایه اصلی شرکتها هستند. شرایط بحرانی که میتوانند اطلاعات ذخیره شده را دچار خسران کنند عبارتاند از: خرابی دیسک محل نگهداری اطلاعات، خرابی نرمافزاری دیتا ناشی از باگهای نرمافزاری، خرابی نرمافزاری دیتا ناشی از تروجان یا باجافزار. همچنین در برخی شرایط عامل انسانی نقش اصلی در ایجاد شرایط بحرانی دارد مانند: خطاهای کاربران عمومی، خطاهای مربوط به ادمین دیتابیسها، خطاهای مربوط به ادمین سرور و خرابکاری عمدی.
• خرابکاریهای عمدی:
یکی از غیرقابلپیشبینیترین انواع خرابیها و بحرانهای پیشآمده در دیتاسنتر، بروز حوادثی است که توسط یک فرد یا افرادی از داخل و یا خارج سازمان به جهت ایجاد مشکل در خدماترسانی و بروز اختلال در سرویسهای حیاتی، طراحی و اجرا میشوند. مقابله با این تهدید همکاری همه ارکان سازمان را میطلبد. همچنین نشت اطلاعات حیاتی و محرمانه مانند فایلهای محرمانه، مستندات دیجیتالی مهم سازمان و دیتابیسها نیز از خرابکاریهای عمدی و انسانی شمرده میشوند. - راهکارهای پیشنهادی برای پدافند غیرعامل – مدیریت بحران در دیتاسنتر
البته مطمئنترین روش برای بهحداقلرساندن خسارات ناشی از بحران در IT این است که برای هر سایت موجود یک سایت Mirror در مکانی دیگر راهاندازی کنیم و یک نمونه کپی از همه سختافزارها و نرمافزارهای سایت اول در آن نصب کنیم بطوریکه هر دو بهصورت موازی و آنلاین بتوانند کار سرویسدهی و انجام خدمات را انجام دهند که به این مدلFault Tolerance یا بهاختصار FT میگویند.
هرچند این مورد پرهزینهترین پیشنهاد نیز هست. دیتاسنتر باید در حد امکان استانداردهای تعریف شده در این زمینه را دارا باشد. استانداردهای جهانی ISO 27001/ISO 22301 جهت انتخاب درست یک دیتاسنتر این موارد را توصیه میکند :
• اولین و مهمترین پارامتر داشتن فاصله بین ۵۵ مایلی (۹۰ کیلومتر) تا ۱۰۰ مایلی (۱۶۰ کیلومتر) از سایت اصلی تا سایت بازگشت از بحران.
• سازه دیتاسنتر مقصد باید از لحاظ فیزیکی از چندین لایه دیوار بتنی ساخته شده باشد.
• دیتاسنتر مقصد باید در مقابل حملات الکترومغناطیس محافظت شده باشد.
• دیتاسنتر مقصد باید دارای چندین مسیر تأمین برق باشد.
• پهنای باند دیتاسنتر مقصد باید جوابگوی پهنای باند موردنیاز شما باشد.
• دیتاسنتر مقصد باید دارای مدرنترین سیستمهای اطفا حریق باشد. - مکانیزم Disaster Recovery Plan در مرکز ملی شمارهگذاری کالا و خدمات ایران
مرکز ملی شمارهگذاری کالا و خدمات ایران، دارای بانکهای اطلاعتی شامل بیش از 4 میلیون کد قلم کالا با همه مشخصات و یکی از ۱۲ بانک اطلاعات مرجع در کنار سایر بانکهای اطلاعاتی کشور است که در حوزه کالا و خدمات به سازمانها سرویسهای لازم را ارائه مینماید؛ بنابراین پایداری سرویسها و حفاظت از اطلاعات طبقهبندیشده، مهمترین وظیفه کارشناسان حوزه فناوری اطلاعات و بخش دیتاسنتر است. به این منظور برای مواجهه با شرایط بحرانی در دیتاسنتر، طرحی عملیاتی تهیه شده که به قسمتهایی از آن اشاره میشود.
- راهکارهایی برای پدافند غیرعامل – شرایط بحرانی محیط فیزیکی دیتاسنتر
- استفاده از دیتاسنترهای پارک فناوری پردیس و قراردادن سرورهای عملیاتی در خارج شهر بهعنوان دومین دیتاسنتر عملیاتی و تقسیم وظایف بین سرورهای مختلف.
- وجود سیستم اعلام حریق و دود با امکان ارسال پیامک هشدار، وجود کپسول آتشنشانی از نوع گاز.
- وجود کولر سرمایشی دوم برای موارد ضروری.
- وجود UPS آنلاین برای تأمین انرژی لازم برای سرورها و تجهیزات داخل.
- اتصال کابل ارت به تجهیزات.
- مجهز بودن به ژنراتور برای قطع برق طولانی.
- راهکارهایی برای پدافند غیرعامل – شرایط بحرانی سرویسهای نرمافزاری
- استفاده از تکنولوژیهای روز مجازیسازی سرور و شبکه. بیش از 90 درصد سرورهای اصلی مرکز ملی شمارهگذاری کالا و خدمات ایران مجازیسازی شده است. یکی از مزایای این کار، چابکی و سرعت عمل در رفع خطاها است.
- از سیستمعامل و دیتابیسها در زمانهای مشخص و بهصورت دورهای Backup گرفته شده و در چندین مکان مختلف ذخیره میشود .
- ارتقای سیستمعاملها به نسخه بالاتر در حد امکان و بهصورت دورهای انجام میگیرد. تغییرات در مستندات و پروندههای موجود ثبت میشود، یک نسخه جدید بکآپ از سرور گرفته میشود.
- ایجاد مستندات سرورها و تجهیزات دیگر و نگهداری در محل امن. اطلاعات مهمی مانند ورژن سیستمعامل، آدرسهای شبکه، برنامههای نصب شده، دیتابیسها و سرویسهای موجود روی سرورها و حتی کاربران و سطوح دسترسی به سیستمعامل در این پروندهها آورده شده است تا در زمان لازم بتوان به آنها رجوع کرد.
- راهکارهایی برای پدافند غیرعامل – شرایط بحرانی سختافزارها
- استفاده از سرورهای صنعتی که معمولاً طول عمر بالا داشته و معمولاً دو یا چند پردازنده فیزیکی و همچنین دو منبع تغذیه جداگانه برای اتصال به برق شهر و برق اضطراری دارند.
- همه تجهیزات سختافزاری توسط نرمافزارهای مخصوص مانیتورینگ، رصد میشوند و در صورت بروز خرابی در بخشی از آنها، بهسرعت برای رفع خرابی اقدام میشود. در حال حاضر سیستم مانیتورینگ مرکز ملی شمارهگذاری کالا و خدمات ایران دارای 3000 سنسور برای پایش سرورها، تجهیزات شبکه و همچنین سرویسهای خدماتی است که بهصورت 24 ساعته دیتاسنتر را مانیتور میکنند. این سیستم مجهز به تجهیزات سختافزاری و نرمافزاری ارسال هشدار بهصورت های مختلف مانند ارسال پیامک است.
- استفاده از تکنولوژیهای مرتبط با Fault Tolerance و High Availibility .
- راهکارهایی برای پدافند غیرعامل – شرایط بحرانی شبکههای انتقال اطلاعات
- استفاده از خطوط انتقال اطلاعات بین سرورها و استوریجها بهصورت موازی.
- تهیه مستندات بهروز از توپولوژی ارتباطات بین سرورها و سوئیچها و استوریجها، شامل فایلهای بکآپ، نقشه شبکه و مستندات لازم دیگر.
- نظارت و مانیتورینگ دائمی ارتباطات بین سرورها و شبکه.
- آماده بودن لوازمیدکی موردنیاز مانند کارت شبکه7 ، فیبر نوری و درگاه آن8 برای مواقع ضروری.
- راهکارهایی برای پدافند غیرعامل – شرایط بحرانی در خرابیهای Media & Data
- استفاده از تکنولوژی Raid در محل ذخیره اطلاعات.
- نگهداری و بایگانی اطلاعات مهم و پشتیبانگیری در مکانهای مختلف و خارج از شبکه اصلی.
- استفاده از فایروالهای سختافزاری و نرمافزاری در گذرگاههای شبکه .
- استفاده از آنتیویروس بهروز و معتبر روی سرورها، استفاده از آنتی باجافزار.
- بالا نگهداشتن سطح امنیت سایتها و انجام تستهای نفوذ مطابق دستورالعملهای افتا.
- بسته بودن درگاههای غیرضروری سیستمها مانند USB , CDROM .
- راهکارهایی برای پدافند غیرعامل – شرایط بحرانی ناشی از خرابکاری عمدی
واقعیت این است که دلیل پیچیدگی رفتارهای انسانی، پیشبینی خرابکاریهای عمدی انسانی بسیار دشوار است و همچنین بنا به شرایط مختلف میتواند بسیار متفاوت و متنوع باشد؛ بنابراین مواردی که در این بخش عنوان میشوند بسیار خلاصه بوده و هر مسئول دیتاسنتر میبایست باتوجهبه شرایط سازمانی، مسائل را اولویتبندی و طرح نماید و سپس دنبال راهحلهایی برای آنها باشد. برخی از توصیههای عمومی به این شرح هستند: - آموزش پرسنل برای حفاظت از اطلاعات دیجیتالی و استفاده درست از فایلهای اشتراکی.
- قراردادن رمز روی فایلهای خیلی محرمانه و سپس ذخیره در محلهای اختصاصی.
- عدم افشای رمز کاربری برای دوستان و همکاران
- ابلاغ سراسری به همه پرسنل مبنی بر اینکه هیچ شخص یا واحدسازمانی حق ارائه هرگونه نسخه پشتیبان و یا دیتا را بدون تأیید کتبی یا نامه رسمی اتوماسیون اداری نداشته باشد.
- تهیه مستندات مربوط به اطلاعات مهم بطوریکه موارد زیر در آنها مشخص شده باشد : نام ، نسخه، محل نگهداری، کاربران تعریف شده و سطوح دسترسی، ادمین مسئول آن دیتابیس و موارد دیگر.
- هر کاربر عضو دامین فقط بتواند از کامپیوتری که به ایشان تخصیصدادهشده است لاگین نماید.
- در استوریجهای شبکه به هر کاربر فضایی اختصاصدادهشده که فقط خود ایشان به آن دسترسی داشته و بتواند اطلاعات مهم و حیاتی را در آن ذخیره نماید.
- برای هر واحد سازمانی بخش ویژهای برای بهاشتراکگذاری فایلها اختصاصدادهشده که فقط پرسنل عضو آن واحد به این بخش دسترسی داشته باشند.
- برای دسترسی به دیتابیسهای اصلی، نامهای کاربری مشخص با دسترسیهای متفاوت تعریف شده است.
- استفاده از دوربین مداربسته در دیتاسنتر.
- نتیجهگیری
با بررسی جامع نقاط شکست یک دیتاسنتر، توجه ما به مواردی جلب میشود که شاید از ذهن ما پنهان مانده بودند و همچنین درک عمیقتری نسبت به شرایط بحرانی و احتمالات بروز حوادث پیدا خواهیم کرد. به جرات میتوان گفت که مهمترین بخش این موضوع ، نگهداری و بروز رسانی مرتب نسخه های پشتیبان از همه اطلاعات است. - منابع
[1]https://csrc.nist.gov/publications/detail/sp/800-34/rev-1/final
[2]https://www.itgovernanceusa.com/blog/how-iso-27001-and-iso-22301-can-help-keep-your-organization-secure
1- Single Point of Failure
2- Disaster Recovery
3- Recovery
4- Disaster Recovery Plan
5-Information Technology Disaster Recovery Plan
6- National Institute of Standards and Technology
7- Network Interface Connection
8- Fiber Cable , FSB