loading

برای کمتر آسیب دیدن پایگاه داده Database در مواجهه با بحران چه کار کنیم؟

نویسنده: mohammad
تیر ۷, ۱۴۰۰
6
مقدمه

می‌دانیم که عواملی مانند قطع شدن برق، خرابی سخت‌افزار و بحران‌هایی از این دست، ممکن است باعث بروز اختلال در پایگاه داده شود. در این مواقع کاربران و ادمین‌های سیستم، با یک موقعیت بحرانی مواجه هستند که باید پیشاپیش خود را برای مواجهه‌ با آن آماده کرده باشند. پایگاه داده اصلی‌ترین بخش سیستم برای بازیابی […]

برای کمتر آسیب دیدن پایگاه داده Database در مواجهه با بحران چه کار کنیم؟ - برید

می‌دانیم که عواملی مانند قطع شدن برق، خرابی سخت‌افزار و بحران‌هایی از این دست، ممکن است باعث بروز اختلال در پایگاه داده شود. در این مواقع کاربران و ادمین‌های سیستم، با یک موقعیت بحرانی مواجه هستند که باید پیشاپیش خود را برای مواجهه‌ با آن آماده کرده باشند.

پایگاه داده اصلی‌ترین بخش سیستم برای بازیابی و راه‌اندازی مجدد است و در مواقع بحرانی دفاع از پایگاه داده، ضروری‌ترین اقدام است. برای بررسی اقداماتی که لازم است انجام دهیم تا در این مواقع کمترین آسیب متوجه پایگاه داده شود، می‌توانیم حداقل از سه منظر به موضوع نگاه کنیم و در نهایت با توجه به نیاز مجموعه‌ یا سازمان خود، اقدامات لازم را به اجرا در بیاوریم.

سه پارامتری که در ارتباط با بهینه شدن عملکرد پایگاه داده و رسیدن به بیشترین پایداری ممکن، باید در نظر گرفته شوند به ترتیب زیر است:

  1. محاسبه هزینه‌ی قطع شدن سیستم
  2. تعیین مدت زمان مناسب برای بازیابی سیستم RTO
  3. حد قابل قبول از دست رفتن اطلاعات RPO

این سه پارامتر، علاوه بر کمک به بهینه شدن عملکرد سیستم در مواقع بحرانی ، می‌توانند در مواردی که به تصمیم خودمان و به صورت برنامه‌ریزی شده اقدام به قطع کردن سیستم می‌کنیم نیز منجر به اتخاذ بهترین تصمیم شوند.

طبیعی‌ست که اگر بخواهیم.بهترین تصمیم را در تهیه، نصب و نگهداری از پایگاه داده اتخاذ کنیم، لازم است که این سه منظر را بهتر درک کنیم و جایگاه مطلوب مجموعه خود را در نسبت با هرکدام از این سه پارامتر مشخص کنیم و با اولویت بندی و انتخاب بین آنها، به بهترین ترکیب ممکن دست پیدا کنیم.

برای مراقبت از پایگاه داده در مواجهه با بحران باید دقیق محاسبه کنیم و هوشمندانه برای پیشگیری اقدام کنیم.

هزینه‌ی قطع شدن سیستم Cost of Downtime

هزینه‌ها همیشه از نوع هزینه‌ی مستقیم کوتاه‌مدت نیستند؛ ما باید بتوانیم مجموع «خسارات» وارده از بابت قطع‌شدن سیستم، اعم از هزینه‌های کوتاه‌مدت و بلندمدت را محاسبه کنیم. خسارات کوتاه مدت می‌تواند ارتباط مستقیم با دستمزد افراد مشغول در مجموعه و هزینه های جاری روزانه، هفتگی و ماهیانه داشته باشد و خسارات بلندمدت را می‌توان با محاسباتی از قبیل تاثیری که قطع‌شدن سیستم می‌تواند بر اعتبار مجموعه بگذارد، مد نظر قرار داد.

بدیهی است که محاسبه‌ی این هزینه، به عوامل متعددی از جمله مقیاس مجموعه‌، میزان درآمد خالص، اهداف و استراتژی آن وابسته است و برخلاف ساده‌سازی انجام شده، تعیین میزان هزینه قطع‌شدن سیستم، اصلاً و ابداً کار ساده‌ای نیست و اگر بخواهیم هزینه‌های ناشی از « قطع‌شدن سیستم» را به حداقل برسانیم، چاره‌ای جز محاسبه‌ی دقیق کمیّت‌های تاثیرگذار بر آن و رسیدن به بازه مطلوب مدنظرمان نخواهیم داشت.

در نهایت برای اینکه اقدامات خود را هدفمند کنیم، نیاز به تعیین میزان پایداری سیستم داریم. به همین منظور و برای ساده‌تر شدن مسئله، جدولی تعبیه شده است که بتوانیم تا حد امکان تخمین بهتری از نیازمان داشته باشیم و به سمت تهیه محصولات و خدماتی برویم که این نیازها را ارضاء می‌کنند:

درصد پایداری در مواقع بحران

با توجه به جدول بالا، برای مثال اگر بازه‌ی یک ساله مدنظرمان باشد، طبیعتاً ۳۶۵ روز را باید مبنا بگذاریم و اگر بعد از بررسی به این نتیجه رسیدیم که در یک سال نهایتا ۳۶.۵ روز می‌توانیم قطع بودن سیستم‌مان را تحمل کنیم، معنایش این است که یک سیستم با درصد پایداری ۹۰ درصد می‌تواند پاسخگوی نیاز ما باشد.

مدت زمان بازیابی سیستم Recovery Time Objective

سوال اصلی این است که«چه میزان از قطع‌‌بودن سیستم مورد قبول است؟» با در نظر گرفتن حداکثر زمانی که می‌توانیم قطع بودن و عدم دسترسی به سیستم را در بازه‌های زمانی مختلف ، بدون آسیب رسیدن به اهداف استراتژیک مجموعه تحمل کنیم، می توانیم درصد پایداری مورد نیازمان را اندازه بگیریم و هدف خود را در این زمینه مشخص کنیم.

واضح است که برای تعیین Recovery Time Objective باید به عوامل متعددی توجه شود، چرا که وابستگی مستقیمی با تمامی فعالیت‌ها و اهداف مجموعه دارد؛ اما برای اینکه بتوانیم قدم اول را برداریم چاره‌ای جز این نداریم که تا حد امکان مسئله را ساده‌تر کنیم و با حداکثر شفافیت ممکن به آن پاسخ بدهیم.

دو عامل اساسی‌ که در راه‌اندازی مجدد سیستم نقش بازی می‌کنند، «کیفیت تجهیزات» و «کارآمدی پرسنل» هستند. برای رسیدن به نقطه بهینه، باید بتوانیم به نسبت پایداری مدنظرمان، مناسب ترین تجهیزات و کارآمدترین افراد را در اختیار داشته باشیم.

دو عامل اساسی‌ که در راه‌اندازی مجدد سیستم نقش بازی می‌کنند، «کیفیت تجهیزات» و «کارآمدی پرسنل» هستند.

حد قابل‌قبول از دست رفتن اطلاعات Recovery Point Objective

حداکثر اطلاعاتی که اگر از دست برود، منافع مجموعه‌ی ما را دچار اشکال یا صدمه جدی نمی‌کند چه میزان است؟

هدف ما از پاسخ دادن به این سوال این است که بتوانیم به یک «مدت زمان مشخص» برسیم. مدت زمانی که اگر در آن، از اطلاعات خود پشتیبان‌گیری‌ای نداشته باشیم، آسیب اساسی‌ای متوجه‌مان نمی‌شود.

«مدت زمان اطلاعات از دست رفته» بسته به اهمیتی که برای ما دارد، باید مشخص شود. برای مثال، اگر کسب‌وکار ما به نحوی باشد که در مدت زمان یک ساعت، ۱۰۰۰۰ عملیات با سیستم انجام بشود و اطلاعات زیادی در پایگاه داده ذخیره شود، در صورت «از دست دادن یک ساعت اطلاعات» دچار آسیب‌های جدیِ مالی و اعتباری خواهیم شد. اما اگر کسب و کارمان جوری باشد که نهایتاً دو عملیات در طی یک ساعت انجام شود، احتمالاً آسیب کمتری از «از دست دادن یک ساعت اطلاعات» خواهیم خورد. البته حتماً عوامل دیگری نظیر ارزش اطلاعات و حجم مبادلات مالی و …. هم باید در نظر گرفته شود تا بتوانیم به میزان بهینه RPO برسیم.

حالا تصور کنید که در فرایند ریکاوری، آخرین اطلاعاتِ سالم و قابل استفاده مربوط به ۱۰ ساعت قبل باشد و ما پیشاپیش خود را برای رسیدن به RPO بر مبنای ۱۴ ساعت آماده کرده باشیم. در این صورت خطر شدیدی متوجه کسب‌و‌کارمان نخواهد بود. اما اگر این تخمین اشتباه از کار در بیاید و ما مثلاً خود را برای رسیدن به Recovery Point Objective بر مبنای ۵ ساعت آماده کرده باشیم، آسیبی جدی‌ متوجه‌مان خواهد شد که بعضاً ممکن است جبران‌ناپذیر باشد.

در اینجا نیز دو عامل اساسی‌ که در «مدت زمان اطلاعات از دست رفته» نقش بازی می‌کنند، «مدل پشتیبان‌گیری» و «نظم پشتیبان‌گیری» هستند. برای رسیدن به نقطه بهینه ، بهینه‌سازی پشتیبان‌گیری اساسی‌ترین کاری‌ست که باید انجام شود.

دو عامل اساسی‌ که در «مدت زمان اطلاعات از دست رفته» نقش بازی می‌کنند، «مدل پشتیبان‌گیری» و «نظم پشتیبان‌گیری» هستند.

اینفوگرافیک RPO و RTO

قطع شدن ارتباط با Database چه هزینه‌هایی را به مجموعه تحمیل می‌کند؟

دو نوع هزینه‌ی کلی که متأثر از «مدت زمان راه اندازی مجدد» و « میزان اطلاعات از دست رفته» است و می‌تواند هم از لحاظ مالی مجموعه‌مان را متضرر کند و هم به اعتبار مجموعه خدشه وارد کند.

RTO و RPO و اقدام پیشگیرانه به هم چه ارتباطی دارند؟

هرچقدر مدت زمان RTO و RPO کمتر باشد، نشان‌دهنده‌ی آمادگی بالاتر ما برای مواجهه با بحران است.

برای درک بیشتر اهمیت دو شاخص RTO و RPO و میزان کارآمدی کسب‌وکارمان در زمان مواجهه با قطع‌شدن سیستم Downtime به کمک جدول زیر می‌توانیم تصمیم‌های موثرتری اتخاذ کنیم:

توضیح RPO و RTO

به زبان ساده تر، در واقع RPO را می‌توان بیشترین فاصله‌ی بین دو پشتیبان‌گیری(بکاپ) دانست که در حالت Active Data Guard به حداقل می‌رسد و RTO را نیز با روش‌های مختلفی بالاخص تجهیز سخت‌افزاری متناسب و مدیریت زمان در نصب و راه‌اندازی می‌توان به حداقل‌ رساند و وقتی این اتفاق بیافتد، طبیعتاً کمترین آسیب متوجه پایگاه داده ما خواهد بود. چه قطع‌شدن سیستم‌مان خودخواسته باشد، چه ناخواسته!

دانلود