مبانی سیستم ریداندانسی (Redundancy) یا افزونگی
افزونگی یا Redundancy رویکردی رایج برای بهبود قابلیت اطمینان (Reliability) و در دسترس بودن (Availability) یک سیستم است. با در نظر گرفتن اینکه اضافه کردن افزونگی هزینه و پیچیدگی طراحی سیستم را افزایش می دهد و با توجه به قابلیت اطمینان بالای قطعات الکتریکی و مکانیکی مدرن، بسیاری از سیستم ها برای عملکرد موفق نیازی به افزونگی ندارند. با این حال، اگر شکست ها (Failure) زیاد باشند، افزونگی می تواند گزینه انتخابی مناسبی برای آن سیستم باشد.
این مطلب پیشزمینه ای قابل تأمل در مورد انواع افزونگی یا Redundancy است که میتوان در یک سیستم ساخت. هم چنین نحوه محاسبه اثر افزونگی بر قابلیت اطمینان سیستم را توضیح میدهد. کنترلرهای امروزی با انعطافپذیری خود طراحی های متنوعی برای افزونگی فراهم میکنند.
مدل های افزونگی یا Redundancy در سیستم ریداندنت
در حالی که روشها، تکنیکها و اصطلاحات گوناگونی برای پیادهسازی افزونگی وجود دارد، در این بخش سه مدل اصلی که رایجترین نمونه های مورد استفاده در صنعت هستند، مورد بررسی قرار می گیرد:
1. افزونگی یا Redundancy آماده به کار (Standby Redundancy)
افزونگی در حالت آماده به کار، به عنوان افزونگی پشتیبان (Backup Redundancy) نیز شناخته می شود، زمانی مورد استفاده قرار می گیرد که یک واحد ثانویه یکسان برای پشتیبانی از واحد اصلی وجود داشته باشد. به صورت معمول یک واحد ثانویه سیستم را نظارت نمی کند و تنها به عنوان جایگزین در سیستم تعبیه شده است.
واحد آماده به کار به طور کلی با واحد اصلی سنکرون نمی شود، بنابراین باید در سیگنال های ورودی و خروجی خود در زمان در اختیار گرفتن “دستگاه تحت کنترل” (DUC: Device Under Control)، مطابقت ایجاد کند. لازم به یادآوری است که این رویکرد می تواند موجب ایجاد مشکلاتی در انتقال واحد گردد، به این معنی که سیستم ثانویه ممکن است سیگنالهایی کنترلی به DUC ارسال کند که با آخرین سیگنالهای کنترلی که از واحد اولیه میآیند مطابقت نداشته باشد.
علاوه بر این به یک ناظر نیاز است تا با نظارت بر سیستم، زمان و شرایط جابجایی را برآورده ساخته و به سیستم فرمان دهد تا سیستم کنترل بر واحد آماده به کار تمرکز کند. هم چنین یک رای دهنده (پیکربندی کننده)، که تصمیم می گیرد دستگاه تحت کنترل (DUC)، چه زمانی و به کدام سیستم کنترل، واگذار شود. افزایش هزینه سیستم برای این نوع افزونگی یا Redundancy به طور معمول حدود 2 برابر یا کمی پایین تر و بسته به سایر هزینه ها هم چون هزینه های توسعه نرم افزار می باشد.
افزونگی آماده به کار در دو نوع پایه ای زیر، قابل انجام می باشد:
-
آماده به کار سرد (Cold Standby)
در حالت آماده به کار سرد، واحد ثانویه خاموش می باشد. بنابراین قابلیت اطمینان دستگاه حفظ می شود. اشکال این طراحی این است که زمان مورد نیاز برای قطع سیستم و جایگزینی، بیش تر از حالت آماده به کار گرم است زیرا باید واحد آماده به کار، روشن شده و به حالت آنلاین درآید. این مسئله رفع مشکلات همگامسازی را چالش برانگیزتر میکند و با توجه به مدت زمانی که طول میکشد تا واحد آماده به کار روی خط قرار گیرد، به طور معمول با مشکلات بیش تری مواجه خواهد شد.
-
آماده به کار گرم (Hot Standby)
در حالت آماده به کار گرم، واحد ثانویه یا جایگزین، روشن بوده و می تواند به صورت اختیاری DUC را نظارت کند. اگر از واحد ثانویه به عنوان نگهبان و یا رأی دهنده (پیکربندی کننده) برای تصمیم گیری در مورد زمان تغییر به کار گرفته شود، می توان ناظر سوم را حذف کرد. این طراحی، قابلیت اطمینان را در واحد آماده به کار همانند طراحی حالت سرد حفظ نمی کند. با این حال، زمان خرابی را کوتاه می کند، که به نوبه خود سیستم را به سرعت در دسترس قرار می دهد.
برخی از ویژگی های حالت آماده به کار گرم شبیه به افزونگی مدولار دوگانه (Dual Modular Redundancy :DMR) یا افزونگی موازی (Parallel Redundancy) می باشد که در بخش بعدی به آنها پرداخته میشود. این نامگذاری های قرارداری به طور معمول، قابل تغییر می باشند. تفاوت اصلی بین Hot Standby و DMR، چگونگی همگامی واحد اولیه و ثانویه به طور دقیق است. DMR به طور کامل واحدهای اولیه و ثانویه را همگام می کند. با این حال، برخی کاربران بدون توجه به این موضوع، برای هر مدل افزونگی یا Redundancy که از دو واحد استفاده می شود، از اصطلاح DMR استفاده می نمایند.
افزونگی مدولار N تایی، که به عنوان افزونگی یا Redundancy موازی نیز شناخته میشود، به رویکردی اطلاق می گردد که چندین واحد به صورت موازی اجرا میشوند. همه واحدها به طور دقیق همگام هستند و اطلاعات ورودی یکسانی را به طور هم زمان دریافت می کنند. سپس مقادیر خروجی آن ها مقایسه می شود و در نهایت یک رأی دهنده (پیکربندی کننده) تعیین می کند که کدام یک از مقادیر خروجی باید به کار گرفته شود. این مدل به راحتی جابجایی هایی بدون خرابی را فراهم می کند.
به طور معمول این مدل زمان تعویض سریعتری نسبت به مدلهای Hot Standby دارد، بنابراین در دسترس بودن سیستم بسیار بالا است، اما از آن جایی که تمام واحدها هم زمان تغذیه شده و به طور فعال با DUC درگیر میشوند، سیستم در خطر بیش تری برای مواجهه با یک خرابی مشترک در همه دستگاهها قرار می گیرد. تکنیک هایی برای کمک به جلوگیری از این خطر وجود دارد که در ادامه این مطلب به آن ها اشاره می شود.
اگر فقط دو واحد وجود داشته باشد، تصمیم گیری برای این که خروجی کدام واحد صحیح است می تواند چالش برانگیز باشد. گاهی اوقات فقط باید انتخاب شود که به کدام یک بیش تر می توان اعتماد کرد و این می تواند پیچیده باشد. اگر بیش از دو واحد در سیستم وجود دارد، مشکل سادهتر حل می شود، به طور معمول اکثریت یا دو سیستم موافق مفید واقع میشوند. در کل در مدل افزونگی مدولار N تایی، سه نوع ساختارتعریف می شوند:
-
افزونگی یا ریداندانسی مدولار دوگانه (Dual)
افزونگی مدولار دوگانه (DMR) از دو واحد معادل عملکردی استفاده می کند، بنابراین هر کدام می توانند DUC را کنترل کنند. مشکل اصلی در روش DMR تعیین زمان تعویض به واحد ثانویه است. از آن جا که هر دو واحد در حال نظارت بر برنامه هستند، اپراتور باید تصمیم بگیرد که در صورت عدم کارکرد آن ها چه کاری انجام دهد. یا باید یک رأی (پیکربندی) برابر ایجاد کند و یا به سادگی، واحد ثانویه را به عنوان کاربرد پیش فرض تعیین کند، با این فرض که نسبت به واحد اولیه قابل اعتمادتر است.
ممکن است بتواند به واحد ثانویه اعتماد بیشتری داشته باشد. اگر واحد اولیه به طور معمول مورد استفاده قرار گرفته باشد و اگر عیب یابی منظم روی واحد ثانویه برای کمک به اطمینان از قابلیت اطمینان آن انجام شود که البته این موضوع کاربرد زیادی ندارد. میانگین افزایش هزینه یک سیستم DMR، با در نظر گرفتن هزینه سخت افزار ذخیره و زمان توسعه نرم افزار ذخیره حدود دو برابر یک سیستم عادی است.
-
افزونگی یا Redundancy مدولار سه گانه (Triple)
افزونگی مدولار سه گانه (TMR) از سه واحد با عملکرد یکسان برای پشتیبان اضافی استفاده می کند. این رویکرد در کاربردهای هوا-فضا که هزینه شکست می تواند بسیار بالا باشد، رایج است.
TMR به دلیل دو جنبه اصلی قابل اعتمادتر از DMR است. واضح ترین دلیل، این است که شما اکنون به جای دو واحد، سه واحد آماده به کار دارید. دلیل دیگر این است که در TMR به طور معمول، تکنیکی به نام پلتفرم های متنوع یا برنامه نویسی متنوع مشاهده می شود. در این تکنیک، از پلتفرمهای نرمافزاری یا سختافزاری گوناگون بر روی سیستمهای جایگزین برای جلوگیری از خرابی های رایج استفاده می شود.
رای دهنده (پیکربندی کننده) تعیین می کند که کدام واحد به طور فعال، برنامه را کنترل کند. با TMR، تصمیم گیری در مورد این که به کدام سیستم اعتماد شود به صورت آزاد خواهد شد و امتیاز با اکثریت است. اگر سه پاسخ گوناگون دریافت شد، رای دهنده (پیکربندی کننده) باید تصمیم بگیرد که به کدام سیستم اعتماد کند یا کل سیستم را خاموش کند. بنابراین، تصمیم تعویض، مستقیم و سریع است. اشکال این رویکرد هزینه آن است. TMR می تواند هزینه سیستم را حداقل تا 3 برابر افزایش دهد.
-
افزونگی یا ریداندنسی مدولار چهارگانه (Quadruple)
افزونگی مدولار چهارگانه (QMR) در اساس شبیه TMR است اما به جای سه واحد از چهار واحد برای افزایش قابلیت اطمینان استفاده می کند. از سوی دیگر اما موجب افزایش 4 برابری در هزینه سیستم خواهد شد.
3. افزونگی نوع 1:N (1:N Redundancy)
این روش یک تکنیک طراحی است که در آن یک نسخه پشتیبان برای چندین سیستم وجود دارد و این پشتیبان می تواند به جای هر یک از سیستم های فعال، اجرا شود. این تکنیک با استفاده از یک واحد آماده به کار برای چندین واحد اولیه، افزونگی یا Redundancy را با هزینه بسیار کم تری نسبت به مدل های دیگر ارائه می دهد. اما این رویکرد تنها زمانی به خوبی کار میکند که واحدهای اولیه همگی عملکردهای بسیار مشابهی داشته باشند، بنابراین به سیستم در حالت آماده باش اجازه میدهد در صورت خرابی یکی از واحدهای اولیه، به جای آن عمل نماید. از نکات منفی این روش شاید، پیچیدگی های زمانی مربوط به تصمیم گیری در مورد زمان سوئیچ و ماتریس سوئیچ باشد تا بتواند در سیگنال ها به درستی و به طور کارآمد تغییر مسیر ایجاد کند.
مزایای کلی افزونگی یا Redundancy
- افزونگی “قابلیت اطمینان“ را بهبود می بخشد:
قابلیت اطمینان به عنوان احتمال (Probability) عدم شکست در یک محیط خاص برای زمان یک ماموریت خاص تعریف می شود. قابلیت اطمینان، یک احتمال آماری است و هیچ مطلق یا تضمینی وجود ندارد. هدف این است که شانس موفقیت تا جایی که امکان دارد در حد منطقی افزایش یابد.
معادله زیر، معادله احتمالی است که بیش تر در صنعت برای محاسبه قابلیت اطمینان استفاده می شود. این معادله فرض می کند که یک نرخ شکست ثابت (λ) وجود دارد…
که در آن:
- R(t): احتمال موفقیت
- t: زمان مأموریت یا زمان عملکرد بدون قطعی سیستم
- λ: نرخ شکست ثابت در طول زمان (N شکست در ساعت)
- λ/1: میانگین زمان شکست (Mean Time To Failure :MTTF)
به طور معمول تنها عاملی که میتوان روی آن تأثیر گذاشت، میزان شکست (λ) است. محیط توسط ماهیت خود برنامه، تعیین می شود. در کل نیز نمی توان زمان ماموریت تعریف شده را تغییر داد، مگر این که بتوان بر زمان های استراتژیک در تعمیر و نگهداری های برنامه ریزی شده کار کرد. بنابراین، از طریق انتخاب محتاطانه قطعات و شیوه های طراحی، می توان به بهترین وجه بر قابلیت اطمینان سیستم تأثیر گذاشت.
ریاضیات پایه نشان می دهد که چگونه شیوه های طراحی سیستم اضافی می تواند قابلیت اطمینان سیستم را بهبود بخشد:
طبق تعریف، R احتمال موفقیت و F احتمال شکست است. بر اساس نظریه مجموعه های ریاضی، همه برنامه ها یا موفق هستند یا ناموفق هستند (یک شکست). بنابراین مجموع دو حالت منطقی، مقداری واحد است.
در نتیجه می توان بیان کرد …
و از آن جایی که بیش تر شرکتها تمایل دارند شکستها را بیش از موفقیتها رصد کنند، میتوان معادله را برای محاسبه قابلیت اطمینان تغییر داد…
برای مثال با فرض احتمال شکست 10% داریم…
لذا احتمال موفقیت برای یک سیستم معین 90٪ خواهد بود یا 90 از 100 باید موفق شد.
با استفاده از این مفهوم برای محاسبه قابلیت اطمینان یک سیستم اضافی، از معادله زیر استفاده می شود…
اگر سیستمهای 1 و 2، سیستمهای افزونه باشند، به این معنی که یک سیستم میتواند به طور عملکردی، پشتیبان دیگری باشد پس F1 احتمال خرابی سیستم 1 و F2 احتمال خرابی سیستم 2 است.
با فرض احتمال شکست همانند مثال قبل، اگر از افزونگی استفاده شود، احتمال موفقیت برای یک سیستم معین 99٪ خواهد بود یا 99 از 100 باید موفق شد…
روش دیگر برای محاسبه قابلیت اطمینان این است که به جای در نظر گرفتن معادله احتمال، میانگین زمان تا شکست (MTTF) سیستم حل شود…
با محاسبه MTTF به صورت زیر…
به عنوان مثال، اگر زمان ماموریت سیستم 24 ساعت در روز، 7 روز هفته، به مدت یک سال (24/7/365) باشد و نرخ موفقیت 90٪ به دست بیاید، میانگین زمان شکست به صورت زیر محاسبه می شود…
اگر افزونگی اضافه شود، میزان موفقیت برای همان زمان ماموریت به صورت تقریبی به 99٪ افزایش می یابد در نتیجه میانگین زمان شکست برابر خواهد بود با…
این معادلات به طور موثر بهبود چشمگیری را در قابلیت اطمینان که افزونگی یا Redundancy می تواند برای هر سیستمی ایجاد کند، نشان می دهد.
بیشتر بخوانید: معرفی PLC های آلن برادلی
سطوح افزونگی یا Redundancy
موقعیتهای زیادی وجود دارند که ممکن است استفاده از افزونگی فقط برای یک جزء با قابلیت اعتماد پایین تر در سیستم سودمندتر باشد.
مدل زیر، سیستمی را نشان می دهد که دارای سه جزء وابسته به صورت سری است. اگر یک جزء از کار بیفتد، کل سیستم از کار می افتد…
R1 = قابلیت اطمینان جزء 1
R2 = قابلیت اطمینان جزء 2
R3 = قابلیت اطمینان جزء 3
می توان قابلیت اطمینان کل سیستم را با ضرب کردن قابلیت اطمینان هر یک از اجزا در یکدیگر محاسبه کرد…
برای مثال، اگر R1 = 0.98، R2 = 0.85 و R3 = 0.97 در این صورت، قابلیت اطمینان سیستم به صورت زیر خواهد بود…
اگر فقط از کم اعتمادترین مؤلفه سیستم، R2، با افزونگی نسخه پشتیبان تهیه شود، مدل، اکنون به شکل زیر خواهد بود…
با توجه به این که…
و برای یک جزء اضافی…
معادله قابلیت اطمینان سیستم اکنون به صورت زیر است…
اگر این مثال برای R1 = 0.98 ،R2 = 0.85 و R3 = 0.97 دوباره محاسبه شود، قابلیت اطمینان سیستم اکنون برابر است با…
با اجرای افزونگی یا Redundancy تنها برای یک جزء، قابلیت اطمینان سیستم 12 درصد افزایش داده شده است.
سطوح زیادی وجود دارد که می توان این استراتژی را در آن ها پیاده سازی کرد. باید دانست که کدام مؤلفه ها به احتمال زیاد از کار می افتند. ممکن است نقص در سنسور، کابل، دستگاه، شاسی، منبع تغذیه یا هر تعداد دیگری از اجزای سیستم باشد.
- افزونگی “در دسترس بودن” را بهبود می بخشد:
در دسترس بودن (Availability)، درصد زمانی است که یک سیستم برای یک زمان ماموریت خاص، در حال کار می باشد:
(زمان کار + زمان توقف) / زمان کار= در دسترس بودن
اگر به عنوان نمونه مدت زمان ماموریت اپراتور 24/7 به مدت شش ماه است و هیچ خرابی وجود ندارد، سیستم 100٪ در دسترس خواهد بود. اگر برای همان ماموریت، سیستم یک روز از کار افتادگی داشته باشد، آنگاه در دسترس بودن سیستم 99.4 درصد می شود. هنگامی که سیستم در حال توسعه استراتژی هایی برای بهبود دسترسی است، ابتدا باید این واقعیت را پذیرفت که گاهی باید با شکست ها مقابله شود. بنابراین تمرکز در طراحی در هر سیستمی بر دسترسی بالا، کاهش زمان خرابی و زمان تعمیر است.
بدون افزونگی یا Redundancy، رفع خرابی سیستم به سرعت مجموعه در موارد زیر بستگی دارد:
- تشخیص شکست
- تشخیص مشکل
- تعمیر یا تعویض بخش خراب سیستم
- بازگرداندن سیستم به وضعیت عملیاتی کامل
برای ایرادات سخت افزاری، بهترین راه حل، تعویض یک جزء یا کل سیستم خراب است. بسته به دسترسی و در دسترس بودن قطعات یدکی، تعویض ممکن است از چند دقیقه تا چند روز طول بکشد. اگر مشکل نرم افزاری ایجاد شود، ممکن است فقط نیاز به راه اندازی مجدد سیستم برای تعمیر موقت آن باشد. با این حال، راه اندازی مجدد، بسته به پیچیدگی سیستم، ممکن است از چند ثانیه تا چند ساعت طول بکشد.
با افزونگی، زمان از کار افتادن سیستم به سرعت تشخیص خرابی و انتقال به واحد پشتیبان بستگی دارد. این زمان به راحتی می تواند کم تر از یک ثانیه باشد. حتی در بسیاری از سیستم ها رفع خرابی ها در حد میلی ثانیه می باشد. بنابراین افزونگی می تواند در دسترس ماندن سیستم را تا چندین برابر افزایش دهد.
به عنوان مثال، سیستمی که باید به مدت یک سال 24/7 اجرا شود. اگر در طول ماموریت، یک ساعت از کارافتادگی را تجربه کند، در دسترس بودن آن 99.9% خواهد بود. اگر از افزونگی یا Redundancy استفاده شود، زمان خرابی می تواند یک ثانیه باشد و لذا در دسترس بودن 99.99999٪ خواهد بود…
مفهوم مهم دیگری که باید به خاطر داشت این است که زمان جابجایی برای افزونگی به طور معمول آن قدر سریع است که سیستم به طور محسوسی تحت تأثیر زمان خرابی قرار نمی گیرد. بنابراین، برای تمام مقاصد عملی که سیستم هرگز قطعی را تجربه نکند، در دسترس بودن 100٪ خواهد بود.
سخن پایانی
افزونگی یا ریداندانسی (Redundancy) می تواند تا حد زیادی، قابلیت اطمینان و در دسترس بودن سیستم کنترل و/یا نظارت را بهبود بخشد. در بسیاری از سیستم ها برای موفقیت نیازی به افزونگی ندارند، اما اگر هزینه شکست بالا باشد ممکن است نیاز به افزونگی باشد. باید نیاز سیستم را ارزیابی کرد و بر اساس آن، مدل افزونگی انتخاب شود تا به بهترین وجه، نیازهای مجموعه برآورده شود.