High Availability در فایروال سوفوس | آموزش کامل راهاندازی HA در Sophos Firewall

در شبکههای سازمانی، فایروال یکی از مهمترین اجزای زیرساخت امنیتی محسوب میشود. قطع شدن فایروال حتی برای چند دقیقه میتواند باعث از دسترس خارج شدن اینترنت، ارتباطات VPN، سرویسهای داخلی و ایجاد اختلال در فرآیندهای حیاتی سازمان شود. به همین دلیل بسیاری از سازمانها از قابلیت High Availability (HA) استفاده میکنند تا در صورت خرابی یک دستگاه، سرویسها بدون توقف ادامه پیدا کنند. در این مقاله، بهصورت تخصصی و کاربردی نحوه عملکرد، ساختار و راهاندازی High Availability در فایروال سوفوس را بررسی میکنیم.
معماری HA در فایروال سوفوس
در فایروال سوفوس، High Availability بر پایه ارتباط مداوم بین دو نود طراحی شده است تا در صورت بروز خرابی، انتقال سرویس در کمترین زمان ممکن انجام شود. در این ساختار دو عضو اصلی وجود دارد:
-
Primary Node (Active Node)
این نود مسئول پردازش عملیات اصلی شبکه است:
- پردازش ترافیک ورودی و خروجی
- اعمال Firewall Ruleها و Security Policyها
- انجام NAT و Routing
- مدیریت Sessionهای فعال کاربران
- پردازش سرویسهایی مانند VPN، IPS و Web Filtering
-
Auxiliary Node (Standby Node)
برخلاف تصور رایج، دستگاه دوم در حالت بیکار قرار ندارد. این نود بهصورت مداوم چند فعالیت مهم انجام میدهد:
- دریافت تنظیمات از Primary
- دریافت وضعیت Session ها
- بررسی سلامت سیستم اصلی
- بررسی وضعیت Interfaceها
- آمادهسازی اطلاعات موردنیاز برای Failover
بهعبارت دیگر، Secondary دائماً در حال ایجاد یک نسخه همگام از وضعیت فایروال اصلی است.
روشهای پیکربندی HA در فایروال سوفوس
در Sophos Firewall علاوه بر انتخاب معماری High Availability، روشهای مختلفی برای راهاندازی و تشکیل HA Pair نیز وجود دارد. این روشها تعیین میکنند که فرآیند پیکربندی تا چه میزان بهصورت خودکار یا دستی انجام شود.
QuickHA
روش QuickHA برای سادهسازی راهاندازی HA طراحی شده است. در واقع، بسیاری از تنظیمات موردنیاز بهصورت خودکار توسط سیستم انجام میشوند و مدیر شبکه با مراحل کمتری روبهرو خواهد شد.
ویژگیهای QuickHA:
- انجام خودکار بخش زیادی از تنظیمات اولیه
- کاهش زمان راهاندازی
- مناسب برای سناریوهای ساده و استاندارد
- نیاز کمتر به پیکربندی دستی
مزایا:
- پیادهسازی سریعتر
- کاهش احتمال خطای انسانی
- مناسب سناریوهایی که به راهاندازی سریع با تنظیمات استاندارد نیاز دارند. (محدود به Small Business نیست.)
Interactive Mode
در Interactive Mode مدیر شبکه کنترل بیشتری روی فرآیند تشکیل HA دارد و تنظیمات مهم را بهصورت دستی تعیین میکند.
در این روش معمولاً تنظیماتی مانند موارد زیر با جزئیات بیشتری قابل مدیریت هستند:
- انتخاب Interfaceهای مورد استفاده
- تعیین تنظیمات High Availability Link
- پیکربندی دقیق ارتباط بین نودها
- تنظیم پارامترهای خاص شبکه
مزایا:
- انعطافپذیری بیشتر
- کنترل دقیقتر روی تنظیمات
- مناسب زیرساختهای پیچیده و Enterprise
نحوه عملکرد Synchronization در High Availability فایروال سوفوس
یکی از مهمترین بخشهای معماری HA در Sophos فرآیند Synchronization است.
پس از تشکیل HA Pair، اطلاعات مختلف بهصورت مداوم بین دو دستگاه تبادل میشوند:
تنظیمات شبکه:
- Interface Configuration
- VLAN Configuration
- Routing Information
- DNS Configuration
تنظیمات امنیتی:
- Firewall Rules
- NAT Rules
- Security Policies
- IPS Policies
- Web Policies
اطلاعات عملیاتی:
- Session Table
- User Authentication State
- VPN Information
هدف از این فرآیند این است که اگر Failover اتفاق افتاد، فایروال دوم نیازی به ساخت مجدد وضعیت شبکه نداشته باشد.
چه مواردی در HA فایروال سوفوس همگامسازی نمیشوند؟
یکی از تصورات اشتباه در پیادهسازی Sophos HA این است که همه اطلاعات و تنظیمات بین دو فایروال منتقل میشوند. در حالیکه در Sophos برخی اطلاعات بهصورت محلی (Local) روی هر دستگاه باقی میمانند و بهصورت کامل همگامسازی نمیشوند.
مواردی که معمولاً Sync نمیشوند عبارتاند از:
1. اطلاعات و Logهای محلی دستگاه
اطلاعاتی مانند:
- System Logهای محلی
- Event Log
- Diagnostic Log
این اطلاعات معمولاً وابسته به همان دستگاه هستند و به نود دیگر منتقل نمیشوند.
2. اطلاعات وابسته به سختافزار
برخی اطلاعات به خود دستگاه وابسته هستند، مانند:
- شناسههای سختافزاری (Hardware ID)
- اطلاعات مربوط به Interfaceهای فیزیکی
- وضعیت سلامت سختافزار
3. برخی اطلاعات عملیاتی لحظهای
بعضی اطلاعات به وضعیت فعلی سیستم وابستهاند و ممکن است بهصورت کامل منتقل نشوند:
- برخی فرآیندهای در حال اجرا
- وضعیت موقت برخی سرویسها
- اطلاعات وابسته به حافظه موقت سیستم
4. اطلاعات تشخیصی و Debug
موارد زیر معمولاً محلی باقی میمانند:
- Debug Information
- Crash Reports
- فایلهای Diagnostic
نقش Heartbeat در معماری HA
در فایروال سوفوس، ارتباط بین دو نود HA از طریق Heartbeat Link برقرار میشود. وظیفه Heartbeat فقط بررسی روشن یا خاموش بودن دستگاه مقابل نیست؛ بلکه این مکانیزم بهصورت مداوم وضعیت کلی سیستم را پایش میکند تا در صورت بروز خرابی، فرآیند Failover در سریعترین زمان ممکن انجام شود.
Heartbeat معمولاً اطلاعاتی مانند موارد زیر را بررسی و تبادل میکند:
- وضعیت سلامت کلی دستگاه
- وضعیت Interfaceهای مانیتور شده
- وضعیت سرویسهای حیاتی سیستم
- پیامهای مربوط به HA و تغییر وضعیت نودها
- بررسی دسترسپذیری نود مقابل
در واقع Heartbeat دائماً این سؤال را بررسی میکند: «آیا فایروال اصلی همچنان سالم و در دسترس است؟»
اگر ارتباط Heartbeat دچار اختلال شود یا برای مدت مشخصی پاسخی از نود مقابل دریافت نشود، فایروال ممکن است تشخیص دهد که دستگاه اصلی از دسترس خارج شده و فرآیند Failover را آغاز کند.
به همین دلیل در محیطهای عملیاتی توصیه میشود:
- از Interface اختصاصی برای Heartbeat استفاده شود
- ارتباط مستقیم بین دو فایروال برقرار شود
- لینک Heartbeat با ترافیک کاربران مشترک نباشد
- از لینک پایدار با کمترین تأخیر و Packet Loss استفاده شود
در زمان Failover چه اتفاقی رخ میدهد؟
اگر Primary به هر دلیل از دسترس خارج شود:
- نود Secondary عدم پاسخگویی را تشخیص میدهد.
- وضعیت Interfaceها و Health Check بررسی میشود.
- Secondary به Active تبدیل میشود.
- آدرسهای Virtual MAC و سرویسها فعال میشوند.
- ترافیک شبکه به سمت نود جدید هدایت میشود.
در صورت فعال بودن Session Pickup، بسیاری از ارتباطات فعال بدون نیاز به برقراری مجدد ادامه پیدا میکنند.
عوامل ایجاد Failover در Sophos Firewall
در سوفوس فقط خاموش شدن دستگاه عامل Failover نیست. موارد زیر نیز میتوانند باعث تغییر وضعیت شوند:
1. خرابی سختافزار
مانند:
- خرابی CPU
- Memory Failure
- Power Failure
2. قطع شدن Interfaceهای مانیتور شده
در صورت Fail شدن لینکهای مهم:
- WAN
- LAN
- VLAN
3. خرابی سرویسهای حیاتی
مانند:
- Routing Process
- VPN Service
4. از دست رفتن Heartbeat
Session Pickup در فایروال سوفوس چیست؟
یکی از قابلیتهای مهم فایروال سوفوس، ویژگی Session Pickup است. یعنی، وقتی فایروال Active خراب میشود و Failover انجام میشود، فایروال دوم (Standby) بتواند اتصالهای در حال انجام کاربران را تا حد ممکن ادامه بدهد.
به طور مثال اگر Failover رخ دهد:
- اتصال کاربران ممکن است قطع شود.
- دانلودها متوقف شوند.
- ارتباط VPN از بین برود.
اما با فعال بودن Session Pickup:
- Sessionهای TCP منتقل میشوند.
- بسیاری از ارتباطات فعال ادامه پیدا میکنند.
- کاربران اختلال کمتری احساس میکنند.
این قابلیت در سرویسهای زیر مهم است. مانند:
- VPN
- Web Application
- دانلود فایل
- سرویسهای داخلی
مشکلات رایج در High Availability فایروال سوفوس و روش رفع آنها
1. تشکیل نشدن HA Pair
یکی از رایجترین مشکلات هنگام راهاندازی High Availability این است که دو فایروال موفق به تشکیل HA Pair نمیشوند.
نشانهها:
- نود دوم به Cluster اضافه نمیشود
- وضعیت HA تشکیل نمیشود
- دستگاهها یکدیگر را شناسایی نمیکنند
دلایل احتمالی:
- تفاوت Firmware بین دو دستگاه
- ناسازگاری Interface Mapping
- خطا در Passphrase
- استفاده از مدلهای ناسازگار
- مشکل در HA Link
راهحل:
- بررسی یکسان بودن نسخه Firmware
- بررسی Mapping Interfaceها
- بررسی Passphrase
- تست ارتباط بین HA Interfaceها
2. Failoverهای مکرر (Flapping)
Flapping زمانی رخ میدهد که نقش Active و Standby بهصورت مکرر تغییر کند.
نشانهها:
- تغییر مداوم Active و Auxiliary
- اختلالهای کوتاه و تکرارشونده
- قطع و وصل شدن VPN یا اینترنت
دلایل احتمالی:
- ناپایداری لینک Heartbeat
- Packet Loss
- تنظیم اشتباه Interface Monitoring
- تأخیر زیاد شبکه
راهحل:
- استفاده از Interface اختصاصی برای Heartbeat
- بررسی کیفیت لینک
- تنظیم صحیح Monitoring Interfaceها
- بررسی Packet Loss و Latency
3. Session Drop بعد از Failover
در برخی سناریوها کاربران بعد از Failover با قطع شدن ارتباطات فعال مواجه میشوند.
نشانهها:
- قطع شدن VPN
- توقف دانلودها
- نیاز به Login مجدد کاربران
- قطع ارتباط نرمافزارهای تحت شبکه
دلایل احتمالی:
- غیرفعال بودن Session Pickup
- تأخیر در Synchronization
- محدودیت برخی پروتکلها
راهحل:
- فعال کردن Session Pickup
- بررسی وضعیت Synchronization
- تست Failover قبل از ورود به محیط عملیاتی
4. Split-Brain در HA
یکی از خطرناکترین مشکلات در HA زمانی رخ میدهد که هر دو نود تصور کنند باید نقش Active را بر عهده بگیرند.
نشانهها:
- رفتار غیرعادی شبکه (قطع و وصل شدن ارتباط کاربران)
- اختلال در Routing و NAT
- تداخل IP یا MAC
دلایل احتمالی:
- قطع شدن Heartbeat
- پیکربندی اشتباه HA Link
راهحل:
- استفاده از لینک اختصاصی و پایدار برای Heartbeat
- بررسی وضعیت HA Link
- مانیتورینگ مداوم وضعیت نودها
نکات طراحی High Availability در فایروال سوفوس
راهاندازی HA صرفاً اتصال دو فایروال و مشاهده وضعیت Active و Standby نیست. در بسیاری از موارد، مشکلات High Availability به دلیل طراحی نادرست زیرساخت ایجاد میشوند، نه خود فایروال. رعایت نکات زیر میتواند باعث افزایش پایداری و جلوگیری از Failoverهای ناخواسته شود.
استفاده از Interface اختصاصی برای Heartbeat
Heartbeat مهمترین مسیر ارتباطی بین دو نود HA است. استفاده از لینکهای مشترک با ترافیک کاربران میتواند باعث تأخیر، Packet Loss یا تشخیص اشتباه خرابی شود.
توصیه میشود:
- از Interface جداگانه برای Heartbeat استفاده شود.
- ارتباط تا حد امکان مستقیم باشد.
- لینک Heartbeat با ترافیک کاربران مشترک نباشد.
- فقط Interfaceهای حیاتی مانیتور شوند.
یکی از اشتباهات رایج، مانیتور کردن تعداد زیادی Interface است.
برای مثال اگر چندین VLAN یا Interface فرعی را مانیتور کنید، قطع شدن یک لینک کماهمیت میتواند باعث Failover غیرضروری شود. بهتر است فقط Interfaceهای حیاتی مانند موارد زیر مانیتور شوند:
- WAN اصلی
- لینکهای اصلی LAN
- Interfaceهای مرتبط با سرویسهای مهم
Firmware دو فایروال را یکسان نگه دارید
اختلاف نسخه Firmware میتواند باعث مشکلاتی مانند موارد زیر شود:
- تشکیل نشدن HA Pair
- خطا در Synchronization
- رفتار غیرعادی در Failover
قبل از فعالسازی High Availability بررسی کنید هر دو دستگاه:
- نسخه Firmware یکسان داشته باشند
- Build مشابه داشته باشند
- از مدلهای سختافزاری مشابه استفاده کنید
هرچند در برخی سناریوها سازگاری وجود دارد، اما استفاده از مدلهای متفاوت ممکن است باعث محدودیت در عملکرد یا ناسازگاری شود.پس، بهتر است:
- هر دو فایروال مدل مشابه داشته باشند
- تعداد Interfaceها یکسان باشد
مثال:
✔ (XGS 2100) + (XGS 2100)
❌ (XGS 136) + (XGS 2100)
Session Pickup را متناسب با نیاز بررسی کنید
فعال بودن Session Pickup میتواند باعث شود بسیاری از ارتباطات فعال پس از Failover ادامه پیدا کنند. این قابلیت در محیطهایی که از سرویسهای زیر استفاده میکنند اهمیت بیشتری دارد:
- VPN
- VoIP
- برنامههای Real-Time
- سرویسهای حساس به قطع ارتباط
Failover را قبل از ورود به محیط عملیاتی تست کنید
بعد از تشکیل HA فقط مشاهده وضعیت Active/Standby کافی نیست. سناریوهای واقعی را آزمایش کنید:
- خاموش شدن Primary
- قطع شدن Interfaceهای حیاتی
- قطع لینک Heartbeat
- قطع برق دستگاه
هدف این تستها بررسی موارد زیر است:
- سرعت Failover
- رفتار Sessionها
- پایداری سرویسها
از ایجاد Single Point of Failure جدید جلوگیری کنید
گاهی High Availability بهدرستی پیادهسازی میشود، اما اجزای دیگر شبکه به نقطه شکست تبدیل میشوند.
مثال:
- هر دو فایروال به یک سوئیچ متصل باشند
- هر دو WAN از یک مسیر عبور کنند
- هر دو منبع تغذیه به یک برق متصل باشند
در این شرایط با وجود HA همچنان احتمال از دسترس خارج شدن سرویس وجود دارد.
مثال:
- دو فایروال Sophos وجود دارد (HA فعال است)
- FW-1 → Active
- FW-2 → Standby
در ابتدا همهچیز عادی به نظر میرسد. اما مشکل اینجاست که هر دو فایروال به یک سوئیچ متصل هستند. اگر:
- سوئیچ خراب شود
- برق سوئیچ قطع شود
- یا سوئیچ Crash کند
در نتیجه:
- هر دو فایروال ارتباطشان را از دست میدهند
- HA هم کمکی نمیکند
- کل سرویس قطع میشود
یعنی فایروالها مشکل ندارند؛ سوئیچ تبدیل به نقطه شکست شده است.
پس، پیادهسازی HA بهتنهایی کافی نیست؛ تمام اجزای وابسته مانند سوئیچ، لینک اینترنت و منبع تغذیه نیز باید بررسی شوند تا نقطه شکست جدیدی در زیرساخت ایجاد نشود.


