साइट विश्वसनीयता इंजीनियरिंग - पाठ्यक्रम 65,000 रूबल। स्लम से, प्रशिक्षण, दिनांक 1 जनवरी 2024।
अनेक वस्तुओं का संग्रह / / November 29, 2023
लोगों को
एक एसआरई इंजीनियर या तो एक ऑपरेशन इंजीनियर या डेवलपर हो सकता है। गहन पाठ्यक्रम के दौरान, आप बहुत अभ्यास करेंगे, और आपके द्वारा प्राप्त कौशल और ज्ञान को किसी भी क्षेत्र में अनुकूलित और कार्यान्वित किया जा सकता है।
व्यापार
SRE DevOps जैसी ही समस्याओं का समाधान करता है: यह नई सुविधाओं को जारी करने की गति बढ़ाता है और टीम के भीतर प्रक्रियाओं में सुधार करता है। लेकिन एसआरई का मुख्य कार्य सेवाओं की स्थिरता और विश्वसनीयता सुनिश्चित करना है, उन स्थितियों को छोड़कर जहां उपयोगकर्ता विफलताओं के बारे में शिकायत करते हैं, और इंजीनियरों के पास ग्रीन शेड्यूल होता है।
हम निर्माण कर रहे हैं:
हमारी प्रशिक्षण साइट में कई माइक्रोसर्विसेज शामिल हैं। यह सभी सिनेमाघरों के शो, कीमतों और उपलब्ध सीटों पर डेटा एकत्र करता है, मूवी घोषणाएं दिखाता है, आपको सिनेमा, शो, हॉल और स्थान का चयन करने, टिकट बुक करने और भुगतान करने की अनुमति देता है।
हम इस साइट के लिए एसएलओ, एसएलआई, एसएलए संकेतक तैयार करेंगे, एक आर्किटेक्चर और बुनियादी ढांचा विकसित करेंगे जो उनका समर्थन करेगा, निगरानी और चेतावनी स्थापित करेगा।
डेवलपर की त्रुटियां, बुनियादी ढांचे की विफलता, आगंतुकों की आमद और DoS हमलों के कारण SLO की स्थिति खराब हो रही है।
हम स्थिरता, त्रुटि बजट, परीक्षण अभ्यास, रुकावटों के प्रबंधन और परिचालन भार का विश्लेषण करते हैं।
वहाँ एक दुर्घटना थी। भुगतान प्रसंस्करण सेवा बंद है. कम से कम समय में कार्यक्षमता बहाल करने के लिए कैसे कार्य करें?
हम आपातकालीन प्रतिक्रिया टीम के काम को व्यवस्थित करते हैं: सहकर्मियों को शामिल करना, हितधारकों को सूचित करना, प्राथमिकताएँ निर्धारित करना। हम बेहद सीमित समय की परिस्थितियों में दबाव में काम करने का प्रशिक्षण लेते हैं।
आइए एसआरई दृष्टिकोण से साइट के दृष्टिकोण को देखें। हम घटनाओं (घटना के कारण, उन्मूलन की प्रगति) का विश्लेषण करते हैं। हम उन्हें आगे रोकने के लिए निर्णय लेते हैं: हम निगरानी में सुधार करते हैं, वास्तुकला, विकास और संचालन के दृष्टिकोण और नियमों को बदलते हैं। हम प्रक्रियाओं को स्वचालित करते हैं।
- हमारे पास दर्जनों निर्मित बुनियादी ढांचे और सैकड़ों लिखित सीआई/सीडी पाइपलाइन हैं,
- प्रमाणित कुबेरनेट्स प्रशासक,
- कुबेरनेट्स और डेवऑप्स पर कई पाठ्यक्रमों के लेखक,
- रूसी और अंतर्राष्ट्रीय आईटी सम्मेलनों में नियमित वक्ता।
दिन 1: एएमए किक-ऑफ़ सत्र
हम पाठ्यक्रम के लक्ष्यों और उद्देश्यों पर चर्चा करेंगे, और आपको यह भी बताएंगे कि एसआरई क्या है और इसे टीमों में विभाजित करेंगे।
2 सैद्धांतिक विषयों का उद्घाटन:
विषय 1: निगरानी
- निगरानी की आवश्यकता क्यों है?
- प्रतिशतक
- सूचना देने वाले
- observability
विषय 2: एसआरई सिद्धांत
- एसएलओ, एसएलआई, एसएलए
- सहनशीलता
- त्रुटि बजट
दिन 2: प्रथाओं और मामलों का विश्लेषण
अभ्यास: एक बुनियादी डैशबोर्ड बनाना और आवश्यक अलर्ट सेट करना
अभ्यास: डैशबोर्ड पर SLO/SLI + अलर्ट जोड़ना
अभ्यास: पहला सिस्टम लोड
केस 1 समाधान: डाउनस्ट्रीम निर्भरता।
एक बड़ी प्रणाली में, कई अन्योन्याश्रित सेवाएँ होती हैं, और वे हमेशा समान रूप से अच्छी तरह से काम नहीं करती हैं। यह विशेष रूप से कष्टप्रद होता है जब आपकी सेवा क्रम में होती है, लेकिन पड़ोसी, जिस पर आप निर्भर होते हैं, समय-समय पर खराब हो जाती है।
शैक्षिक परियोजना स्वयं को बिल्कुल इन्हीं परिस्थितियों में पायेगी, और आप यह सुनिश्चित करेंगे कि यह अभी भी उच्चतम संभव स्तर पर गुणवत्ता उत्पन्न करे।
दिन 3: एएमए सत्र, प्रश्नों के उत्तर दिए गए
दूसरे सैद्धांतिक मॉड्यूल तक पहुंच खुलती है:
पर्यावरण और वास्तुकला से जुड़ी समस्याओं का समाधान
दूसरा मॉड्यूल दो मामलों को हल करने के लिए बनाया गया है: अपस्ट्रीम निर्भरता और वास्तुशिल्प समस्याएं। वक्ता घटना प्रबंधन, फायर ब्रिगेड के नियमों और पोस्टमार्टम के साथ काम करने के बारे में बात करेंगे और टेम्पलेट प्रदान करेंगे जिन्हें आप अपनी टीम में उपयोग कर सकते हैं।
विषय 3: घटना प्रबंधन
- लचीलापन इंजीनियरिंग
- फायर ब्रिगेड कैसे बनती है
- घटना में आपकी टीम कितनी प्रभावी है?
- एक घटना नेता के लिए 7 नियम
- एक फायरफाइटर के लिए 5 नियम
- HiPPO - सबसे अधिक वेतन पाने वाले व्यक्ति की राय। संचार नेता
टीथीम 4: वररम उपकरण और अलर्ट प्रबंधन।
घटना प्रबंधन के आयोजन में अन्य कंपनियों का सर्वोत्तम अभ्यास।
दिन 4: प्रथाओं और मामलों का विश्लेषण
केस 2 का समाधान: अपस्ट्रीम निर्भरता।
यह एक बात है जब आप कम एसएलओ वाली सेवा पर निर्भर होते हैं। यह दूसरी बात है जब आपकी सेवा सिस्टम के अन्य भागों के लिए समान हो। ऐसा तब होता है जब मूल्यांकन मानदंड सुसंगत नहीं होते हैं: उदाहरण के लिए, आप एक सेकंड के भीतर अनुरोध का जवाब देते हैं और इसे सफल मानते हैं, लेकिन आश्रित सेवा केवल 500 मास्को समय तक प्रतीक्षा करती है और एक त्रुटि के साथ चली जाती है।
मामले में, हम मेट्रिक्स को सुसंगत बनाने के महत्व पर चर्चा करेंगे और ग्राहक की नजर से गुणवत्ता को देखना सीखेंगे।
केस 3 का समाधान: डेटाबेस के साथ समस्याएँ।
डेटाबेस भी समस्याओं का एक स्रोत हो सकता है। उदाहरण के लिए, यदि आप प्रतिकृति रिले की निगरानी नहीं करते हैं, तो प्रतिकृति पुरानी हो जाएगी और एप्लिकेशन पुराना डेटा लौटा देगा। इसके अलावा, ऐसे मामलों को डीबग करना विशेष रूप से कठिन है: अब डेटा असंगत है, लेकिन कुछ सेकंड के बाद यह सुसंगत नहीं रह जाता है, और यह स्पष्ट नहीं है कि समस्या का कारण क्या है।
केस के माध्यम से, आप डिबगिंग के सभी दर्द को महसूस करेंगे और सीखेंगे कि ऐसी समस्याओं को कैसे रोका जाए।
अभ्यास: हम पिछले मामले पर एक पोस्टमॉर्टम लिखते हैं और वक्ताओं के साथ उस पर चर्चा करते हैं।
दिन 5: एएमए सत्र, सवालों के जवाब दिए गए
एएमए सत्र और पिछले विषयों पर प्रश्नों के उत्तर।
तीसरे सैद्धांतिक मॉड्यूल तक पहुंच खुलती है:
यातायात परिरक्षण और कैनरी रिलीज़
तीसरे मॉड्यूल में हम पर्यावरण की समस्या से संबंधित एक मामले का विश्लेषण करेंगे (इसमें स्वास्थ्य का विस्तृत विश्लेषण होगा)। जाँच), और हम चरण-दर-चरण विश्लेषण भी करेंगे कि कंपनियों में एसआरई को कैसे लागू किया जाए और उन कंपनियों के अनुभव को जानें जहां स्पीकर काम करते हैं गहन
विषय 5: स्वास्थ्य जाँच
- कुबेरनेट्स में स्वास्थ्य जांच
- क्या हमारी सेवा अभी भी जीवित है?
- कार्यकारी जांच
- प्रारंभिकविलंबसेकंड
- माध्यमिक स्वास्थ्य बंदरगाह
- साइडकार स्वास्थ्य सर्वर
- नेतृत्वहीन जांच
- हार्डवेयर जांच
विषय 6: परिनियोजन विधियाँ
विषय 7: एसआरई प्रोजेक्ट ऑनबोर्डिंग
बड़ी कंपनियां अक्सर एक अलग एसआरई टीम बनाती हैं, जो समर्थन के लिए अन्य विभागों की सेवाएं लेती है। लेकिन हर सेवा समर्थन के लिए स्वीकार करने के लिए तैयार नहीं है। हम आपको बताएंगे कि इसे किन आवश्यकताओं को पूरा करना होगा। वक्ता अपना अनुभव भी साझा करेंगे कि उन्होंने एसआरई को कैसे लागू किया और क्या गलतियाँ कीं।
दिन 6: प्रथाओं और मामलों का विश्लेषण
केस 4 का समाधान: पर्यावरण की समस्या है, टिकट खरीदना असंभव है।
हेल्थचेक का कार्य टूटी हुई सेवा का पता लगाना और उस पर ट्रैफ़िक को रोकना है। और अगर आपको लगता है कि इसके लिए रूट के साथ सेवा से अनुरोध करना और प्रतिक्रिया प्राप्त करना पर्याप्त है, तो आप आप गलत हैं: भले ही सेवा प्रतिक्रिया दे, यह इसके संचालन की गारंटी नहीं देता है - इसमें समस्याएं उत्पन्न हो सकती हैं परिवेश.
इस मामले के माध्यम से, आप सीखेंगे कि सही हेल्थचेक को कैसे कॉन्फ़िगर करें और ट्रैफ़िक को वहां न जाने दें जहां इसे संसाधित नहीं किया जा सकता है।
सारांश