मानसी प्रिया
आज, एल्गोरिदम चर्चा का विषय बन गए हैं। हर कोई अलग-अलग तरह के एल्गोरिदम सीख रहा है - लॉजिस्टिक रिग्रेशन, रैंडम फॉरेस्ट, डिसीजन ट्रेस, एसवीएम, ग्रेडिएंट बूस्टिंग एल्गोरिदम, न्यूरल नेटवर्क आदि। हर दिन नए एल्गोरिदम बनाए जा रहे हैं। लेकिन डेटा साइंस सिर्फ़ डेटा पर अलग-अलग एल्गोरिदम लागू करना नहीं है। किसी भी एल्गोरिदम को लागू करने से पहले, आपको अपने डेटा को समझना चाहिए क्योंकि इससे आपको बाद में अपने एल्गोरिदम के प्रदर्शन को बेहतर बनाने में मदद मिलेगी। किसी भी समस्या के लिए सटीकता में सुधार के लिए एक ही चरण- डेटा तैयारी, मॉडल प्लानिंग, मॉडल बिल्डिंग और मॉडल मूल्यांकन को दोहराना पड़ता है। अगर हम सीधे मॉडल बिल्डिंग पर चले जाते हैं, तो हम एक बार फिर दिशाहीन हो जाते हैं। किसी भी मशीन लर्निंग समस्या से निपटने के लिए मेरे हिसाब से कुछ परिभाषित चरण निम्नलिखित हैं: मेरा सुझाव है कि पहला कदम बिजनेस मार्केट की अच्छी समझ के साथ अपनी समस्या को ठीक से समझना है। ऐसा कोई परिदृश्य नहीं है: यहाँ डेटा है, यहाँ एल्गोरिदम है और धमाका! उचित बिजनेस समझ आपको आने वाले चरणों में डेटा को संभालने में मदद करेगी। उदाहरण के लिए, यदि आपको बैंकिंग प्रणाली के बारे में कोई जानकारी नहीं है, तो आप यह नहीं समझ पाएंगे कि ग्राहक की आय जैसी सुविधा को शामिल किया जाना चाहिए या नहीं। अगला कदम आपकी समस्या के लिए प्रासंगिक डेटा एकत्र करना है। आपकी कंपनी में आंतरिक रूप से मौजूद डेटा के अलावा, आपको बाहरी डेटा स्रोत भी जोड़ना चाहिए। उदाहरण के लिए, बिक्री की भविष्यवाणी के लिए आपको अपने उत्पाद की बिक्री के लिए बाजार परिदृश्य को समझना चाहिए। जीडीपी आपकी बिक्री को प्रभावित कर सकती है या जनसंख्या प्रभावित कर सकती है। इसलिए, इस तरह के बाहरी डेटा एकत्र करें। इस तथ्य को भी याद रखें कि आपके द्वारा उपयोग किया जाने वाला कोई भी बाहरी डेटा भविष्य में आपके मॉडल के तैनात होने पर आपके लिए उपलब्ध होना चाहिए। जैसे यदि आप अपने मॉडल में जनसंख्या का उपयोग करते हैं, तो अगले वर्ष भी आपको अगले वर्ष में भविष्यवाणियाँ प्राप्त करने के लिए यह डेटा एकत्र करने में सक्षम होना चाहिए। मैंने कई लोगों को देखा है जो अपने डेटासेट के लिए बाहरी डेटा के महत्व को समझे बिना केवल अपने आंतरिक डेटा का उपयोग करते हैं। लेकिन वास्तव में, बाहरी विशेषताओं का हमारे उपयोग के मामले पर अच्छा प्रभाव पड़ता है। अब जब आपने अपनी समस्या के लिए सभी प्रासंगिक डेटा एकत्र कर लिए हैं, तो आपको इसे प्रशिक्षण और परीक्षण के लिए विभाजित करना होगा। कई डेटा वैज्ञानिक डेटा को दो भागों में विभाजित करने के लिए 70/30 नियम का पालन करते हैं: प्रशिक्षण और परीक्षण सेट। जबकि कई लोग डेटा को तीन भागों में विभाजित करने के लिए 60/20/20 नियम का पालन करते हैं: प्रशिक्षण सेट, परीक्षण सेट और सत्यापन सेट। मैं दूसरे विकल्प को पसंद करता हूँ क्योंकि इस मामले में आप अपने मॉडल को बेहतर बनाने के लिए परीक्षण सेट का उपयोग करते हैं और वास्तविक परिदृश्य में अपने मॉडल के अंतिम सत्यापन के लिए सत्यापन सेट का उपयोग करते हैं। मैं एक डिफ़ॉल्ट ऋण भविष्यवाणी समस्या पर काम कर रहा था। मेरी सटीकता 78% थी। मैंने अपनी समस्या उस व्यक्ति के पास ले गया जो ऋण से संबंधित वित्तीय प्रणालियों को संभाल रहा था।