अभय त्रिपाठी
टेक्स्ट माइनिंग में दस्तावेज़ सारांशीकरण एक बहुत ही चुनौतीपूर्ण कार्य है। एक बड़े दस्तावेज़ को संक्षिप्त छोटे वाक्यों में सारांशित करना जो कि प्रारंभिक पाठ का एक उपसमूह है, उसे निष्कर्षात्मक सारांशीकरण कहा जाता है। पाठ सारांशीकरण के विभिन्न अनुप्रयोग हैं, लेकिन यहाँ CNN समाचार लेखों को उसके मुख्य वाक्यों में सारांशित किया गया है। इस परियोजना में, विषय मॉडलिंग एल्गोरिथ्म लेटेंट डिरिचलेट आवंटन का उपयोग निष्कर्षात्मक पाठ सारांश बनाने के लिए किया जाता है। इसका उपयोग पाठ से महत्वपूर्ण विषयों को कैप्चर करने में किया जाता है और बाद में वितरण भार तंत्र का उपयोग करके पाठ से वाक्य प्राप्त किए जाते हैं। मॉडल डेटा पर अच्छा प्रदर्शन करता है और समाचार लेख के लिए सारांश प्राप्त करता है। यह लंबे पाठ या दस्तावेज़ों को पढ़ने में समय बचाने में मदद करता है। दस्तावेज़ सारांशीकरण दस्तावेज़ से महत्वपूर्ण और प्रासंगिक डेटा प्राप्त करने और व्यापक और सार्थक जानकारी का एक टुकड़ा बनाने का एक साधन है। इस परियोजना में, मुख्य विषयों को निकालने के लिए लेटेंट डिरिचलेट आवंटन (LDA) एल्गोरिथ्म पर लागू किए गए दस्तावेज़ खंडित वाक्यों का उपयोग करके बड़े दस्तावेज़ों का निष्कर्षात्मक सारांश किया जाता है। फिर वाक्यों में उन विषयों के शब्दों की आवृत्ति का उपयोग करके, पाठ को सारांशित करने के लिए उच्चतम वितरण वाले मुख्य वाक्य निकाले जाते हैं। रिपोर्ट को निम्नलिखित अनुभागों में संरचित किया गया है। अनुभाग II में साहित्य समीक्षा जिसमें दस्तावेज़ सारांश और LDA के लिए विभिन्न लेखकों के काम पर चर्चा की गई है। अनुभाग III LDA मॉडल का उपयोग करके कार्यान्वित की गई वास्तविक कार्यप्रणाली को निर्दिष्ट करता है और इसमें डेटा प्रोसेसिंग शामिल है। पाठ मॉडलिंग और दस्तावेज़ सारांश में अनुभवजन्य परिणामों पर खंड IV में चर्चा की गई है। अंत में, अनुभाग V निष्कर्ष और भविष्य की गुंजाइश प्रदान करता है। इन सूचनाओं को सारांशित करना बहुत महत्वपूर्ण और आवश्यक है। दस्तावेज़ सारांश प्राकृतिक भाषा प्रसंस्करण (NLP) और बिग डेटा क्षेत्रों में एक महत्वपूर्ण शोध बन गया है। विषय मॉडलिंग LDA एल्गोरिथ्म का उपयोग करके निष्कर्षात्मक सारांश मूल दस्तावेज़ से महत्वपूर्ण वाक्यों का सारांश सफलतापूर्वक उत्पन्न करता है। यह विषय विविधता का अच्छा स्तर भी प्रदान करता है। बाद में, हम उत्तरोत्तर लक्षित कार्यों की जांच करना और सारांश निर्माण को और बेहतर बनाना और विविध विषय मॉडलिंग तकनीकों का उपयोग करना चाह सकते हैं। इसी तरह, हमारा मतलब विभिन्न बोलियों से निपटने के अपने तरीके का आकलन करना है। भविष्य में अमूर्त सारांश तैयार करने की संभावना है, जो अधिक मानवीय सारांश जैसा होगा तथा अर्थगत भाषा निर्माण के लिए भारी मशीन लर्निंग उपकरणों की आवश्यकता होगी।