काई लियू, विग्नेश प्रभाकर, चाउ वु, जेनिफर क्रॉफर्ड और जोसेफ वाइट
बड़े पैमाने पर ज्ञान ग्राफ डेटासेट में इकाइयों (नोड्स) और संबंधों (किनारों) का प्रतिनिधित्व करने के लिए ज्ञान ग्राफ एम्बेडिंग (KGE) उत्पन्न करना प्रतिनिधित्व सीखने में एक चुनौतीपूर्ण समस्या रही है। यह मुख्य रूप से इसलिए है क्योंकि बड़े विषम ग्राफ में डेटा के पूरे दायरे को एनकोड करने के लिए आवश्यक एम्बेडिंग/वेक्टर अभ्यावेदन में उच्च आयामीता होनी चाहिए। बड़ी संख्या में वेक्टरों के अभिविन्यास के लिए बहुत अधिक स्थान की आवश्यकता होती है जिसे एम्बेडिंग को उच्च आयामों में प्रक्षेपित करके प्राप्त किया जाता है। यह एक स्केलेबल समाधान नहीं है, खासकर जब हम अधिक डेटा को शामिल करने के लिए ज्ञान ग्राफ के आकार में वृद्धि की अपेक्षा करते हैं। एम्बेडिंग को कम आयामों तक सीमित करने का कोई भी प्रयास समस्याग्रस्त हो सकता है क्योंकि सीमित संख्या में आयामों के भीतर बड़ी संख्या में एम्बेडिंग/वेक्टर अभ्यावेदन को स्थानिक रूप से उन्मुख करने के लिए अपर्याप्त स्थान से लिंक भविष्यवाणी जैसे डाउनस्ट्रीम कार्यों पर खराब अनुमान लग सकता है जो ज्ञान ग्राफ में दो या अधिक इकाइयों के बीच लिंक के अस्तित्व की संभावना का अनुमान लगाने के लिए इन एम्बेडिंग का लाभ उठाते हैं। यह विशेष रूप से बड़े बायोमेडिकल ज्ञान ग्राफ के मामले में होता है जो कई विविध संस्थाओं जैसे जीन, रोग, सिग्नलिंग मार्ग, जैविक कार्य आदि से संबंधित होते हैं जो कि KG के दवा खोज के लिए आवेदन के लिए चिकित्सकीय रूप से प्रासंगिक हैं। इसलिए बायोमेडिकल ज्ञान ग्राफ के आकार सामान्य बेंचमार्क ज्ञान ग्राफ डेटासेट की तुलना में बहुत बड़े हैं। यह ग्राफ की अव्यक्त अर्थ संरचना का प्रतिनिधित्व करने के लिए अच्छी गुणवत्ता के एम्बेडिंग/वेक्टर अभ्यावेदन उत्पन्न करने में एक बड़ी चुनौती पेश करता है। एम्बेडिंग की आयामीता को बढ़ाकर इस चुनौती को दरकिनार करने के प्रयास अक्सर हार्डवेयर सीमाओं को प्रस्तुत करते हैं क्योंकि उच्च आयामी एम्बेडिंग उत्पन्न करना कम्प्यूटेशनल रूप से महंगा और अक्सर असंभव होता है। ऐसे बड़े पैमाने के ज्ञान ग्राफ (KG) की अव्यक्त संरचना का प्रतिनिधित्व करने के लिए व्यावहारिक रूप से निपटने के लिए, हमारा काम एक समूह सीखने के मॉडल का प्रस्ताव करता है जिसमें पूर्ण ज्ञान ग्राफ को कई छोटे उपग्राफों में नमूना किया जाता है और KGE मॉडल प्रत्येक व्यक्तिगत उपग्राफ के लिए एम्बेडिंग उत्पन्न करते हैं। प्रत्येक उपग्राफ पर प्रशिक्षित KGE मॉडल से लिंक भविष्यवाणी के परिणामों को फिर पूर्ण ज्ञान ग्राफ में लिंक भविष्यवाणियों का एक समेकित सेट उत्पन्न करने के लिए एकत्र किया जाता है। प्रयोगात्मक परिणामों ने चार ओपन-सोर्स बायोमेडिकल नॉलेज ग्राफ डेटासेट पर कार्य-विशिष्ट लिंक भविष्यवाणियों के साथ-साथ सामान्य लिंक भविष्यवाणियों पर रैंक-आधारित मूल्यांकन मेट्रिक्स में महत्वपूर्ण सुधार प्रदर्शित किया।