दस्तावेज़ों के साथ चैट
जानकारी प्रसंस्करण में अगला कदम
Public datasets औरทั่วไป ज्ञान पर निर्भर रहने के बजाय, "डॉक्यूमेंट्स के साथ चैट" संदर्भ-विशिष्ट उत्तर और विश्लेषण बनाता है जो आपकी विश्वसनीय आंतरिक संसाधनों पर आधारित है। अपने दस्तावेज़ अपलोड करें और चैट के उत्तरों के आधार के रूप में इन दस्तावेज़ों का उपयोग करें!
डेटा सीमाओं का समाधान
जब आप एक भाषा मॉडल से प्रश्न पूछते हैं, तो आप उस डेटासेट पर निर्भर होते हैं जिस पर मॉडल प्रशिक्षित हुआ है। यह सामान्यतः इंटरनेट से ली गई जानकारी होती है। गैर-प्रकट स्रोत संभवतः इस डेटासेट में नहीं होते। अपने दस्तावेज़ों को चैट के स्रोत के रूप में उपयोग करके आप यह सुनिश्चित करते हैं कि मॉडल के पास वही जानकारी है जिसकी आपको अपने प्रश्नों के उत्तर के लिए आवश्यकता है।
आपके दस्तावेज़ों के साथ क्षमताएं
आप अपने दस्तावेज़ों के बारे में प ्रश्न पूछ सकते हैं जैसे किसी दस्तावेज़ के मुख्य बिंदु बताना या दस्तावेज़ का सारांश प्रस्तुत करना। आप अपनी स्वयं की डेटासेट की मदद से भाषा मॉडल से विशिष्ट विश्लेषण भी करवा सकते हैं।
दस्तावेज-आधारित चैटिंग के नुकसान
दस्तावेज़ अपलोड करना और उनका प्रसंस्करण अतिरिक्त कदम हैं जिन्हें आप बिना सामाजिक जानकारी के भी सही उत्तर प्राप्त कर सकते हैं। साथ ही एक उत्तर बनाने में अधिक समय लगता है क्योंकि अनुरोध को भाषा मॉडल को भेजने से पहले दस्तावेज़ से आवश्यक जानकारी निकाली जानी चाहिए।
दस्तावेजों के साथ चैट के पीछे की प्रक्रियाएं
आप जो दस्तावेज़ अपलोड करते हैं, उनसे टेक्स्ट निकाला जाता है और भागों में बाँटा जाता है। इन भागों का एक निश्चित अक्षर-गणना (1024 अक्षर) होता है और हमने भागों के बीच ओवरलैप भी सेट किया है (128 अक्षर)। हर छोटा टेक्स्ट स्निप्ट को एक वेक्टर के रूप में वेक्टर डेटाबेस में संग्रहीत किया जाता है। हर प्रश्न के समय इन डेटा से मिलान-जाँच करके चयन किया जाता है।
दस्तावेज़ स्निपेट चयन प्रक्रिया
ये टेक्स्ट स्निपेट पहले से वेक्टर में बदले जा चुके हैं। वेक्टर कई आयाम रखते हैं जो यह दर्शाते हैं कि यह टेक्स्ट अन्य टेक्स्ट से कितनी समान है। RGB रंग तंत्र की तरह सोचिए। एक समान RGB मान वाला रंग भी एक समान रंग है लेकिन थोड़ा भिन्न। वेक्टर डेटाबेस हमें टेक्स्ट के भागों को प्रश्न के आधार पर رتिबद्ध और फ़िल्टर करके प्राप्त करने में सक्षम बनाता है। हम अधिकतम 100 टेक्स्ट भागों को 1024 अक्षरों से लेकर प्रश्न के साथ भेजने के लिए चयन करते हैं।
दस्तावेज-आधारित चैट के लिए उपयुक्त मॉडल
हमने ऐसे मॉडल चुने हैं जिनमें बड़ा कॉन्टेक्स्ट विंडो हो ताकि दस्तावेज़ों के साथ चैट करना संभव हो सके। हम अधिकतम 100 भाग 1024 अक्षरों के साथ भेजना चाहते हैं। ये 100,000 से अधिक अक्षर है। इसके लिए केंद्रीय मॉडल कैटलॉग से उच्च-गुणवत्ता वाले भाषा मॉडल का उपयोग करें।
उपयुक्त मॉडल वे होते हैं जिनमें पर्याप्त कॉन्टेक्स्ट स्थान और अच्छी दस्तावेज़-विश्लेषण हो, जैसे OpenAI के उच्च-गुणवत्ता मॉडल, Claude, Google या यूरोपिया AI के।
एक या एक से अधिक दस्तावेज़ चुनें
आप दस्तावेज़-फाइल मोड को सक्षम कर सकते हैं ताकि प्रश्न-पंक्ति के दाहिनी तरफ पेपरक्लिप पर क्लिक करें। आप चैट करने के लिए अधिकतम 10 फ़ाइलें चुन सकते हैं।
जब आप दस्तावेज़ों के साथ चैटिंग शुरू करते हैं, तब यह जाँच किया जाता है कि भाषा मॉडल दस्तावेज़ों के साथ चैट करने हेतु उपयुक्त है या नहीं। यदि नहीं, तो मौजूदा कैटलॉग से एक उपयुक्त मॉडल स्वचालित रूप से चयनित कर लिया जाएगा।
आप इन दस्तावेज़ों के साथ चैट करते रहें जब तक फ़ाइल मोड चालू रहे।
प्रत्येक फ़ाइल के लिए प्रोसेसिंग
डॉक्यूमेंट्स के साथ चैटिंग के अलावा, AI-Corporate यह भी सक्षम करता है कि प्रत्येक दस्तावेज़ पर एक अलग प्रॉम्प्ट लागू किया जाए और व्यक्तिगत उत्तर प्राप्त किए जाएं। इस फ़ीचर को पर फ़ाइल प्रोसेसिंग कहा जाता है।

यह फ़ीचर "Chat with files" के साथ संयोजन में उपयोग की जा सकती है।
संभावित परिदृश्य
"Per bestand verwerken" के उपयोग का एक व्यावहारिक उदाहरण:
- आप एक संदर्भ दस्तावेज़ (उदा., एक अनुबंध टेम्पलेट) अपलोड करते हैं और इसे Chat with files के साथ सक्रिय करते हैं
- आप कई दस्तावेज़ अपलोड करते हैं जिन्हें विश्लेषण करना है और इन्हें Per bestand verwerken के साथ सक्रिय करते हैं
- आप एक प्रॉम्प्ट बनाते हैं, जिसे सभी फ़ाइलों पर व्यक्तिगत रूप से लागू किया जाएगा
इस प्रकार आप उदाहरण के लिए सभी अनुबंधों का संदर्भ टेम्पलेट के आधार पर स्वचालित विश्लेषण करवा सकते हैं।
"Per bestand verwerken" फ़ंक्शन के लिए अधिकतम 30 दस्तावेज़ लागू है।
समर्थन किए गए फ़ाइल प्रकार
AI-Corporate दस्तावेज़ों के साथ चैटिंग के लिए विभिन्न फ़ाइल प्रकारों का समर्थन करता है:
- .pdf पर अंत होने वाले PDF फ़ाइलें
- .docx पर अंत होने वाले Word फ़ाइलें
- .csv पर अंत होने वाले CSV फ़ाइलें
- .json पर अंत होने वाले JSON फ़ाइलें
- .txt पर अंत होने वाले टेक्स्ट फ़ाइलें
- .mp3, .mp4, .mpeg, .mpga, .m4a, .wav या .webm एक्सटेंशन वाले ऑडियो और वीडियो फ़ाइलें