نظرة عامة
مقسّمات النص عنصر أساسي في بناء تطبيقات النماذج اللغوية الكبيرة (LLM). دورها الأساسي هو تقسيم النصوص الطويلة إلى عدة مقاطع قصيرة، مما يسهل المهام اللاحقة مثل تضمين النصوص، التوليد المعزز بالاسترجاع (RAG)، وأنظمة الإجابة على الأسئلة.
في النماذج اللغوية الكبيرة، يُجرى تقسيم النص لأسباب رئيسية عدة:
- تحسين الكفاءة والدقة: من خلال تقسيم كتل النص الضخمة إلى أجزاء أصغر، يمكن تحسين دقة وملاءمة التضمينات التي ينتجها النموذج اللغوي الكبير. يساعد تقسيم النص إلى مقاطع في ضمان احتواء المحتوى المُضمن على ضوضاء قليلة مع الحفاظ على الصلة الدلالية. على سبيل المثال، في البحث الدلالي، عند فهرسة مجموعة من الوثائق، يحتوي كل مستند على معلومات قيمة حول موضوعات محددة. تطبيق استراتيجية تقسيم فعّالة يضمن أن تعكس نتائج البحث بدقة جوهر استعلام المستخدم.
- تحديد حجم نافذة السياق: عند استخدام نماذج مثل GPT-4، يوجد حد لعدد الرموز التي يمكن معالجتها. على سبيل المثال، لدى GPT-4 حد لحجم نافذة السياق يبلغ 32K رمز. على الرغم من أن هذا الحد ليس مشكلة عادةً، إلا أنه من المهم أخذ حجم المقاطع في الاعتبار منذ البداية. إذا كانت المقاطع النصية كبيرة جدًا، قد يُفقد جزء من المعلومات أو لا يُضمَّن كل المحتوى في السياق، مما قد يؤثر على أداء النموذج وإنتاجيته.
- معالجة المستندات الطويلة: على الرغم من أن المتجهات المُضمنة للمستندات الطويلة يمكن أن تلتقط السياق العام، إلا أنها قد تغفل تفاصيل مهمة تتعلق بمواضيع محددة، مما يؤدي إلى مخرجات إما غير دقيقة أو ناقصة. يتيح التقسيم مراقبة أفضل لعملية استخراج وتضمين المعلومات، مما يقلل من خطر فقدان المعلومات.
تقدم كاسيباس حاليًا عدة طرق لتقسيم النصوص، مما يتيح للمستخدمين تطبيق استراتيجيات معالجة مختلفة لمواقف النصوص المتنوعة.
مقسّم النص الافتراضي
تم تصميم مقسّم النص الافتراضي لتقسيم النص بكفاءة بناءً على عدد الرموز والبنية النصية. تشمل استراتيجية التقسيم الخاصة به:
- قراءة السطور والتعرف على الفقرات: يُقرأ النص سطرًا بسطر، مع استخدام الفراغات المتتالية لتحديد فواصل الفقرات بدقة. كما يتعرف بشكل حساس على نقاط الفصل الطبيعية من خلال العلامات، مما يضمن تقسيمًا منطقيًا ودقيقًا للنص.
- التعامل الخاص مع كتل الشيفرة: تُعامل كتل الشيفرة المحاطة برموز ``` بشكل منفصل. عدد السطور داخل كتلة الشيفرة يحدد ما إذا كان يمكن اعتبارها مقطعًا مستقلاً. تحافظ هذه الآلية على سلامة كتل الشيفرة مع الوقاية الفعالة من تجاوز أي مقطع نصي لحد الرموز.
- الحفاظ على سلامة الجمل: على مدار عملية التقسيم، يتم الالتزام الصارم بسلامة الجمل، مما يضمن عدم تقسيمها قط. تضمن هذه الخاصية أن يحتوي كل مقطع نصي على وحدة معلومات متكاملة. بغض النظر عن تعقيد النص، يتم تنفيذ التقسيم بدقة عند حدود الجمل، مما يتجنب بشكل فعال الغموض وفقدان المعلومات الناتجين عن تقسيم الجمل.
مقسِّم الأسئلة والأجوبة
يركز مقسِّم الأسئلة والأجوبة على التقسيم الدقيق للنصوص المُنسّقة على شكل سؤال وجواب ويقدم المزايا الأساسية التالية:
- التقسيم الدقيق لوحدات السؤال والجواب: يستخدم آلية مسح سطر بسطر للتعرف بشكل ذكي على بنية النصوص المُنسقة لسؤال وجواب. من خلال تحديد ما إذا كان كل سطر يبدأ بـ "Q:" أو "A:", يحدد بدقة حدود الأسئلة والأجوبة، مما يضمن تقسيم كل زوج سؤال وجواب بشكل كامل. يضمن ذلك استقلالية واكتمال كل وحدة سؤال وجواب، مما يوفر بيانات نظيفة للمعالجة والتحليل اللاحق للأسئلة والأجوبة.
- تنفيذ واضح ومنطقي: الشيفرة بسيطة وبديهية، مما يجعلها سهلة الفهم والصيانة. من خلال إدارة حالة زوج السؤال والجواب الحالي وعلم يوضح ما إذا كان يتم تجميع الإجابة، يتم التحكم بوضوح في عملية تقسيم النص، مما يضمن الربط الصحيح لكل وحدة سؤال وجواب.