أهلا وسهلا بكم في مدونتي

في هذه المدونة سأقوم بعرض ما قمت به خلال مرحلة الدكتوراه في مجال المعالجة الآلية للغة العربية
لقد عملت ضمن مجموعة معالجة اللغة وفهمها في قسم التعرف على الأنماط في جامعة فريدريش ألكساندر إرلانغن- نورنبرغ في ألمانيا وذلك تحت إشراف البروفسور إلمر نوت
إن مجال بحثي الأساسي هو المعالجة الآلية للنصوص العربية والتحويل من نص إلى الكتابة الصوتية الموافقة أي معرفة كيف يُنطَق أي نص باللغة العربية آليا بواسطة الحاسب من خلال معرفة محتواه من الوحدات اللغوية المتنوعة
قمت بتطوير برنامج بلغة الماتلاب يقوم بما يلي:
  1. التحويل من نص إلى فونيمات والفونيم هو أصغر وحدة صوتية في اللغة ينشأ عن اختلافها اختلاف في المعنى فمثلا ضرب الضاد فونيم بحيث لو استبدلناه بحرف آخر مثل الحاء نحصل على كلمة أخرى
  2. التحويل من فونيمات إلى ألوفونات والألفون هو الأشكال الممكنة لنطق الفونيم ضمن سياقات مختلفة ولا يؤثر التحويل بين الألوفونات الموافقة لفونيم معين على المعنى وإنما على اللفظ. مثال على ذلك اللام في كلمة الله هي ألوفون مفخم عن اللام المرققة
  3. التحويل من فونيمات إلى مقاطع صوتية والمقطع الصوتي يتكون من صائت وصامت على الأقل. مثال كلمة السَّلَام تتكون من 3 مقاطع وهي ءَس سَ لَام. الصائت هو كل صوت لا يرافقه اضطراب أو تغير في مجرى الهواء عند نطقه مثل الفتحة الضمة الكسرة ألف المد واو المد ياء المد والصامت يرافقه تغير في مجرى الهواء مثل ب ت ث ...
  4. التحويل من المقاطع إلى ما يدعى ب allosyllables أي كل الأشكال الممكنة للفظ نفس المقطع ضمن سياقات مختلفة
  5. التحويل من فونيمات إلى ديفونات والديفون هو وحدة صوتية تنشأ من اجتماع فونيمين متتاليين وتبدأ من منتصف الأول وتنتهي في منتصف الثاني
 هذه صورة عن برنامج محلل النصوص الذي طورته



هناك عدة تطبيقات مبنية على هذا البحث قمت بها وهي
  1. عمل أول دراسة آلية إحصائية متكاملة عن اللغة العربية كمحتوى صوتي وفي هذه الدراسة قمت بمايلي:
         * استخلاص العدد الدقيق لكل وحدة لغوية على مستوى اللغة العربية ككل وحصر هذه الوحدات آليا
     
 الوحدة اللغوية فونيم ألوفون مقطع المقطع ضمن السياق ديفون
 العدد 36 934,921  10,628  1,248
     
       عينة الدراسة هي نصوص مشكولة مؤلفة من 5,348,714  كلمة مأخوذة من اللغة العربية الكلاسيكية
      والقياسية الحديثة
     
     * تم استخلاص المعادلة الناظمة لترتيب الوحدات اللغوية حسب ترددها في اللغة أي المتغير س يعبر عن تسلسل الفونيمات مثلا حسب ترددها في اللغة من الأعلى إلى الأدنى والمتغير ع يعبر عن هذا التردد
 المعادلة الناتجة على جميع المستويات هي معادلة أسية من الدرجة الثانية
    * استخلاص معلومات إحصائية مهمة مثل نسبة الصوائت والصوامت في اللغة العربية والنسبة المئوية للصوامت حسب طريقة ومكان نطقها وكذلك احتمال الانتقال من فونيم إلى آخر والنسبة المئوية للمقاطع حسب نوعها وغيرها من المعلومات الاحصائية المهمة


2- التطبيق الثاني للتحويل من نص إلى وحدات صوتية هو تشكيل مكانز حسب المحتوى الصوتي المطلوب وبأقل عدد ممكن من الكلمات مثلا يمكن بشكل آلي تشكيل مكنز يضم جميع الأصوات في اللغة العربية أو مكنز يضم جميع المقاطع الصوتية للقرآن الكريم وغيرها من المكانز المهمة في مجال المعالجة الآلية للغة العربية

3- سأشرح الآن التطبيق الثالث بشيء من التفصيل وهو تطوير برنامج الخليل لتحليل الشعر عروضيا
ويجب توضيح بعض النقاط الهامة هنا:
 - المرحلة الأولى في تطوير هذا البرنامج هي التحويل من نص شعري إلى الأصوات الموافقة أي كيف يلفظ هذا النص
- يجب ان تكون عملية التحويل بدقة 100% لكي نبدأ بالمرحلة التالية وهي استخلاص البحر والتفعيلات
- بالاعتماد على البرنامج الأول لتحليل النصوص والذي يعطي دقة أعلى من 99% وتم اختباره على ذخيرة لغوية تشمل أكثر من خمسة ملايين كلمة يمكن تنفيذ الخطوة الأولى من برنامج الخليل للتحليل العروضي بشكل موثوق.
-يقوم برنامج الخليل بمايلي:

• الكتابة المقطعية للنص الشعري أي التحويل من النص الكتابي إلى المقاطع الصوتية الموافقة
• الكتابة العروضية المتعارف عليها بالحركات والسكنات
• الكتابة الرقمية حسب المنهج الرقمي مع التعديل البسيط فبدلا من الهاء استخدمت الصفر 0 وبدلا من كتابة عشرة استعضت عنها ب -10- وهكذا
• استخراج البحر الموافق لكل شطر ولكل بيت من النص الشعري وكذلك التفعيلات الموافقة للبحر
• البرنامج يعتمد فقط بحور الخليل بن أحمد الفراهيدي وما استدركه الأخفش
• البحور المشمولة هي 29 بحرا
1الطويل 2المديد 3الهزج 4المضارع 5المقتضب 6المجتث 7البسيط 8الكامل 9الرجز 10الرمل 11السريع 12الخفيف 13المنسرح 14الوافر 15المتقارب 16المتدارك
17مجزوء البسيط 18مجزوء الكامل 19مجزوء الرجز 20منهوك الرجز 21مجزوء الرمل 22مجزوء الخفيف 23منهوك المنسرح 24مجزوء الوافر 25مجزوء المتقارب 26مجزوء المتدارك 27مشطور المديد 28مشطور الرجز 29مشطور السريع
• عند تطوير البرنامج
لم نراعي الخزم أي زيادة حرف إلى أربعة حروف في أول الصدر وأحيانا في أول العجز
لم نعتمد القطع في العروض بدون تصريع لعدم اعتمادها من قبل الخليل
لم نعتمد التشعيث في العروض بدون تصريع لنفس السبب

هنا صورة عن النسخة الكاملة من برنامج الخليل للتحليل العروضي



اعتمدت أربع طرق لمعرفة البحر
1. الطريقة التقليدية وفيها قمت بحصر جميع سلاسل التفعيلات الممكنة للشطر والبيت وهذه الطريقة تستغرق وقتا أطول للمعالجة حيث يتم مقارنة الحركات والسكنات للنص الشعري المطلوب معرفة بحره مع أكثر من 45000 سلسلة مخزنة على مستوى البيت
2. الطرق المتبقية تعتمد على الشبكات العصبونية الاصطناعية لمعرفة أقرب بحر ممكن لكل شطر وكل بيت وهنا في هذه الطرق لا نحصل على التفعيلات وإنما فقط على اسم البحر وهي طرق سريعة في المعالجة

يجب الاشارة إلى أن التعرف الآلي على بحور الشعر هو دراسة علمية قمت بها ومشروحة بالتفصيل في الفصل الأخير من أطروحة الدكتوراه
في هذه الدراسة قمت بمقارنة برنامجي مع جميع البرامج والمواقع والأبحاث المنشورة بهذا الخصوص وهو يمتاز عنها بما يلي:
- هي تحتاج للتشكيل الكامل الصحيح مع كتابة السكون بينما برنامج الخليل لايحتاج لكتابة السكون
- هي لاتتعامل مع المشطور من الشعر بينما برنامج الخليل يتعامل معه
- البرامج والمواقع ذات الصلة غير موثوقة بشكل كبير عند تحوبل الألف إلى اللفظ الموافق بينما برنامج الخليل مبني على درسة علمية منشورة للتحويل من نص إلى لفظ

لقد استغرق تطوير وتحسين البرنامج أكثر من سنتي عمل وتم اختباره على 3378 بيتا من الشعر تشمل جميع بحور الشعر العربي وأعطى دقة >= 99,80 على مستوى البيت و >= 99,92 على مستوى الشطر
وهي أعلى دقة تم الوصول إليها في هذا المجال

من أجل الحفاظ على حقوق الملكية ولحماية البرنامج يمنع نشر البرنامج أو أي نسخة منه أو أي مقالة عنه دون الاشارة إلى صاحب العمل الأصلي Fadi Sindran

قمت بعمل نسخة تجريبية من برنامج الخليل تتعامل فقط مع خمسة بحور وهي
الطويل البسيط الكامل الوافر الرمل



للحصول على نتائج جيدة يرجى مراعاة
تشكيل الكلمات بشكل كامل وصحيح
لاداعي لكتابة السكون

أمثلة:
دَعِ الأَيَّامَ تَفعَلُ مَا تَشَاءُ
مِكَرٍّ مِفَرٍّ مُقبِلٍ مُدبِرٍ مَعًا
اللَّهُ لِلحِدثَانِ كَيفَ تَكِيدُ
دَمُكَ الطَّرِيقُ وَمَايَزَالُ بَعِيدًا
بِلَادِي وَإِن جَارَت عَلَيَّ عَزِيزَةٌ


تنصيب النسخة التجريبية يستغرق بعض الوقت بسبب الحاجة لتنزيل
Matlab runtime
يتم فتح الملف بأي برنامج لفك ضغط الملفات



وهنا شرح مبسط عن طريقة استخدام البرنامج



أنتظر ردودكم وأرجو لكم كل الفائدة
فادي سندران
fadisindran@gmail.com

تعليقات

إرسال تعليق

المشاركات الشائعة من هذه المدونة

الكتابة الصوتية للنصوص العربية المشكولة