أتموتك التقنية

مدونة وموقع أتموتك التقنية - لجميع أخبار عالم التقنية والرقمة أول بأول

recent

آخر الأخبار

recent
random
جاري التحميل ...

أساسيات و تطبيقات عملية للذكاء الصناعي و معالجة اللغة الطبيعية باستخدام مكتبة NLTK الجزء الأول

ستكون هذه المقالة الجزء الأول التي سنقوم بها بشرح لبعض عمليات معالجة اللغة الطبيعية و سنقوم بعمل تطبيقات عملية باستخدام لغة البرمجة Python. تعتبر عملية معالجة اللغة الطبيعية مجال من مجالات علوم الحاسب الآلي و الذكاء الصناعي تختص بعملية التفاعل بين الحاسب الآلي و لغة الإنسان أو اللغة الطبيعية. أصبحت عملية معالجة اللغة الطبيعية جزء من أهم أجزاء الأنظمة الحديثة بحيث زاد استخدامها في مجالات محركات البحث و عمليات معالجة البيانات و مجالات كثيرة أخرى. الآلة يمكنها التعامل مع هياكل البيانات بشكل مثل قواعد البيانات و الجداول و لكن عند حاجتنا للتعامل مع النصوص فإننا نجد صعوبة في ذلك. إن الهدف الأساسي من تقنية معالجة اللغة هو تطوير خوارزميات تمكن للحاسب الآلي من فهم الإنسان و مساعدته، يعتبر سياق الكلام أكثر الأشياء أهمية في فهم الجمل بشكل جيد و لذلك يحاول الباحثون بمجال معالجة اللغة البدء بتطوير تقنيات مختلفة باستخدام لغة الآلة تهدف إلى بناء منشورات مختلفة تقوم بتجميع كميات كبيرة من النصوص و تدريبها لمعالجة مهام مختلفة مثل تصنيف الكلام و تحليل الجمل أو نمذجة الموضوعات.
أساسيات و تطبيقات عملية للذكاء الصناعي و معالجة اللغة الطبيعية باستخدام مكتبة NLTK الجزء الأول

1- تثبيت مكتبة NLTK:-

لتثبيت المكتبة يجب أن يتوفر على جهازك برنامج Python و الذي يمكنك تحميله بشكل منفصل و تحميل المكتبات التي تحتاجها لاحقاً و لكن الخيار الأفضل هو تثبيت حزمة Anaconda و التي تحتوي على جميع المكاتب التي تحتاجها للعمل على لغة البرمجة Python
- لثبيت المكتبة نقوم باستخدام موجه الأوامر الخاص ب Anaconda 
تثبيت مكتبة NLTK
- ثم نقوم بتشغيله باستخدام run as administrator و نستخدم الأمر التالي:
- ثم نقوم بالإنتظار حتى انتهاء التثبيت نذهب إلى برنامج البايثون و نكتب الكود التالي و نقوم بالتشغيل run
- نقوم من هنا بتثبيت كل التي نحتاج استخدامه في المكتبة من مجموعات و نماذج و حزم و يفضل تثبيت جميع المحتويات لكي لا تحتاج للعودة و تثبيتها لاحقاً عندما تحتاج لها. 
- نحتاج بالإضافة إلى ذلك تنزيل حزمة أسمها gensim و الذي تعتبر مكتبة للنمذجة اللفظية الدلالية التي تعتبر مكتبة يمكن استخدامها في كثير من التطبيقات و يمكن تثبيتها باستخدام الأمر التالي في موجه الأوامر Anaconda command prompt :-
- و يجب استدعاء حزمة أخرى تسمى pattern ليعمل gensin بشكل جيد و يمكن تثبيته استخدام الأمر التالي في موجه الأوامر Anaconda command prompt :-
- مكنكم التعرف على مزيد من المعلومات عن مكتبة NLTK بزيارة هذا الرابط
- و يمكنكم التعرف على على المزيد حول مكتبة gensim بزيارة هذا الرابط

2- تمييز بيانات النصوص:

من خلال تمييز بيانات النصوص يكون المدخلات جمل و الناتج سوف يكون شيء يسمى رمز أو token بحيث يتم تقسم الجمل إلى أجزاء صغيرة لإستخدامها في المستقبل بحيث يتم استخدام التقسيم في التحليل و يتم ذلك من خلال عملية تقسيم النصوص إلى مجموعة من الأجزاء مثل الكلمات أو الجمل و تسمى هذه الأجزاء tokens ويمكننا أن نحدد طريقتنا الخاصة في تقسيم النص. و التالي مثال لكيفية استخدام مكتبة NLTK في عملية التقسيم:-
- في البداية يجب علينا فتح مشروع جديد في البايثون و استدعاء المكتبات التالية
-ثم نقوم بتعريف مدخلات النص
 - ثم نقوم بتقسيم النص المدخل باستخدام الجمل إلى token
- و يكون التاتج عند تشغيل الكود كالتالي حيث تم تقسيم النص إلى جملتين
- كما يمكنك أيضاً تقسيم النص المدخل  إلى كلمات  
- و يكون الناتج عند تشغيل الكود حيث تم تقسيم النص إلى كلمات
- كما يمكنك تقسم النص المدخل باستخدام علامات الترقيم
- و يكون الناتج عند تشغيل الكود حيث تم تقسيم النص حسب علامات الترقيم كمثال كلمة " it's" تم تقسيمها إلى 'it' ، "'" ، 's'

إلى هنا ينتهي الجزء الأول من المقالة تابعونا في الأجزاء القادمة

عن الكاتب

atmotech

التعليقات


جميع الحقوق محفوظة

أتموتك التقنية