شناسایی موجودیت‌های اسمی

شناسایی و برچسب‏ گذاری‌اسامی درون متن در علم پردازش زبان طبیعی نقش کلیدی و مهمی را ایفا می‌‏ کند. تحقیقات انجام شده نشان می‌دهد مهم‌ترین مطالب یک متن غالبا حول اسامی درون آن متن قرار دارد. از این رو شناسایی اسامی درون متن کمک شایانی در درک منظور و محتوای متن دارد. ابزار پیش رو یکی از بر‌ترین الگوریتم ‏های برچسب‌گذاری دنباله‏‌ای با نام Conditional Random Fields (CRF) را برای انجام این‌کار استفاده کرده است. دقت این ابزار بالغ بر ۸۰% است که در نمونه خود جزو بهترین ‏‌ها برای زبان فارسی محسوب می‌‏‌گردد. از جمله کاربردهای این ابزار می‌‏توان تگ‌گذاری اخبار رسانه ‏‌ها، تقویت موتورهای جستجو و سیستم ‏های مرجع ضمیر را نام برد. این ابزار قادر به شناسایی چندین نوع از موجودیت‏‌های اسمی به شرح زیر است:

  1. اسم رویداد
  2. اسم مکان
  3. اسم مکان جغرافیای
  4. اسم سازمان
  5. اسم شخص
  6. اسم محصول