کلیدواژه ماشینی

شناسایی خودکار کلیدواژگان متون یکی از پرکاربردترین شاخه‌های علم پردازش زبان طبیعی حال حاضر محسوب می‌گردد. کلمات کلیدی یک متن دربرگیرنده موضوعات اصلی آن بوده و از این لحاظ ارزش بسیار بالایی برای محققین و دانشمندان داراست. ما در این ابزار یک روش جامع و کامل را برای انجام این کار به کار برده‌ایم که ترکیبی از روش‌های مبتنی بر ناظر و بدون ناظر است. در این روش ابتدا لیست کلیدواژه‌های کاندید استخراج گردیده و پس از تعیین ویژگی‌های هریک از آنها، کلیدواژه‌ها بر اساس یک روش رنکینگ بسیار قوی مرتب می‌گردند. این روش رنکینگ با استفاده از نرمال‌سازی ویژگی‌ها و الگوریتم ژنتیک نتایج را تا دو برابر بهتر کرده است. نتایج آزمایش‌های ما بر روی پیکره‌ای از متون خبری فارسی میزان 28.8% معیار f را نشان می‌دهد.