Skip to content

Latest commit

 

History

History
47 lines (46 loc) · 4.31 KB

README.md

File metadata and controls

47 lines (46 loc) · 4.31 KB

تعیین اسامی خاص در توییتر فارسی

در تهیه دادگان پیش رو از شیوه نامه‌های معتبر MUC و CoNLL استفاده شده است. برچسب‌های مورد استفاده شامل PER برای اشخاص ، LOC برای مکان ، ORG برای سازمان‌ها ، EVE برای رویداد‌ها و اتفاقات، POG برای احزاب سیاسی و گروهک‌ها و سلسله‌های تاریخی و NAT برای ملیت‌ها و اقوام استفاده شده است. برای جداسازی لغات از ابزار parsivar استفاده شده است. قبل از جداسازی کلمات، تمامی شکلک‌ها و همچنین لینک‌ها و آیدی‌ها حذف شده و علامت هشتگ نیز برداشته شده است. سپس با استفاده از ابزار parsivar نرمال‌سازی انجام شده و بعد برخی علامات شامل _, + , [ , ] نیز حذف شده‌اند که جزییات آن در فایل tokenizer قابل مشاهده است. سپس عامل انسانی با استفاده از نکات زیر عملیات جداسازی را بازبینی کرده است.

۱. صفات که داخل کلمات هستند برچسب موجودیت می‌گیرند مانند "خلیج همیشگی فارس" که کلمه همیشگی برچسب موجودیت می‌گیرد.

۲. شاخص های اول اسم‌ها برچسب موجودیت نمی‌گیرند مثلا در "دکتر ظریف" نباید "دکتر" برچسب بگیرد. تنها در صورتی شاخص اول کلمات برچسب می‌گیرد که حذف آن شاخص موجب شود کلمات باقی‌مانده معنی اسامی خاص ندهند. مثلا در کلمه "امام زمان" باید کلمه "امام" هم برچسب PER بگیرد.

۳. سلسله‌های تاریخی مانند اشکانیان یا قاجار برچسب POG می‌گیرند.

۴. در صورتی که ضمایر یا اضافات به کلمات اسامی خاص چسبیده بودند کل کلمه برچسب می‌خورد مثلا کلمه "ایرانیم" برچسب NAT می‌گیرد.

۵. تمامی هشتگ‌ها با فاصله جایگذاری شده‌اند.

۶. اسامی دانشگاه و مدرسه و زندان ها به عنوان سازمان در نظر گرفته می‌شود.

۷. کلمه‌هایی همچون یزدی، اصفهانی، کرمانی و... هم برچسب NAT می‌خورند.

۸. ادات جمع مانند "ها" و غیره جزو کلمه محسوب می‌شوند.

۹. رشته توییت ها یا آخرین جمله ناقص آنها حذف شده و یا اگر نقص زیادی داشتند اولین جمله توییت بعدی به آنها اضافه شده است.

۱۰. در بین توییت‌ها برخی شامل اشعار هستند که همانند بقیه توییت‌ها با آن‌ها برخورد شده است.

۱۱. علایم سجاوندی هر یک به تنهایی به عنوان یک توکن در نظر گرفته می‌شوند مگر در حالاتی که چند توکن معنی یک شکلک بدهد. مثلا علامت :( به عنوان یک توکن در نظر گرفته شده است.

۱۲. کلمات انگلیسی اگر در آخر توییت باشند مثلا به عنوان هشتگ یا غیره پاک می‌شوند اما چنانچه در وسط متن باشند بدون تغییر باقی می‌مانند و چنانچه به موجودیت خاص اشاره کنند برچسب هم می‌گیرند.

۱۳. افعالی مانند "بوده است" یا "شده بود" به صورت کلمات جدا در نظر گرفته شده‌اند.

۱۴. لفظ‌های "تر" و "ترین" هم جزیی از کلمه متبوع خودشان لحاظ شده‌اند.