در تهیه دادگان پیش رو از شیوه نامههای معتبر MUC و CoNLL استفاده شده است. برچسبهای مورد استفاده شامل PER برای اشخاص ، LOC برای مکان ، ORG برای سازمانها ، EVE برای رویدادها و اتفاقات، POG برای احزاب سیاسی و گروهکها و سلسلههای تاریخی و NAT برای ملیتها و اقوام استفاده شده است. برای جداسازی لغات از ابزار parsivar استفاده شده است. قبل از جداسازی کلمات، تمامی شکلکها و همچنین لینکها و آیدیها حذف شده و علامت هشتگ نیز برداشته شده است. سپس با استفاده از ابزار parsivar نرمالسازی انجام شده و بعد برخی علامات شامل _, + , [ , ] نیز حذف شدهاند که جزییات آن در فایل tokenizer قابل مشاهده است. سپس عامل انسانی با استفاده از نکات زیر عملیات جداسازی را بازبینی کرده است.
۱. صفات که داخل کلمات هستند برچسب موجودیت میگیرند مانند "خلیج همیشگی فارس" که کلمه همیشگی برچسب موجودیت میگیرد.
۲. شاخص های اول اسمها برچسب موجودیت نمیگیرند مثلا در "دکتر ظریف" نباید "دکتر" برچسب بگیرد. تنها در صورتی شاخص اول کلمات برچسب میگیرد که حذف آن شاخص موجب شود کلمات باقیمانده معنی اسامی خاص ندهند. مثلا در کلمه "امام زمان" باید کلمه "امام" هم برچسب PER بگیرد.
۳. سلسلههای تاریخی مانند اشکانیان یا قاجار برچسب POG میگیرند.
۴. در صورتی که ضمایر یا اضافات به کلمات اسامی خاص چسبیده بودند کل کلمه برچسب میخورد مثلا کلمه "ایرانیم" برچسب NAT میگیرد.
۵. تمامی هشتگها با فاصله جایگذاری شدهاند.
۶. اسامی دانشگاه و مدرسه و زندان ها به عنوان سازمان در نظر گرفته میشود.
۷. کلمههایی همچون یزدی، اصفهانی، کرمانی و... هم برچسب NAT میخورند.
۸. ادات جمع مانند "ها" و غیره جزو کلمه محسوب میشوند.
۹. رشته توییت ها یا آخرین جمله ناقص آنها حذف شده و یا اگر نقص زیادی داشتند اولین جمله توییت بعدی به آنها اضافه شده است.
۱۰. در بین توییتها برخی شامل اشعار هستند که همانند بقیه توییتها با آنها برخورد شده است.
۱۱. علایم سجاوندی هر یک به تنهایی به عنوان یک توکن در نظر گرفته میشوند مگر در حالاتی که چند توکن معنی یک شکلک بدهد. مثلا علامت :( به عنوان یک توکن در نظر گرفته شده است.
۱۲. کلمات انگلیسی اگر در آخر توییت باشند مثلا به عنوان هشتگ یا غیره پاک میشوند اما چنانچه در وسط متن باشند بدون تغییر باقی میمانند و چنانچه به موجودیت خاص اشاره کنند برچسب هم میگیرند.
۱۳. افعالی مانند "بوده است" یا "شده بود" به صورت کلمات جدا در نظر گرفته شدهاند.
۱۴. لفظهای "تر" و "ترین" هم جزیی از کلمه متبوع خودشان لحاظ شدهاند.