امروزه طیف وسیعی از کاربران فارسیزبان اعم از دانشجویان، محققین و تولیدکنندگان محتوا با اصلاحگرهای املایی سروکار دارند. اصلاحگر املایی چنانچه عملکرد مطلوبی ارائه دهد، هم فرایند نگارش را تسریع نموده و هم کیفیت متن نهایی را ارتقا میبخشد. بهرغم معرفی و توسعه چندین اصلاحگر املایی مختص به فارسی در سالهای اخیر، اطلاعات جامع و قابلاتکایی از کیفیت هریک و بهخصوص در قیاس با یکدیگر در دست نیست. این امر ما را برآن داشت تا با جمعآوری و تهیه دادگان ارزیابی استاندارد و متنوع، اصلاحگرهای املایی مشهور موجود در زبان فارسی را در بوته آزمایش قرار داده و نتایج را بهتفکیک و با شرح توضیحات لازم، بهصورت عمومی منتشر سازیم. امید داریم ماحصل این تلاش، هم کاربران را در گزینش اصلاحگر املایی دلخواه یاری رساند و هم توسعهدهندگان این دست محصولات را بیش از پیش، نسبت به کیفیت محصول خود و محصولات مشابه آگاهی بخشد.
بررسیهای صورتگرفته در راستای یافتن دادگان ارزیابی مناسب، آخرسر سه دادگان ذرهبین، PerSpellData و شرق را پیشروی ما نهاد. باتوجه به ضعفهای هریک از این دادگان که در ادامه بیان خواهد شد، دو مجموعه دادگان جدید نیز توسط تیم ما ساخته و بهکارگرفته شد. جزئیات آماری هریک از این دادگان، در جدول زیر قابل مشاهده است.
دادگان ذرهبین: مجموعهای از ۱۰۳۳ زوج عبارت صحیح و عبارت دارای خطا از سرچهای کاربران سامانه ذرهبین همراه اول
دادگان ارزیابی PerSpellData: مجموعهدادهی ارزیابی معرفی شده در مقالهی PerSpellData * شامل ۱۱۲۷ زوج عبارت صحیح و عبارت دارای خطا
PerSpellData: An Exhaustive Parallel Spell Dataset For Persian, 2021
دادگان شرق : شامل ۲۲۳ زوج عبارت صحیح و عبارت دارای خطا تهیه شده توسط دکتر ممتازی
مجموعه دادگان نویسه : یکی از روشهای نوین در ساخت زوج دادگان املایی، روش خودکار و مبتنی بر اعمال نویز است. بر اساس این رویکرد، دادگان نویسه تولید شده و در این ارزیابی نیز مورد استفاده قرار گرفته است. در ساخت این دادگان کوشیدهایم، انواع و اقسام خطاهای محتمل املایی را پوشش دهیم. علاوه بر این، عوامل اثرگذاری همچون جایگاه حروف در صفحه کلیدهای فارسی، حروف همآوا، حروف همشکل و غلطهای مصطلح را نیز تا حد امکان در ساخت دادگان دخیل نمودهایم. نکته پایانی هم آنکه ماده خام این دادگان، آخرین خبرهای خزششده از صفحات خبری فارسی بوده تا احتمال همپوشانی دادگان ارزیابی با دادگان آموزش اصلاحگرهای املایی به حداقل برسد. این دادگان در سه دسته تهیه شدهاست:
۱. دادگانی از جملات متنهای خبری
۲. دادگان عنوان خبرها
۳. دادگان عنوان خبر - ۵۳۹ دادگان کوچکتری که از ۵۳۹ رکورد اول دادگان عنوان خبرهای درستست تعریف شده است تا ارزیابی آن دسته از اصلاحگرهای املایی که نیاز به اعمال دستی دارند تسهیل شود.
اطلاعات کلی مجموعه دادگان یاد شده:
نام دادگان | تعداد جملهها | میانگین تعداد کلمات در جمله | تعداد خطا | میانگین خطا در جمله | دانلود |
---|---|---|---|---|---|
دادگان ذرهبین | ۱۰۳۳ | ۳.۵۴ | ۱۴۰۷ | ۱.۳۶ | لینک |
دادگان PerSpellData | ۱۱۲۷ | ۱۲.۹ | ۱۱۵۷ | ۱.۰۲ | لینک |
دادگان شرق | ۲۲۳ | ۸.۵۱ | ۲۲۲ | ۰.۹۹ | لینک |
دادگان نویسه - متن خبر | ۴۵۱ | ۲۴.۷۶ | ۲۳۰۵ | ۵.۱۱ | لینک گیتهاب |
دادگان نویسه - عنوان خبر - ۵۳۹ | ۵۳۹ | ۱۰.۰۲ | ۵۱۰ | ۰.۹۴ | لینک گیتهاب |
دادگان نویسه - عنوان خبر | ۱۹۴۲۱ | ۱۰.۲۱ | ۱۸۳۶۸ | ۰.۹۴ | لینک گیتهاب |
ذرهبین: این دادگان منحصر به جستوجوهای کاربران بوده و بنابراین برای فرمهای دیگری از متن مانند متون بلند محک مناسبی بهشمار نمیرود.
دادگان شرق: حجم اندک این دادگان، نقطهضعف اصلی آن محسوب میشود.
پراسپلدیتا-تستست: این دادگان، اگرچه غلطهای مصطلح را مدنظر قرار داده اما از تنوع بسیار کمی برخوردار است. برای مثال در ۵ رکورد اول این دادگان خطای یکتا وجود دارد.
ردیف | جمله |
---|---|
۱ | مرادی با اشاره به آبات قرآن که خداوند میفرماید |
۲ | قرآن راه سعادت آبات قرآن و احادیث مرتبط آیههای قرآنی و فرهنگ مسلمانی و سعادت در خانه بسیار قرآن خوانده شود |
۳ | و حتی آبات قرآن را هم میدونستم |
۴ | همان بیتی که آبات نور الهی در آن نازل گردیده |
۵ | و خداوند تعلل و کوتاهی و سهل انگاری در این زمینه را طبق صریح آبات قرآن و متون دینی صحیح ذیربط از ما نخواهد بخشید |
مرحلهی بعدی معرفی معیارهایی برای سنجش است. معمولا نرخ تشخیص خطا و نرخ اصلاح واژهها میتوانند مهمترین معیار باشند اما نرخ واژههای صحیحی که غلط تشخیص دادهمیشوند نیز از اهمیت بالایی برخوردار است. به همین دلیل معیار precision با توجه به مسئله تعریف میشود. نحوهی محاسبه معیارها در فایل Persian_Spell_checkers_comparison.ipynb قابل مشاهده است. معیارها:
نرخ کشف خطا (Recall)
نرخ صحت کشف خطاها(Precision)
نرخ اصلاح واژههای خطا
نرخ تخریب واژههای صحیح
اصلاحگر املایی گوگل در پیشنهادهای google doc برای جایگزینی واژهها دیده میشود. متن بهدست آمده از اعمال دستی این تغییرات به عنوان خروجی اصلاحگر املایی گوگل درنظر گرفته شد. چون فرایند استفاده از این اصلاحگر زمانبر است تنها برای ارزیابی دادگانهایی با حجم کوچک استفاده میشود.
ویراستمن برای ارزیابی تنها به کمک افزونهای در MS Office Word در دسترس است و با اعمال دستی میتوان کلمات را تصحیح کرد. به دلیل این محدودیت ارزیابی فقط روی مجموعهدادههای کوچک امکانپذیر است. ویراستمن ممکن است برای هر کلمهای که اشتباه تشخیص دهد چندین پیشنهاد ارائه دهد که در این ارزیابی اولین گزینه انتخاب میشود بدون توجه به این که کدامیک از پیشنهادها میتواند پیشنهاد مناسبتری باشد.
پاکنویس: برای ارزیابی از API پاکنویس که مبتنی بر توکن است استفاده کردیم که توکن توسط تیم پاکنویس در اختیار شرکت دادماتک قرارگرفته است.
نویسه دمو اصلاحگر نویسه نسخهی ۱ و ۲ در این آدرس و در دو تب جدا قرار دارد.
یکی از چالشهای ارزیابی اصلاحگر املایی برای متن فارسی، نوشتهشدن واژهها به اشکال مختلف است که این تنوع در استفاده یا عدم استفاده از نیمفاصله و فاصله یا استفاده از برخی کاراکترهای خاص مثل همزه و تنوین پیشمیآید. اما چون اشکالاتی حتی در دیتای صحیح دیده میشود و تشخیص درستی آن گاهی تنها به کمک زبانشناس ممکن است، تا حد امکان خطاهای مربوط به این تفاوت برای سامانهها درنظر گرفته نمیشود.
برخی از اصلاحگرهای املایی مانند ویراستمن، اغلب به ازای هر واژه چندین واژه کاندیدا پیشنهاد میدهند. در این ارزیابی، تنها نخستین پیشنهاد هر سامانه، به عنوان واژه گزارش شده توسط سامانه برای هر واژه لحاظ شده و سایر پیشنهادها حتی در صورت صحت، نادیده گرفته شدهاند.
الگوریتم | نرخ کشف کلمات نادرست | نرخ تصحیح کلمات خطا | نرخ تخریب کلمات صحیح | نرخ صحت کشف خطاها |
---|---|---|---|---|
گوگل | ۰.۹۳۱۸ | ۰.۹۱۴ | ۰.۰۰۲۶ | ۰.۹۹۶۲ |
نویسه۲ | ۰.۸۹۵۵ | ۰.۸۱۳۱ | ۰.۰۰۱۶ | ۰.۹۹۷۶ |
پاکنویس | ۰.۸۷۷ | ۰.۷۸۸۹ | ۰.۰۳۱۷ | ۰.۹۵۵۸ |
ویراستمن | ۰.۸۳۴۲ | ۰.۸۰۲۸ | ۰.۰۰۰۶ | ۰.۹۹۹۱ |
الگوریتم | نرخ کشف کلمات نادرست | نرخ تصحیح کلمات خطا | نرخ تخریب کلمات صحیح | نرخ صحت کشف خطاها |
---|---|---|---|---|
پاکنویس | ۰.۹۴۵۵ | ۰.۸۲۴۵ | ۰.۰۱۶ | ۰.۸۳۹۶ |
نویسه۲ | ۰.۹۱۹۶ | ۰.۸۳۵۸ | ۰.۰۰۳۴ | ۰.۹۵۹۴ |
ویراستمن | ۰.۷۹۵۲ | ۰.۶۵۰۸ | ۰.۰۰۰۸ | ۰.۹۸۹۲ |
الگوریتم | نرخ کشف کلمات نادرست | نرخ تصحیح کلمات خطا | نرخ تخریب کلمات صحیح | نرخ صحت کشف خطاها |
---|---|---|---|---|
نویسه۲ | ۰.۸۲۴۳ | ۰.۶۴۸۶ | ۰.۰۰۳۸ | ۰.۹۶۸۳ |
پاکنویس | ۰.۷۵۶۸ | ۰.۵۸۱۱ | ۰.۰۲۹۵ | ۰.۷۸۵ |
ویراستمن | ۰.۶۰۳۶ | ۰.۴۸۲ | ۰.۰ | ۱.۰ |
الگوریتم | نرخ کشف کلمات نادرست | نرخ تصحیح کلمات خطا | نرخ تخریب کلمات صحیح | نرخ صحت کشف خطاها |
---|---|---|---|---|
نویسه۲ | ۰.۸۳۸۶ | ۰.۷۳۶۷ | ۰.۰۰۳۷ | ۰.۹۸۳۲ |
پاکنویس | ۰.۷۹۳۱ | ۰.۶۶۰۷ | ۰.۰۲۱۷ | ۰.۹۰۶۳ |
الگوریتم | نرخ کشف کلمات نادرست | نرخ تصحیح کلمات خطا | نرخ تخریب کلمات صحیح | نرخ صحت کشف خطاها |
---|---|---|---|---|
نویسه۲ | ۰.۸۳۱۴ | ۰.۷۲۱۶ | ۰.۰۰۳ | ۰.۹۶۸ |
پاکنویس | ۰.۷۸۴۳ | ۰.۶۷۰۶ | ۰.۲۲۸ | ۰.۷۹۲۱ |
گوگل | ۰.۷۳۹۲ | ۰.۷۰۲ | ۰.۰۰۴۵ | ۰.۹۴۴۹ |
ویراستمن | ۰.۶ | ۰.۵ | ۰.۰۰۳۲ | ۰.۹۵۳۳ |
الگوریتم | نرخ کشف کلمات نادرست | نرخ تصحیح کلمات خطا | نرخ تخریب کلمات صحیح | نرخ صحت کشف خطاها |
---|---|---|---|---|
نویسه۲ | ۰.۸۲۸ | ۰.۷۱۰۲ | ۰.۰۰۸۶ | ۰.۹۰۸۳ |
پاکنویس | ۰.۷۸۰۲ | ۰.۶۴۵۸ | ۰.۰۲۳۵ | ۰.۷۷۷ |