تعداد نشریات | 418 |
تعداد شمارهها | 10,005 |
تعداد مقالات | 83,629 |
تعداد مشاهده مقاله | 78,550,001 |
تعداد دریافت فایل اصل مقاله | 55,683,728 |
ارائه ی یک مدل جهت دستهبندی متون فارسی با استفاده از ترکیب روش های دسته بندی | ||
مهندسی مخابرات جنوب | ||
دوره 10، شماره 38، دی 1399، صفحه 61-72 اصل مقاله (1.57 M) | ||
نوع مقاله: مقاله پژوهشی | ||
نویسندگان | ||
ایمان جمالی1؛ سید جواد میرعابدینی2؛ علی هارون آبادی3 | ||
1گروه کامپیوتر، دانشگاه آزاد اسلامی واحد علوم و تحقیقات بوشهر، بوشهر، ایران | ||
2عضو هیئت علمی دانشگاه آزاد اسلامی واحد تهران | ||
3عضو هیئت علمی دانشگاه آزاد اسلامی، واحد تهران مرکز، گروه مهندسی کامپیوتر | ||
چکیده | ||
برای دستهبندی متن از تکنیکهای استخراج اطلاعات، پردازش زبان طبیعی و یادگیری ماشین به طور وسیع استفاده می شود به طور کلی هدف یک دسته بند متون، دستهبندی اسناد در قالب تعداد معینی از دستههای از پیش تعیین شده میباشد. هر سند می تواند در یک، چند و یا هیچ دسته ای قرار بگیرد. در مورد هر سند به این سؤال پاسخ داده خواهد شد که این سند در کدام یک از دستهها قرار می گیرد. این موضوع می تواند در قالب یک یادگیری خودکار قرار گیرد تا با استفاده از آن بتوان هر سند را به طور خودکار به دستهای نسبت داد . در این مقاله، بعد از انتخاب مجموعه داده و پاکسازی متون به کمک روش نرمال شده فرکانس کلمه- معکوس فرکانس سند (norm TF-IDF) به ویژگیها وزن داده میشود و در طی دو مرحله ویژگیها با استفاده از روشهای فرکانس سند (DF) و مربع چی(SChi) انتخاب میشوند و بعد با استفاده از روش تحلیل مؤلفه اصلی (PCA) ابعاد ویژگیها کاهش داده میشود و در مرحله بعد با استفاده از ترکیب 21 ماشین بردار پشتیبان (SVM) به پیاده سازی مدل پیشنهادی میپردازیم و در نهایت صحت مدل را با روش اعتبار سنجی 10 مرحلهای ارزیابی میکنیم نتایج تجربی نشان میدهد که این مدل میتواند عمل دستهبندی متون را برای هفت دسته با صحت 91.86 انجام دهد که نسبت به کارهای پیشین انجام گرفته صحت بالاتری دارد. | ||
کلیدواژهها | ||
ماشین بردار پشتیبان؛ دسته بندی متون؛ انتخاب ویژگی؛ تحلیل مولفه اصلی | ||
مراجع | ||
]1[ ایمان. ابراهیمی، و همکاران، "رده بندی متون فارسی با استفاده از ماشین بردار پشتیبان مبتنی بر روشهای انتخاب ویژگی PCA و الگوریتم ژنتیک،" کنفرانس ملی برق و الکترونیک، گناباد، 29-28 مرداد1394. ]2[ محمدحسین. سرایی، و آذر. شاهقلیان، "کاوش متون فارسی بر مبنای روش دسته بندی،" نشریه علمی پژوهشی انجمن کامپیوتر ایران، جلد 8 ، شماره 1 و3 ، صفحه 13-8، 1389. ]3[ محمدحسین. الهیمنش، و بهروز. مینایی، "ردهبندی متون فارسی با استفاده از روشهای آماری،" ارائه شده در سمینار فناوریهای پردازش هوشمند متون اسلامی، 29-26 فروردین 1390، صفحه 95-90. ]4[ الهام. مهدی پور، و همکاران، "سیستم خلاصه ساز خودکار متن فارسی با استفاده از الگوریتم ترکیبی SA-GA،" همایش ملی مهندسی کامپیوتر و توسعه پایدار با محوریت شبکه های کامپیوتری، مدل سازی و امنیت سیستم ها، مشهد، موسسه آموزش عالی خاوران، 28 آذر1392. ]5[ سیدمحسن. هاشمی، و همکاران، "استفاده از تکنیک های متن کاوی برای دسته بندی متون فارسی با مجموعه داده همشهری،" کنفرانس بین المللی مهندسی، هنر و محیط زیست، کشور لهستان، 21 آذر1393. ]6[ مینا. ملکی، و احمد. عبدالله زاده بارفروش، ":TFCRF روش جدید وزن دهی ویژگی مبتنی بر اطلاعات کلاس در حوزه طبقه بندی مستندات،" دوازدهمین کنفرانس سالانه انجمن کامپیوتر ایران، تهران، دانشگاه شهید بهشتی، 3-1 اسفند1385. ]7[ سعید. جلیلی، و مهدی. بیطرفان، "افزایش کارایی دسته بندی متون براساس بهبود روش انتخاب خصیصه،" نشریه دانشکده فنی، جلد 40، شماره 3، صفحه 328-313، 1385. ]8[ مهدی. برفامی، و سهیل. فاطری، "استفاده از ترکیب شبکه های عصبی جهت دسته بندی متون فارسی مبتنی بر الگوریتم های PCA , KNN, GA برای انتخاب ویژگی،" اولین کنفرانس رویکرد های نوین در مهندسی کامپیوتر و بازیابی اطلاعات ایران، دانشگاه آزاد اسلامی واحد رودسر و املش، 15 مهر1392. ]9[ محمد. صنیعی آباده، و همکاران، دادهکاوی کاربردی، تهران: انتشارات نیاز دانش، 1391. [10] A. Bagheri, and et al, “PSA: A Hybrid Feature Selection Approach for Persian Text Classification,” Journal of Computing and Security, Vol. 1, No. 4, pp. 261-272, 2014.
[12] B. Schölkopf, and et al, “Advances in Kernel Methods Support Vector Learning,” Cambridge, MA: MIT Press, 1998.
[13] B. E. Boser, “A training algorithm for optimal margin classifiers,” Proceedings of the fifth annual workshop on computational learning theory, Pittsburgh, pp. 144-152, 1992.
[14] N. Christiani, and et al, “An introduction to support vector machines,” Cambridge, MA: Cambridge University, 2000.
[15] J. Platt, “Sequential Minimal Optimization: A Fast Algorithm for Training Support Vector Machines,” Technical Report MSR-TR-98-14, 1998.
[16] D. Ruta, and et al, “An Overview of Classifier Fusion Methods,” Computing and Information Systems, Vol. 7, pp. 1-10, 2000.
| ||
آمار تعداد مشاهده مقاله: 454 تعداد دریافت فایل اصل مقاله: 294 |