تعداد نشریات | 418 |
تعداد شمارهها | 9,997 |
تعداد مقالات | 83,560 |
تعداد مشاهده مقاله | 77,801,377 |
تعداد دریافت فایل اصل مقاله | 54,843,984 |
تحلیل نظریه بازی تکاملی ایران و عربستان در چارچوب الگوریتم ژنتیک | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
مدلسازی اقتصادی | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
مقاله 2، دوره 11، شماره 38، شهریور 1396، صفحه 29-56 اصل مقاله (822.1 K) | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
نوع مقاله: پژوهشی | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
نویسندگان | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
سمانه خاتمی* 1؛ علیرضا شکیبایی2 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
1دانشگاه شهید باهنر کرمان | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
2عضو هیات علمی دانشگاه شهیدباهنر کرمان | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
چکیده | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
هدف این مقاله ارائه مدلی جدید از جستجوی استراتژیهای بهینه در بازی معمای زندانی تکراری با استفاده از الگوریتم ژنتیک است. بدین منظور با شبیهسازی رقابت بین ایران و عربستان در ائتلاف اوپک نفتی، از 12 نوع استراتژی مطرح در بازی معمای زندانی تکراری طی 20 اجرای الگوریتم ژنتیک بهمنظور حداکثرسازی امتیازات فردی بازیکن و نیز حداقلسازی امتیاز برازندگی رقیب استفاده شده است. نتایج نشان داد استراتژی "عمل متقابل" حائز بالاترین بازدهی متوسط در هر دو رقابت بوده و در رتبههای بعدی استراتژیهای "اکثریت موافق"، "ماشه" و "عمل متقابل پس از دو بار نقض همکاری رقیب" جای گرفتهاند. استراتژی "همواره عدم همکاری" نیز در رقابتها با کمترین بازدهی بهعنوان ناکاراترین استراتژی شناخته شده است. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
کلیدواژهها | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
طبقهبندی JEL: C63 C70؛ C73؛ . واژگان کلیدی: بازی، محاسبات تکاملی، الگوریتم ژنتیک، معمای زندانی تکراری، اوپک | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
اصل مقاله | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
1. مقدمه نظریه بازی مجموعهای از ابزارهای تحلیلی است که به فهم پدیدههای به وجود آمده در هنگام برهمکنش میان تصمیمگیرندگان کمک مینماید (سامتی و همکاران، 1390). کاربرد نظریه بازی[1] (GT) در اقتصاد از سال 1944 با انتشار کتاب "نظریه بازیها و رفتار اقتصادی" وون نیومن و مورگنسترن[2] آغاز و با سرعتی شگفتآور در ارائه انواع مشتقه آن رواج یافت. از آن جمله میتوان نظریه بازیهای تکاملی[3] (EGT) را برشمرد که در آن فرض عقلانیت کامل بازیکنان در GT کلاسیک (بهمعنای برخورداری از دانش کامل درباره محیط و جدول بازدهیها)، تعدیل میگردد. در این راستا، مطالعه "تکامل و نظریه بازیها" جان مینارد اسمیت[4] به منزله پایه و اساس مطالعات EGT شناخته شده است. در این مطالعه اسمیت، بر اساس شرایط بیولوژیکی لحاظ شده، قضاوت در مورد عقلانی بودن یا نبودن انتخابهای بازیکنان را غیرممکن عنوان کرده و لذا بهینهسازی رفتار فردی بر اساس دانش محدود عوامل مطرح میگردد (اسمیت، 1982). همچنین اسمیت مفاهیم اساسی EGT از جمله استراتژی پایدار تکاملی[5] (ESS) را معرفی مینماید. چنین استراتژی در مفهوم تعادلی به معنای پایداری در برابر جهشهای مهاجم بالقوه است. در واقع، اسمیت با تفکیک نظریه بازی از کاربردهای اقتصادی، از آن به عنوان ابزاری برای تحلیل تکامل بیولوژیکی بهره گرفته و از اینرو، با معرفی نظریه بازی تکاملی، برازندهترین ابزارها برای مدلبندی پویاییهای تعاملات استراتژیک را فراهم نموده است. از سوی دیگر، نوع تصمیمگیری عوامل با عقلانیت محدود در بازیهای تکاملی بر اساس «فرایند یادگیری» تدریجی بازیکنان صورت میگیرد. فرایند یادگیری عوامل در بازیهای تکاملی نیز با استفاده از الگوریتمهای تکاملی[6] (EA) محقق میگردد. الگوریتمهای تکاملی بنا به تعریف آلکمد[7] (2004) عبارتند از: تکنیکهای مبتنی بر علوم زیستی که با استفاده از مفهوم "بقای اصلح" برای تکامل رفتار هر عامل، منجر به انطباق بهتر رفتار آن عامل با محیط (برای مثال یک بازار خاص) میشوند. بنابراین، الگوریتمهای تکاملی، روش نوینی را برای مدلبندی یادگیری و تصمیمگیری عوامل با عقلانیت محدود ارائه میدهند. در مجموع، هدف یک الگوریتم تکاملی بهینهسازی تابع هدف برازندگی است (دوبوز و همکاران[8]، 2010). از جمله الگوریتمهای تکاملی میتوان به الگوریتم ژنتیک[9] (GA) اشاره کرد که اغلب در اقتصاد به منظور توصیف چارچوبی مناسب و دقیق از یادگیری اجتماعی مورد استفاده قرار میگیرد. برخی مطالعات برجسته در مورد استفاده از الگوریتم ژنتیک برای فرمولبندی دقیق رفتار عوامل در بازیهای اقتصادی عبارتند از: مطالعه آکسلرود[10] در سال 1981 و نیز مطالعه مارکس[11] در سال 1992. همچنین الگوریتمهای ژنتیک در مورد مسائل داخلی و چالشبرانگیز اقتصادی نیز به کار گرفته شده و به لحاظ خواص پویایی و تصادفیبودن آنها در اقتصاد مورد توجه قرار گرفتهاند. از اینرو، رویکرد مطالعه حاضر، استفاده از الگوریتم ژنتیک به عنوان یک الگوریتم تکاملی برای حل یک بازی تکاملی است. هدف اصلی در این پژوهش با توجه به ماهیت چندبعدی بازارهای جهانی نفت و محیط اقتصادی پیچیده آن و عدم امکان دستیابی به نتایج تجربی قطعی و معین، بهرهگیری از روشی نوین و کاربردی است که بر مبنای فرایندهای "یادگیری" و "جهش" رفتار عوامل باشد. لذا در این خصوص به ارائه ابزاری روششناختی با ترکیب EGT و الگوریتم ژنتیک پرداخته میشود. این نوع تحلیل بازار انرژی متفاوت از تکنیکهای مدلسازی اقتصادی متعارف مبتنی بر فرض عقلانیت کامل عوامل میباشد. در این راستا به منظور جستجوی استراتژیهای بهینه اعضای اوپک، با لحاظ دو کشور "ایران" و "عربستان" به عنوان نمایندگان دو گروه عوامل ناهمگن اوپک و با استفاده از رویکرد تکاملی، بازی معمای زندانی تکراری بین این دو بازیکن در محیطی شبیهسازی شده مطرح میشود. همچنین 12 نوع استراتژی تصادفی برای هر یک از بازیکنان در نظر گرفته شده که طی 20 اجرای الگوریتم ژنتیک با هدف دستیابی به استراتژی بهینه حداکثرکننده امتیاز فردی و نیز حداقلکننده امتیاز رقیب در بازی معمای زندانی تکراری[12] (IPD) توسط اعضاء انتخاب میشوند. طبق نتایج گزارش شده با استفاده از الگوریتم تکاملی، استراتژی TFT با بالاترین بازدهی به عنوان استراتژی بهینه در مقایسه با دیگر استراتژیها در هر دو بازی برای هر یک از بازیکنان شناخته شده است. از آنجا که با حل معمای زندانی در قالب کلاسیک، عدم همکاری به عنوان تعادل پایدار شناخته شده و با یکبار انجام بازی ظهور و تکامل همکاری غیرممکن بهنظر میرسد. لکن با تکرار بازی در راندهای مختلف و لذا با تکیه بر حافظه بازیکنان در بهخاطر سپردن حرکتهای رقیب در دورههای پیشین و عکسالعمل به آنها با عمل مقابله بهمثل، استراتژی همکاری میتواند به عنوان تعادل پایدار تکاملی شناخته شود. بنابراین، چارچوب مطالعه حاضر مبنی بر مروری بر ادبیات، بررسی مبانی نظری ساختار الگوریتم ژنتیک و ارائه مفاهیم پویایی و تکاملی بودن آن میباشد. در ادامه، روش تحقیق بر اساس مبانی مطالعه بهینهسازی تکاملی آکسلرود (1981) ارائه شده و نهایتاً مدلسازی IPD با استفاده از الگوریتم تکاملی و نتایج امتیازات استراتژیهای 12 گانه طی رقابت شبیهسازی شده دو کشور توسط الگوریتم ژنتیک ارائه میشوند.
2. مروری بر ادبیات 2-1. اوپک؛ ساختار و سیاستها نفت به عنوان منبع انرژی اصلی و برخوردار از صرفههای بزرگ اقتصادی ناشی از پایین بودن هزینهها، در مقایسه با سوختهای دیگر از میزان انرژی بالاتری نیز برخوردار است. به عبارتی دارای انرژی حدود 50 درصد بیشتر از زغالسنگ بر پایه وزن و 170 برابر بیشتر از گاز طبیعی بر مبنای حجم میباشد. لذا نفت خام و محصولات پالایش شده بزرگترین بخش را در تجارت بینالملل چه بر اساس ارزش یا حجم تشکیل میدهند. از اینرو، تجارت نفت بهعنوان تجارتی استراتژیک، بینالمللی و بسیار حائز اهمیت شناخته شده است (جمشیدیرودباری، 1387). ظهور اوپک به عنوان قدرتی فزاینده در بازاهای جهانی نفت، به درستی بیانگر این واقعیت است که کشورهای عضو اوپک سهم بزرگی از صادرات جهانی نفت را عهدهدار بوده و مالک بخش عمده ذخایر نفتی موجود در زمین میباشند؛ به طوری که بیش از 75 درصد از ذخایر نفت جهان در 12 کشور عضو اوپک متمرکز شده و لذا تقریباً تمامی کشورها به اوپک وابستهاند. حتی میتوان گفت خود کشورهای عضو اوپک نیز به بقای این سازمان وابستهاند؛ زیرا بیشتر اعضاء بین 80 تا 99 درصد به درآمدهای ارزی ناشی از فروش نفت وابستگی داشته و این توانایی سازمان است که قیمتها را حفظ نموده تا حداکثر درآمد را برای اعضایش به ارمغان آورد (عبدلی و ناخدا، 1388). با وجود این، تنوع کشورهای عضو اوپک و تفاوت دیدگاههای سیاسی، اقتصادی، اجتماعی و فرهنگی، به عنوان منبع ضعف بالقوهای در ائتلاف محسوب میشود؛ زیرا اعضای اوپک برحسب جمعیت، نیازهای مالی و سرمایهگذاری، ذخایر نفتی، ظرفیت تولید نفت و درآمد سرانه، تفاوتهای چشمگیری با یکدیگر دارند. بنابراین، درون این سازمان دودستگی بین کشورهای عضو قابل بررسی است (گریفین وویلهابر[13]، 1994). گروه کشورهای اوپک بر اساس تفاوتهای ماهوی به دو گروه قابل تقسیم هستند. گروه اول به رهبری عربستان سعودی شامل کشورهای کویت، قطر، امارات متحده عربی و لیبی است که از درآمد سرانه بالا، ذخایر اثبات شده سرانه قابلتوجه برخوردار هستند (کشورهای سازگار با آینده). این کشورها همانگونه که تاریخ نشان میدهد طرفدار افزایش عرضه کل نفت در تلاش برای تعدیل قیمتها و حفظ تقاضای بلندمدت بودهاند. گروه دوم نیز شامل کشورهای ایران، نیجریه، عراق، ونزوئلا، آنگولا و الجزایر (کشورهای سازگار با حال) خواستار این هستند که اوپک کل تولیداتش را به نفع افزایش سریع قیمتها محدود نماید. این کشورها دارای درآمد سرانه پایین، صادرات سرانه نفتی کم و جمعیت زیاد هستند؛ در حالی که کشورهای گروه اول به توسعه حیاتی بلندمدت و پایدار میاندیشند، کشورهای با درآمد پایین تنها خواستار پوشش مشکلات مالی کوتاهمدت خود هستند (عبدلی و ناخدا، 1388). درهمین راستا، اقدام به تهدید در جهت بیثباتی و تجدیدنظر در تصمیمات حکومتهای خود میکنند. در مجموع میتوان گفت از آنجا که کشورهای صبور از عامل تنزیل بالاتری نسبت به کشورهای کمصبر برخوردارند؛ لذا دارای موقعیتهای چانهزنی مستحکمتری نیز میباشند. به عبارت دیگر، عامل تنزیل در گروه اول یا L بزرگتر از گروه دوم S میباشد؛ (عبدلی و ماجد، 1391). از سوی دیگر، نحوه تقسیم منافع حاصل از تشکیل ائتلاف، از طریق تعیین سهمیه تولید برای هر عضو صورت میپذیرد. لذا، بازیکنان برای دستیابی به سهمیه و سود فروش بیشتر با یکدیگر مذاکره و گاه مجادله مینمایند. از اینرو، نحوه تقسیم منافع بین اعضای اوپک و استراتژیهای مورد استفاده هر گروه در مواجه با گروه مقابل و نیز نحوه عمل در مورد میزان تولیدات و تعاملات هر یک از اعضاء با سایرین را میتوان در چارچوب نظریه بازیها مورد بررسی قرار داد. 2-2. پیشینه تحقیق تاکنون مطالعات بسیاری مربوط بهنوع شکلگیری اوپک و ظهور آن به عنوان نیروی غالب در بازارهای جهانی نفت با استفاده از رویکردهای متنوع مدلسازی کارتل صورت گرفتهاند. برای مثال رویکرد نش- کورنو توسط پولاسکی[14] (1992) برای مدلسازی اوپک به عنوان گروهی متحد بیشینهخواه و بدون لحاظ نزاع و اختلاف میان اعضاء بهکار گرفته شد. اما پیندیک[15] (1978) اوپک را به دو گروه کشورهای پساندازکننده و مصرفکننده (کشورهای با نیاز شدید به نقدینگی) تقسیم کرده و توجه و تمرکز خود را بر قدرت چانهزنی این دو گروه معطوف ساخته است. در برخی مطالعات نیز مانند الحاجی و هوتنر[16] (2000) با لحاظ عدم ناهمگونی بین اعضای اوپک، عربستان سعودی را به عنوان بنگاه غالب در کارتل معرفی کردهاند. از سوی دیگر، برخی مطالعاتی که در چارچوب الگوی انحصاری به بررسی رفتار اوپک و طرف عرضه پرداختهاند، در قالب نظریه بازیها صورت گرفتهاند .دوتا[17] (1999) با استفاده از رویکرد نظریه بازی به بررسی پویاییهای درونی کشورهای اوپک طی زمان پرداخته است. گریفین و جیانگ[18] (1997) در مطالعات خود نشان دادهاند که با تشکیل کارتل و تبعیت از اصل همکاری در قالب بازی، منافع همه اعضای اوپک در مقایسه با وضعیت رقابتی افزایش مییابد. اما اعضاء همواره دارای این انگیزهاند که با فریبدادن دیگران و افزایش تولید مازاد بر سهمیه، منافع کوتاهمدت خود را افزایش دهند. اما ترس از رفتار تلافیجویانه سایر اعضاء در قبال فریبکاری آنها و لذا کاهش منافع بلندمدت مانع از این اقدام میگردد. آلت[19] و همکاران (1998) گرچه مستقیماً به موضوع تقسیم منافع اوپک نپرداختهاند، اما بهبحث درباره عکسالعملهای استراتژیک بین تولیدکنندگان مهم نفتی پرداختهاند. آنها استدلال میکنند که عربستان سعودی با داشتن هزینههای پایین تولید و ذخایر نفتی زیاد، به شرطی قادر بهتحمل دورههای رکود قیمت نفت است که احتمال دهد از این بابت شهرتی نصیبش شده که بهتبع آن کسب منفعت میکند. همچنین کشورهای نسبتاً ثروتمند اوپک مانند عربستان سعودی در زمینه مسئله همکاری اوپک به دنبال راهحلی بلندمدت و با ریسک کم هستند تا آن را جایگزین تنبیه اعضای خاطی کنند. عبدلی و ناخدا (1388) نیز در مطالعه خود با توجه به مدل چانهزنی و اجرای فیرون نشان دادهاند که بازیکنان بیصبر اوپک پیامدهای بهتری نسبت به رقیبان صبورتر خود به دست میآورند. لذا چنین استدلال میکنند که دو نوع کشور در اوپک وجود دارد: گروهی با سرانه ذخایر بالا (کشورهای سازگار با آینده) و گروهی با سرانه ذخایر پائین (کشورهای سازگار با حال). نتایج بر اساس تفاوت نرخ تنزیل دو گروه کشورها حاکی از آن است که همکاری لزوماً در نتیجه افزایش مجازات اتفاق نمیافتد، بلکه گاهی اوقات افزایش پاداشها روش کاراتری است که همکاری را موجب شود. این نتایج در مطالعه عبدلی و ماجد (1391) نیز تأیید شده است. در این مطالعه، نظریه همکاری بین دو گروه ناهمگن اوپک در قالب بازی معمای زندانی از طریق برآورد مدل با آثار ثابت و استفاده از دادههای تابلویی مورد سنجش واقع شده است. نتایج بیانگر آنند که در چانهزنیها و مذاکرات، برخی اعضاء برای بهسرعت به توافق رسیدن با باجدهی و کوتاهآمدن از مواضع سیاستی خود موجب تداوم عمر ائتلاف اوپک میگردند. ناجی میدانی و رحیمی (1395) نیز در راستای ارائه مکانیسم قیمتگذاری بهینه انرژی خصوصاً گاز بر اساس نظریه بازیهای همکارانه و غیر همکارانه سناریوهای مختلفی تدوین و مدلسازی نمودهاند. با وجود این، در دهه اخیر با توجه به کارایی و کاربرد رویکردها و الگوریتمهای تکاملی در حل مسائل کاربردی اقتصادی و تصمیمسازی، رویکرد به این روش رو به رشد است؛ به طوری که برخی محققان مانند دیوید[20] (1999)، ریچمن[21] (2001)، تویلز[22] (2007) و جینتیس[23] (2009) ضمن بررسی ادبیات موضوع EGT به ارائه کاربردهای اقتصادی آن پرداختهاند. بروان[24] (1987) همچنین کاربردهای بازی تکاملی را برای هر تعداد از بازیکنان و مجموعه استراتژیهای پیوسته بهکار برد. ویگاند[25] و همکاران (2002) از EGT به عنوان ابزاری برای سنجش الگوریتمهای تکاملی همکارانه استفاده کردهاند. اما در زمینه بهکارگیری نظریه بازیهای تکاملی برای مدلسازی معمای زندانی، میتوان مطالعه کاراندیکار[26] و همکاران (1998) را برشمرد که با مدلسازی بازیهای همکارانه و معمای زندانی تکاملی نتایجی مبنی بر رخداد همکاری با تناوب بیشتر نسبت به عدم همکاری در تکرار معمای زندانی را گزارش کردند. پایه تحلیل تکاملی معمای زندانی تکراری را نیز میتوان در مطالعه آکسلرود (1981) جستجو کرد. آکسلرود با استفاده از الگوریتم تکاملی به ارائه استراتژیهای بهینه حل بازی پرداخته است. وی نخستین محققی بود که یافتن استراتژیهای بهینه برای حل مسئله حداکثرسازی منافع را با استفاده از الگوریتم تکاملی (EA) مورد بررسی قرار داد. نتایج مطالعه وی حاکی از آن بود که استراتژی "همکاری" در بلندمدت در مقایسه با "عدم همکاری"، برنده بازی معمای زندانی خواهد بود. روبنشتاین و آزبورن[27] (1994) در مطالعه خود نتایج مسابقات آکسلرود را نقد کرده و عوامل بسیاری را مانند طول کروموزوم، طول بازی و لحاظ استراتژیهایی بهجز همکاری یا عدم همکاری محض را به عنوان استراتژی رقیب از جمله موانع بروز همه جانبه رفتار همکارانه در بازی عنوان نمودهاند. این نقد و سایر مطالعات انتقادی از ایندست منصفانه به قضاوت مطالعه آکسلرود پرداختهاند؛ اما مطالعه وی تاکنون به عنوان مناسبترین رویکرد تکاملی شناخته شده است.
3. مبانی نظری الگوریتم تکاملی برای مدلبندی اقتصادی الگوریتمهای تکاملی ابتدا برای استفاده در مسائل بهینهسازی طراحی شده و ادبیات گستردهای نیز در زمینه تنظیم این نوع الگوریتمها برای کارایی بهتر در مسائل بهینهسازی وجود دارد (بک و همکاران[28]، 1997؛ توسان و راس[29]، 1998)؛ اما استفاده از الگوریتمهای تکاملی در حوزه شبیهسازی مسائل اقتصادی، بازنگری در دستورالعملهای پیشین را ناگزیر میسازد. از جمله مهمترین تمایزات بین مدلسازی اقتصادی و تکاملی میتوان به نوع تنظیمات پارامترها در الگوریتم ژنتیک اشاره نمود؛ زیرا شبیهسازیهای اقتصادی متعارف، اغلب تنظیمات پارامتری برای الگوریتمهای ژنتیکی را مستقیماً از مقادیر پارامترهای مدل اقتصادی اقتباس مینمایند (دیوید، 1999)؛ در حالی که بر اساس مطالعه ریچمن (2001) این عمل کارایی GA و لذا یادگیری عوامل را محدود مینماید. در واقع در این نوع رویکرد، جمعیت تکاملی به عنوان جمعیتی از "عوامل" تلقی شده و لذا طی اجرای الگوریتم، این عاملها هستند که تکامل مییابند. بنابراین، عاملهای بهتر، طی فرایند تکاملی شناسایی شده و به نسلهای بعدی به عنوان عاملان مولد منتقل میشوند. از اینرو، با وجود جمعیت محدود، امکان همگرایی زودرس الگوریتم ژنتیک دور از انتظار نیست. از سویی دیگر، در رویکرد اقتصادی، ارائه تعبیر اقتصادی مستقیم از یک پارامتر الگوریتم تکاملی (مانند اندازه جمعیت یا نرخ باز تولید) غالباً دشوار است. لذا به منظور حصول نتایج به لحاظ اعتباری قویتر، پارامترهای مدل اقتصادی و پارامترهای الگوریتم تکاملی میبایست به طور جداگانه درنظر گرفته شوند. بنابراین، در رویکرد دوم، جمعیت تکاملی به عنوان جمعیتی از "استراتژیهای" قابل انتخاب توسط عوامل شناخته میشوند (آلکمد، 2004). به عبارت دیگر، جمعیت کروموزومها همچون استخری از استراتژیهایی تلقی میشود که عوامل میتوانند از بین آنها انتخاب نمایند. از مزایای این امر میتوان به انتخاب استراتژیهای مشابه توسط چندین عامل و نیز بهبود کارایی الگوریتم تکاملی و یادگیری عوامل اشاره کرد.
جدول 1. مقایسه الگوریتمهای اقتصادی و تکاملی
منبع: آلکمد (2004)
در الگوریتم تکاملی روند کار بدین صورت است که ابتدا جمعیتی از استراتژیهای تصادفی اولیه تولید شده که در واقع جمعیت کروموزومها یا ژنوتایپها هستند. سپس رفتاری که هر عامل با بهکارگیری یک استراتژی خاص بروز میدهد، روی کروموزم کدگذاری میشود. نحوه کدگذاری کروموزومها در اغلب مطالعات بهصورت باینری (صفر و یک) میباشد. در روند تکامل، جمعیت کروموزومهای اولیه متعاقباً در نسلهای بعدی از طریق انتخاب استراتژی بهتر با بازدهی تجمعی بیشتر و انتقال آنها به نسل و جمعیت بعدی به عنوان مولد استراتژیهای جدید دچار تغییر شده و بهبود مییابند. از اینرو، بر مبنای اصل بقای اصلح، استراتژیهایی با برازندگی کم از جمعیت حذف شده و استراتژیهای مولد و دارای بازدهی زیاد در جمعیت تکثیر مییابند (بک و همکاران، 1997). در مجموع، میتوان گفت عمومیت الگوریتمهای تکاملی در شبیهسازیهای اقتصادی ناشی از توانمندی آنان در مدلسازی سیستمهای بزرگی از عوامل با عقلانیت محدود و با رویکرد خرد به کلان[30] است (میچل[31]، 1996). 3-1. الگوریتم ژنتیک؛ بازی پویای تکاملی الگوریتم ژنتیک، تکنیک محاسباتی تکاملی است که در سال 1989 توسط گلدبرگ[32] با جزئیات معرفی گردید. در الگوریتم ژنتیک، راهحل ممکن یک مسئله بهصورت رشتهای از بیتها نشان داده میشود که طی فرایندی تصادفی مکرراً به یکدیگر تبدیل میشوند. این رشتههای بیتی "افراد ژنتیکی" خوانده میشوند. به هر فرد ژنتیکی یک برازندگی تخصیص مییابد که بیانگر میزان کارایی آن فرد در حل مسئله پیشروست. با مقایسه برازندگیهای حاصل توسط عوامل، نسلهای جدید بهطور مکرر با عملگرهای «انتخـاب[33]»، «بازتولید[34]» و «جهش[35]» ایجاد میشوند. فرایندهای بازتولید و جهش، برخی از استراتژیهای اقتصادی والدین را بهمنظور یافتن استراتژیهای جدید (فرزندان) مورد استفاده قرار داده و آنها را با استراتژیهای فرزندان جایگزین مینمایند. لذا این امر موجب افزایش تنوع استراتژیها درون جمعیت جاری میگردد. از سوی دیگر، عملگر ژنتیکی انتخاب، تعداد استراتژیهای اقتصادی متفاوت را درون جمعیت کاهش میدهد. بدینصورت که ابتدا میزان بازدهی اقتصادی هر استراتژی را ارزیابی نموده و از اینرو، اغلب به عنوان ایفاکننده نقش بازار یا آشکارکننده اطلاعات عمل میکند. سپس برخی از استراتژیها را برای حضور در نسل بعدی برمیگزیند. شانس هر استراتژی i برای انتخاب از جمعیت جاری و تکثیر در دوره بعدی بستگی به برازندگی نسبی آن یعنی ، به جمع بازدهی کلیه استراتژیها در جمعیت یعنی دارد؛ بهطوری که بازدهیهای نسبی بالاتر منجر به احتمال بازتولیدی بیشتر میشوند. بنابراین، تعداد استراتژیهای متفاوت درون یک جمعیت با این فرایند مجدداً کاهش مییابد (ریچمن، 2001). 3-1-1. الگوریتم ژنتیک اقتصادی بهعنوان بازی پویا الگوریتمهای ژنتیک در واقع فرایندهای مدلسازی الگوریتمهای یادگیری اجتماعی به واسطه تعاملات درون جمعیتی از عوامل اقتصادی هستند. گفتنی است مشخصه مشترک هر دو موقعیتهای نظری بازی و مدلهای یادگیری GA وابستگی به وضعیت است. بهعلاوه، بازی در هر دور از الگوریتم ژنتیک تکرار شده و لذا به هر فرد شانسی برای اصلاح و بهبود استراتژی خود داده میشود. بنابراین، میتوان نتیجهگیری کرد که در واقع هر الگوریتم ژنتیک اقتصادی تکجمعیتی یک بازی پویاست؛ بدین صورت که در یک الگوریتم ژنتیک با جمعیتی متشکل از M فرد ژنتیکی که هر یک دارای رشته بیتی به طول L هستند، هر فرد ژنتیکی بر مبنای کدبندی باینری نمایانگر یکی از مقادیر متفاوت یا بهعبارتی مجموعه استراتژیهای در دسترس S است (. با توجه به اینکه در فرایند یادگیری الگوریتم ژنتیک، هیچ رقیب مستقیمی در برابر یک استراتژی منفرد وجود ندارد، لذا هر عامل اقتصادی در تلاش برای یافتن یک استراتژی است که بهخوبی هرچه تمامتر نسبت به تمامی جمعیت و محیط خود عمل کند. 3-1-2. الگوریتم ژنتیک اقتصادی بهعنوان بازی تکاملی از آنجا که الگوریتمهای ژنتیک بهعنوان مدلهایی از یادگیری اقتصادی شناخته شدهاند، آنها را همچنین میتوان بهخوبی به عنوان فرایندهای تکاملی در نظر گرفت (دیوید، 1999). در نگاه اول، در واقع این ساختار الگوریتمهای ژنتیک و مدلهای تکاملی است که مبین رابطهای نزدیک بین GAها و نظریه اقتصادی تکاملی است؛ چرا که هر دو مواجه با ساختار مرکزی جمعیتی از عوامل اقتصادی متعامل در محیطهای اقتصادی بوده و برای بهینهسازی رفتار فردی تلاش میکنند. به منظور ارائه شواهدی مبنی بر صحت این گزاره بر اساس تعریف فریدمن[36] سه مشخصه برای یک بازی تکاملی ارائه میشود (فریدمن، 1998): الف) در بازیهای تکاملی، استراتژیهای با بازدهی بالاتر طی زمان جایگزین استراتژیهای با بازدهی کمتر میشوند. جایگزینی استراتژیها در الگوریتمهای ژنتیک فرایندی از تغییر در جمعیت ژنتیکی طی زمان است. این فرایند با استفاده از عملگرهای «انتخاب» و «بازتولید» و با تکثیر استراتژیهای با بازدهی بالاتر بهوقوع میپیوندد. لذا شرط اول فریدمن تأمین میشود. ب) در طی فرایند جایگزینی استراتژیها اینرسی وجود دارد. اینرسی به معنای آن است که تغییرات در رفتار عوامل به صورت بسیار ناگهانی اتفاق نمیافتند. در الگوریتم ژنتیک نیز عملگر جهش تنها منجر به تغییرات بسیار ناگهانی در بیتهای تکی از رشته بیت کدگذاری شده مربوط به یک استراتژی اقتصادی با احتمال کوچک [37] میگردد. از اینرو، شرط دوم فریدمن نیز برقرار است. ج) در بازیهای تکاملی، بازیکنان به طور عمدی بر اقدامات آینده سایر بازیکنان تأثیرگذار نیستند. عوامل در یک مدل GA اقتصادی دانش بسیار محدودی دارند. هنگامیکه یک عامل اقتصادی آخرین استراتژی اقتصادیاش را شکل میدهد درباره برنامههای سایر عوامل در جمعیت خود هیچ نمیداند. از اینرو، همه آنچه که یک عامل اقتصادی در یک مدل GA میتواند انجام دهد، نهایت تلاش خود برای تطبیق با اقدامات گذشته رقبا یا به عبارت دیگر، انجام فرایند یادگیری است؛ لذا شرط سوم فریدمن نیز برقرار است. بنابراین، با توجه به موارد فـوق میتوان نتیجه گرفت که مدلهای یادگیری GA اقتصادی را میتوان به عنوان بازیهای تکاملی تفسیر نمود. با این مزیت که الگوریتمهای ژنتیک مفهوم روشنی از نفی و حذف استراتژیهای جهش و مهاجم از جمعیت را در مقایسه با مفهوم استراتژیهای پایدار تکاملی در بازیهای تکاملی ارائه میدهند (ویبول[38]، 1995).
4.مدلسازی تکاملی IPD برای حل بازیهای تکراری خصوصاً IPD بر اساس مطالعه آکسلرود میتوان از الگوریتمهای تکاملی، مبتنی بر فرایند یادگیری عوامل طی هر دوره از بازی استفاده نمود. از اینرو، بررسی و تحلیل تطابق رفتار عوامل اقتصادی یا بازیکنان بازی IPD در قالب الگوریتمهای تکاملی در این بخش ارائه خواهد شد. معمای زندانی یکی از مشهورترین بازیهای استراتژیک است که بهطور گسترده در علوم اقتصادی، سیاسی، یادگیری ماشینی و بیولوژی تکاملی مورد مطالعه قرار گرفته است. در این بازی هر دو بازیکن حرکتهای خود را بهطور همزمان و مستقل از انتخاب دیگری برمیگزینند. در ماتریس بازدهی، زمانیکه دو بازیکن با یکدیگر همکاری[39] کرده به مقداری برابر R پاداش داده میشوند. زمانی که تنها یک بازیکن همکاری را نقض کند[40]، وی بالاترین بازدهی ممکن (T) و رقیبش کمترین بازدهی ممکن (S) را دریافت میکنند. همچنین در صورتی که هیچ یک از بازیکنان با دیگری همکاری ننماید هر دو به میزان P جریمه خواهند شد. در ماتریس بازدهی T > R > Q > S و نیز R > (T + S)/2 است. بدینمعنا که وسوسه فریبکاری و نقض همکاری میبایست بازدهی بیشتری نسبت به همکاری داشته باشد.
جدول 2. بازدهیهای کلاسیک معمای زندانی
منبع: تویلز، 2007
از آنجا که در این بازی، بازیکن اول (D,C) را به (C,C) و آن را به (D,D) و نهایتاً به (C,D) ترجیح داده و در مقابل بازیکن دوم (C,D) را به (C,C) و آن را به (D,D) و نهایتاً آن را به (D,C) ترجیح میدهد لذا تضاد موقعیتی بین بازیکنان ایجاد میشود (روبنشتاین و آزبورن، 1994). با حل بازی مشخص میشود که معمای زندانی یک تعادل نش اکید متقارن و منحصر بهفرد عدم همکاری طرفین یا (D,D) دارد. به عبارت دیگر، در هر تعادل کامل زیر بازی[41]، هر بازیکن استراتژی D را در هر بار بازی بدون در نظر گرفتن تاریخچه بازی اتخاذ میکند. لذا D تنها استراتژی پایدار تکاملی بازی است که در آن هیچ بازیکنی انگیزهای برای تغییر استراتژی خود ندارد. در حالی که اگر هر دو بازیکن بازی را برای تعداد دورههای نامتناهی تکرار کنند و بازدهی هر بازیکن برابر؛ مجموع تنزیل شده از بازدهیها در هر نوبت از بازی باشد، آنگاه با انباشت بازدهیها در هر دور ممکن است تعادلی بهتر از (D,D) وجود داشته باشد. از اینرو، رویکرد تکاملی IPD مبتنی بر الگوریتم ژنتیک، با بررسی تکامل استراتژیها طی اجرای الگوریتم برای راندها و نیز نسلهای مختلف این امر را ممکن میسازد. این رویکرد تکاملی مبتنی بر ارائه استراتژیها به عنوان کروموزوم ها بوده که هر یک از آنها حامل رفتاری کدگذاری شده از عوامل بازی میباشند. هدف هر اجرای الگوریتم ژنتیک، تکامل استراتژیهای ممکن با بالاترین امتیاز یا بازدهی است. بدینمنظور، در این مقاله در میان استراتژیهای مطرح برای حل معمای زندانی تکراری، رقابتی ترتیب داده شده که در آن هر استراتژی در برابر دیگر استراتژیها در بازی IPD قرار گرفته و برای کسب بازدهی بیشتر تلاش میکند. بر اساس برازندگی حاصل توسط هر استراتژی در هر نسل، نسبتی از استراتژیهای موفق توسط عملگر «انتخاب» GA برگزیده و با استفاده از عملگرهای «بازتولید» و «جهش» به نسل بعدی منتقل میشوند. بدین صورت، جمعیتی جدید از استراتژیها برای اجراهای بعدی GA شکل میگیرند. در نهایت فرایند فوق در صورت لزوم بهمنظور سازگاری با مدلسازی IPD تکرار میگردد. 4-1. کدگذاری استراتژیهای تکاملی آکسلرود در مطالعه خود روشی ساده اما فوقالعاده را برای کدگذاری استراتژیها اتخاذ نمود که به عنوان روشی استاندارد از حل مسئله IPD در این مطالعه از آن استفاده میگردد. برای هر حرکت در بازی، چهار امکان وجود دارد که عبارتند از: - هر دو بازیکن همکاری کنند (CC یا R برای پاداش)؛ - بازیکن دوم عدم همکاری در حالیکه اولی همکاری کند (CD یا S برای فریفته شدن)؛ - بازیکن اول نقض همکاری و دومی همکاری کند (DC یا T برای فریبکاری)؛ - هر دو بازیکن همکاری نکنند (DD یا P برای تنبیه). در واقع هر کروموزوم حاوی نتایج ممکن 3 حرکت قبلی یک بازیکن است. لذا با برخورداری از اطلاعات سه حرکت قبلی یک بازیکن به منظور کدگذاری یک استراتژی خاص، رشته رفتاری مربوطه را در نظر گرفته و آن را به عنوان یک رشته سه حرفی کدگذاری مینماییم. برای مثال، RRR ارائهگر نتیجهای است که دو بازیکن در طی سه حرکت قبلی همکاری کنند و یا SSP بیانکننده نتیجهای است که بازیکن اول دوبار با وجود عدم همکاری رقیب، همکاری کرده اما نهایتاً همکاری را نقض نموده است. سپس این رشته سه حرفی بهمنظور تولید عددی بین 0 تا 63 (4× 4× 4= 64) مورد استفاده قرار گرفته و بهعنوان عددی در مبنای 4 تفسیر میگردد. یک راه ممکن جهت نمایش، تخصیص مقداری عددی به هر یک از کاراکترها بهروش زیر است:
از اینرو، برای مثال در این روش، PPP به عدد صفر رمزگشایی شده و SSR به عدد (40×3 +41×2 +42×2) = 43. با دانش از 3 حرکت قبلی برای حل این مسئله که بازیکن در حرکت جاری C یا D را بازی خواهد کرد، از الگوریتم ژنتیک (GA) استفاده میشود. بدین صورت که با وجود دو گزینه C یا D در هر 64 موقعیت و مکان ممکن، یک استراتژی خاص میتواند به وسیله یک رشته باینری 64 بیتی از C و D در الگوریتم ژنتیک تعریف شود که در آن، iامین C یا D متناظر با iامین رشته رفتاری دیکته شده توسط رشته سه حرفی از 3 حرکت قبلی است. به عبارت دیگر، یک حرکت خاص، بستگی به 3 حرکت قبلی خود دارد. هرچند 3 حرکت اول در یک بازی به روش یاد شده تعریف نمیشوند. بلکه برای لحاظ این حرکتها، 6 بیت (با C و D اولیه تصادفی) به رشته 64 بیتی فوق برای تعیین وضعیت یک استراتژی خاص با فرض در مورد رفتار آغازین بازی افزوده میگردد. در مجموع میتوان گفت هر رشته 70 بیتی بیانگر یک استراتژی خاص است که 64 بیت اول برای قاعدهها و 6 بیت بعدی برای مکانها استفاده میشوند. جدول (3) یک رشته الگوریتم تکاملی (EA) نمونه را نشان میدهد. برای رشته نمونه در جدول یاد شده، کد سه حرفی PTP برای 3 حرکت اولیه بهدست میآید. این رشته به عدد 4 رمزگشایی شده و به معنای آن است که بازیکن موردنظر میبایست (1+4) یا پنجمین حرکت معین شده خود را در رشته 64 بیتی الگوریتم ژنتیک بازی کند[42]. جدول 3. کدگذاری یک استراتژی نمونه IPD
منبع: یافتههای پژوهش
جدول (4) روش حل رشته کدگذاری شده فوق را به روش تکاملی نشان میدهد. در این مورد بیت پنجم بیانگر C بوده، لذا بازیکن همکاری خواهد کرد.
جدول 4. حل استراتژی کدگذاری شده بهروش تکاملی
منبع: یافتههای پژوهش
با استفاده از طرح کدگذاری فوق برای یافتن استراتژیهای بهینه و نیز بهکارگیری الگوریتم ژنتیک، میتوان به استراتژیهایی با بیشترین بازدهی دست یافت. 4-2. شبیهسازی استراتژیهای تکاملی به منظور شبیهسازی استراتژیهای مطرح در بازی معمای زندانی تکراری، ابتدا استراتژیها کدگذاری شده و سپس در روند تکاملی به رقابت با یکدیگر میپردازند. طرح کدگذاری استفاده شده در این مقاله مشابه مطالعه آکسلرود است با این تفاوت که EA به کار گرفته شده در مقاله حاضر یافتن دو نوع استراتژی بهینه هدف را مدنظر دارد. این دو هدف عبارتند از: 1) حداکثرسازی امتیاز فردی و 2) حداقلسازی امتیاز رقیب. باید گفت که امتیاز رقیب به معنای امتیاز تجمعی همه رقباست، زمانی که در مقابل یک استراتژی خاص بازی مینمایند. هر دو اجرای تکهدفه EA به منظور یافتن استراتژیهای بهینه در این مطالعه صورت پذیرفتهاند. شبیهسازی برای هر دو الگوریتم بر اساس ماتریس بازدهی جدول 2 شامل مراحل زیر است: در هر نسل، تعدادی معین از استراتژیها تولید میشوند و هر استراتژی ملزم به بازی در برابر 12 بازیکن (استراتژی) دیگر است. هر بازی از 150 حرکت تشکیل شده است. به عبارت دیگر، هر فرد ژنتیکی معمای زندانی را برای 150 بار در برابر 12 رقیب در محیط خود بازی میکند. برای محیطهای ایستاتیک این امر بهمعنای بازی کردن در برابر تعداد از پیش تعیینشده استراتژیهای شناخته شده است. در حالی که در محیطهای تکاملی این به معنای 150 بار بازی کردن با رقیبهای به طور تصادفی انتخاب شده از زیر مجموعه رقباست. در پایان، استراتژیها بهترتیبی کاهنده، بر اساس امتیازات تجمعی آنها دستهبندی شده و لذا نسل بعدی با استفاده از عملگرهای بازتولید و جهش شکل میگیرد. در واقع، هدف هر اجرای الگوریتم ژنتیک تکامل استراتژیهایی با بالاترین بازدهی ممکن و انتقال استراتژیهای کاراتر به نسلهای بعدی است. استراتژیهای تکاملی شبیهسازی شده در بازی IPD مطرح در این مطالعه عبارتند از:
شکل 1.نمایش استراتژی TFT
روشن است که در یک بازی خاص، با استفاده از مقادیر بازدهی نشان داده شده در ماتریس بازدهی جدول 2، یک بازیکن میتواند حداکثر امتیاز 750=150×5 را کسب کند. بدینصورت که وی همواره نقض همکاری و رقیب همواره همکاری نماید. همچنین حداقل امتیاز او چنانچه خود همیشه همکاری و رقیب همواره نقض همکاری نماید، برابر با صفر است. در حالی که هیچیک از این دو حد آستانه معمولاً در عمل قابل دستیابی نیستند. بر اساس مطالعه دیوید (1999)، سنجش کاربردیتر در مورد یک استراتژی در بازی IPD عبارت است از محاسبه میزان نزدیکی آن به امتیاز معیار[43]. بنا بر تعریف، امتیاز معیار، امتیازی است که در آن هر دو بازیکن همواره همکاری نمایند. با توجه به جدول (2) مسئله IPD، امتیاز معیار برابر 450=150×3 در این مورد است. برای مثال اگر امتیاز یک بازیکن به طور میانگین در برابر همه بازیکنانی که با آنها بازی کرده 400 باشد، آنگاه میتوان گفت که او 89 درصد از امتیاز معیار را کسب نموده است. این روش برای برشمردن امتیازات یک بازیکن بسیار مناسب بوده است؛ زیرا مستقل از مقادیر موجود در ماتریس بازدهیهای استفاده شده و نیز تعداد بازیکنان رقیب میباشد. از اینرو، در تمامی نتایج ارائه شده در این مطالعه امتیـازات به صورت درصدی از امتیاز معیار درنظر گرفته شـدهاند.
5. نتایج شبیهسازی بازی IPDبا استفاده از الگوریتم تکاملی دو اجرای مستقل الگوریتم تکاملی در این مطالعه بهمنظور حداکثرسازی امتیاز فردی بازیکن و نیز حداقلسازی امتیاز رقیب بهکار رفته است. از آنجا که راهحلها با استفاده از رشته بیت ارائه میشوند؛ لذا از عملگرهای «انتخاب باینری»، عملگر «تقاطع تک نقطهای[44]» و عملگر «جهش بیتی» استفاده کردهایم. بدین صورت که در تمامی شبیهسازیها احتمال تقاطع 9/0، و احتمال جهش 70/1 میباشند. بنابراین به طور متوسط تنها یک بیت در یک رشته 70 بیتی در واحد زمان جهش مییابد. برای هر اجرا اندازه جمعیت متناظر با 40 و تعداد نسلها 20000 نسل تنظیم گردید. نمودار امتیازات برای 200 نسل اول، با اجرای EA در نمودارهای (1 و 2) نشان داده شدهاند. با این تفاوت که در نمودار (1) امتیاز فردی حداکثر شده و در نمودار (2) امتیاز رقیب حداقل میگردد.
Generation
نمودار 1. برازندگی متوسط (نمودار زیرین) و حداکثر برازندگی فردی (نمودار فوقانی)
برای حداکثرسازی امتیاز فردی با استفاده از EA، سنجش برازندگی نمونه بر اساس امتیاز فردی است. از اینرو، امتیازات مربوط به برازندگی میبایست حداکثر گردد. همانطور که از نمودار (1) مشخص است؛ در مورد اول برازندگی متوسط بهطور یکنواخت طی نسلها افزایش یافته و در حدود نسل 200، امتیاز فردی با برازندگی 441 حداکثر شده و بدینترتیب 98 درصد امتیاز معیار حاصل میگردد. زمانیکه EA برای نسلهای بیشتر اجرا میشود، حداکثر برازندگی به عدد 446 (1/99% امتیاز معیار) همگرا شده و دیگر بیش از آن افزایش نمییابد. این روند در مطالعات بهینهسازی با استفاده از GAها معمول است. بدین صورت که روند فزاینده برازندگی در ابتدا سریع و در ادامه نسبتاً کند اتفاق میافتد. زیرا یافتن راهحلهای بهتر نزدیک به راهحل بهینه بهمرور در مسائل بهینهسازی دشوارتر میشود. زمانیکه امتیاز رقیب با الگوریتم تکاملی حداقل میگردد، کمترین برازندگی در 112 یعنی 9/24 درصد از امتیاز معیار بهدست میآید. این نتیجه مبنی بر حداقل کارایی و مشابه با اتخاذ استراتژی همواره عدم همکاری است.
Generation نمودار 2. برازندگی متوسط (نمودار فوقانی) و حداقل برازندگی رقیب (نمودار زیرین)
برای مقایسه امتیازات استراتژیهای مطرح در IPD نفتی، جدولهای 5 و 6 نتایج را برای 20 اجرای GA از هر دو رقابت نشان میدهند. در رقابت نخست 12 استراتژی شرکت نموده و "TFT" استراتژی برنده با امتیاز متوسط 385 (85% امتیاز معیار) شناخته میشود. دلیل این امر توانمندی استراتژی TFT در پاداش دادن به رقیب همکاریکننده و نیز تنبیه وی به دلیل عدم همکاریاش است. در واقع، تکرار بازی، وجود استراتژی TFT را همانند تعاملات در دنیای واقعی، ممکن میسازد؛ زیرا بازیکنان قادر خواهند بود تا بر اساس رفتارهای پیشین یکدیگر تصمیم به پاداش یا تنبیه رقیب نمایند. زمانیکه امتیاز رقیب بهتنهایی با EA حداقل میگردد، باز هم استراتژی TFT به عنوان استراتژی با بیشترین بازدهی در این رقابت معرفی میشود؛ در حالی که استراتژی همیشه عدم همکاری (All D) به عنوان ناکاراترین استراتژی با پایینترین میزان بازدهی شناخته میشود. سایر استراتژیها که بهخوبی TFT حائز امتیازات بالا هستند، عبارتند از: استراتژی اکثریت موافق، استراتژی ماشه و نیز استراتژی TF2T که گونهای مشتق شده از استراتژی TFT است. همچنین، استراتژی همواره عدمهمکاری در رقابتها با کمترین بازدهی به عنوان ناکاراترین استراتژی شناخته شده است.
جدول 5. امتیازات استراتژیهای IPDبرای حداکثرسازی امتیاز فردی
منبع: یافتههای پژوهش[45]
جدول 6. امتیازات استراتژیهای IPDبرای حداقلسازی امتیاز رقیب
منبع: یافتههای پژوهش
6. جمعبندی و نتیجهگیری در محیطهای پیچیده، افراد به طور کامل قادر به تحلیل موقعیتها و اتخاذ استراتژیهای بهینه خود نیستند. اما چنین انتظار میرود که بتوانند استراتژی خود را طی زمان بر اساس اینکه کدامیک موثر و کدام ناکاراست، تطبیق دهند. قیاسی مناسب برای فرایند انطباق، تکامل بیولوژیکی است. در تکامل، استراتژیهای نسبتاً موثر گستردهتر شده و استراتژیهای کمتر مؤثر بهتدریج از جمعیت حذف میگردند. شایان ذکر است که نگرش مقاله حاضر به بررسی نحوه تکامل و ظهور همکاری در موقعیتهای رقابتی اختصاص داشته و هدف آن ارائه مدلی جدید از جستجوی استراتژیهای بهینه در بازی معمای زندانی تکراری است. لذا بر مبنای توانمندی فرایند تکامل و الگوریتمهای تکاملی در تولید استراتژیهایی با کارایی بهتر در بازیهای تکراری، در این مطالعه به بررسی استراتژیهای بهینه در بازی معمای زندانی تکراری (IPD) با استفاده از الگوریتم ژنتیک پرداخته شده است. بدین منظور با شرکت دو کشور ایران و عربستان به عنوان نمایندگان دو گروه ناهمگن اوپک و لحاظ 12 نوع استراتژی مطرح در IPD، بازی تکاملی با دو رویکرد؛ حداکثرسازی امتیازات فردی و نیز حداقلسازی امتیاز رقیب شبیهسازی و اجرا گردید. نتایج دو رقابت بین 12 نوع استراتژی با رویکرد تکاملی حاکی از آن است که استراتژی "عمل متقابل" یا “TFT” به عنوان استراتژی بهینه حائز بالاترین بازدهی در حداکثرسازی امتیازات فردی بازیکن و نیز حداقلسازی امتیاز رقیب وی شناخته شده است. این استراتژی در رقابتها، بهدلیل توانمندی منحصر بهفرد خود در پاداش دادن به رقیب همکاریکننده و نیز تنبیه وی به دلیل عدم همکاریاش امتیاز بالایی کسب میکند. دستیابی به استراتژی بهینه در رقابت دو گروه ناهمگن اوپک دال بر همکاری اولیه و سپس مقابله به مثل رفتاری است. اتخاذ چنین استراتژی ضمن حفظ موقعیت بازیکن، با ایجاد تهدید قابل قبول و معتبر مانع رخداد تنازع و عدم همکاری بین اعضاء خواهد شد. سایر استراتژیها که بهخوبی TFT حائز امتیازات بالا هستند عبارتند از: استراتژی اکثریت موافق، استراتژی ماشه و نیز استراتژی TF2T که گونهای مشتق شده از استراتژی TFT است. همچنین، استراتژی همواره عدم همکاری در رقابتها با کمترین بازدهی به عنوان ناکاراترین استراتژی شناخته شده است. [1] Game Theory [2] Von Neumann & Morgenstern [3] Evolutionary Game Theory [4] John Maynard Smith [5] Evolutionarily Stable Strategy [6] Evolutionary Algorithms [7] Alkemade [8] Duboz Et Al [9] Genetic Algorithm [10] Axelrod [11] Marks [12] Iterated Prisoner's Dilemma [13] Griffin & Vielhaber [14] Polasky [15] Pindyck [16] Alhajji & Huettner [17] Dutta [18] Griffin & Xiong [19] Alt et al. [20] Dawid [21] Riechmann [22] Tuyls [23] Gintis [24] Brown [25] Wiegand [26] Karandikar [27] Rubenstein & Osborne [28] Bäck et al. [29] Tuson & Ross [30] From The Bottom up Approch [31] Mitchell [32] Goldberg [33] Selection [34] Reproduction [35] Mutation [36] Friedman [38] Weibull [39] Coperate (C) [40] Defect (D) [41] Subgame Perfect Equilibrium [43] Benchmark score [44] Single-Point Crossover Operator | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
مراجع | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
منابع - جمشیدی رودباری، مستانه (1387). بررسی علل تطابق نیافتن مدلهای اقتصادی رفتار اوپک در بلندمدت از دیدگاه تحولات بازار نفت و ویژگیهای این سازمان. فصلنامهپژوهشهاوسیاستهایاقتصادی، 47: 63-25. - سامتی، مرتضی، فتحآبادی، مهدی، کسرایی، کامران (1390). تعادل استراتژی مختلط نش و بازیکنان فوتبال: مطالعه موردی ضربات پنالتی. فصلنامه مدلسازی اقتصادی، 5(15): 66-47. - عبدلی، قهرمان، ماجد، وحید (1391). بررسی رفتار اوپک در قالب یک بازی همکارانه. تحقیقات مدلسازی اقتصادی، 2(7): 50-27. - عبدلی، قهرمان، ناخدا، محمد جواد (1388). کاربرد نظریه فیرون در بررسی پایداری اوپک: با رویکرد نظریه بازیهای تکراری. فصلنامه مطالعات اقتصاد انرژی، 6 (20): 56-33. - ناجی میدانی، علی اکبر، رحیمی، غلامعلی (1395). مدل قیمتگذاری صادرات گاز طبیعی از طریق خط لوله بر اساس نظریه بازیها. فصلنامه مدلسازی اقتصادی، 2(34): 49-29.
- Alhajji, A. F., & Huettner, D. (2000). OPEC and world crude oil markets from 1973 to 1994: Cartel, Oligopoly, or Competitive? The Energy Journal, 21(3): 31-60.
- Alkemade, F. (2004). Evolutionary agent-based economics. Eindhoven: Technische Universiteit Eindhoven.
- Alt, J. E., Calvert, L., & Humes, B. D. (1988). Reputation and Hegemonic Stability: A Game-Theoretic Analysis. American Political Science Review, 82(2): 445-66.
- Axelrod, R., & Hamilton, W. (1981). The evolution of cooperation. Science, 211(4489): 1390–96.
- Back, T., Fogel, D., & Michalewicz, Z. (1997). Handbook of evolutionary computation. Oxford University Press.
- Brown, J. S. (1987). A theory for the evolutionary game. Theoretical Population Biology, 31(1): 140-166.
- Dawid, H. (1999). Adaptive learning by genetic algorithms: analytical results and applications to economic models. Springer Verlag, Berlin. 2nd Edition.
- Duboz, R., Versmisse, D., Travers M., Ramat, E., & Shin, Y. J. (2010). Application of an evolutionary algorithm to the inverse parameter estimation of an individual-based model. Ecological Modelling, 221(5): 840–849.
- Dutta, P. K. (1999). Strategies and Games: Theory and Practice. The MIT Press.
- Friedman, D. (1998). On economic applications of evolutionary game theory. Journal of Evolutionary Economics, 8(1): 15-43.
- Gintis, H. (2009). Game theory evolving: a problem-centered introduction to modeling strategic interaction. Princeton, NJ: Princeton University Press.
- Goldberg, D. E. (1989). Genetic algorithms in search, optimization, and machine learning. Addison-Wesley, Reading, MA.
- Griffin, J., & Vielhaber, L. (1994). OPEC production: the missing link. The Energy Journal, 15:32- 115.
- Griffin, J. M., & Xiong, W. (1997). The Incentive to Cheat: An Empirical Analysis of OPEC. Journal of Law and Economics, 40(2): 289-316.
- Karandikar, R. Mookherjee, D., Ray, D., & Vega- Redondo, F. (1998). Evolving aspirations and cooperation. Journal of Ecoomic Theory, 80(2): 292-331.
- Marks, R. E. (1992). Breeding hybrid strategies: Optimal behaviour for oligopolists. Journal of Evolutionary Economics, 2, 17- 38. - Mitchell, M. (1996). An introduction to genetic algorithms. London MIT Press, Cambridge, MA.
- Pindyck, R. S. (1978). Gains to producers from the cartelization ofexhaustible resources. The Review of Economics and Statistics, 60(2): 238–251.
- Polasky, S. (1992). Do oil producers act as 'Oil'igopolists? Journal of Environmental Economics and Management, 23(3): 216-247.
- Riechmann, T. (2001). Genetic algorithm learning and evolutionary games. Journal of Economic Dynamics and Control, 25(6): 1019-1037.
- Rubenstein, M., & Osborne, M. (1994). A course in game theory. Cambridge, MA: MIT Press.
- Smith, J. M. (1982). Evolution and the theory of games. Cambridge, UK: Cambridge University Press. - Tuson, P., & Ross, P. (1998). Adapting operator settings in genetic algorithms. Evolutionary computation, 6(2): 161-184.
- Tuyls, K., & Parsons, S. (2007). What evolutionary game theory tells us about multiagent learning. Artificial Intelligence, 171(7): 406–416.
- Von Neumann, J., & Morgenstern, O. (1944). Theory of games and economic behavior. Princeton University Press. - Weibull, J. W. (1995). Evolutionary game theory. London: MIT Press, Cambridge, MA.
- Wiegand, R. P., Liles, C. L., & De Jong, K. A. (2002). Analyzing Cooperative Coevolution with Evolutionary Game Theory. In Proceedings of Congress on Evolutionary Computation (CEC-02), edited by D. Fogel. IEEE Press. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
آمار تعداد مشاهده مقاله: 1,982 تعداد دریافت فایل اصل مقاله: 1,028 |