بزن بریم
منوی دسته بندی
منوی دسته بندی

اعتبارسنجی مدل های ریاضی

1- مقدمه

اعتبار یک مدل را می توان به سه مقوله مرتبط نمود:

الف) صحت مدل (correctness)

ب) دقت مدل (adequacy)

ج) درستی یا حقیقت مدل (truth)

برخی از اوقات اعتبار (validation) مدل را با مقایسه مدل با داده ها (مشاهدات و اندازه گیری ها) از موضوع یا سیستمی که مدلسازی شده است تعیین می کنند. عوامل بی شماری هستند که می توانند اعتبار سنجی را مساله زا و دشوار نمایند. چهار عامل که از همه مهمتر می باشند عبارتند از: (منظور از مدل، مدل های نظری نظیر کلامی، سمبولیک، رویه ای، ریاضی و یا رسمی می باشند)

– دشواری جمع آوری داده های کافی جهت اعتبار سنجی مدل (برخی از اوقات ممکن است داده ها حتی قابل اندازه گیری نیز نباشند)

– ناکافی بودن نظریه یا درکی که مدل بر اساس آن بنا شده است و باید تست گردد.

– پیچیدگی سیستمی که مدلسازی شده است. تعداد بسیار زیاد ارتباطات متقابل و شیوه های رفتاری متفاوت در مدل می توانند مدل را غیر قطعی نمایند و اعتبار سنجی آنرا در قالب یک کل منسجم دشوار کنند.

– منابع محدود در دسترس برای مدلسازی باعث می شوند تا زمان کافی جهت اعتبار سنجی در اختیار نباشد.

از سوی دیگر با ابهام در مفهوم اعتبارسنجی نیز مواجه هستیم. اعتبار مدل معمولا با معانی زیر عجین گردیده است:

1) همخوانی نزدیک بین مدل و داده ها

2) توافق با نظریه های پذیرفته شده مدل ها یا موارد تفاهم شده

3) مفید بودن کاربردی

4) پتانسیل برای اکتشافات علمی

2- مرور ادبیات

در یکی از مقالات مهم در زمینه اعتبار سنجی مدلها، راسل ایکاف (Ackoff, 1957) چهار امکان را نام می برد که می توانند دقت مدل را زیر سئوال ببرند. این چهار امکان عبارتند از:

الف) ممکن است با لحاظ کردن متغیرهای غیر مرتبط دقت مدل از دست برود

ب) ممکن است یک متغیر تاثیرگذار در مدل دیده نشده باشد

ج) ممکن است رابطه واقعی مابین میزان کارآیی و متغیرهای مستقل (xi, yi) دیده نشده باشد

د) ممکن است به دلیل مقادیر اشتباه پارامترها، نتایج خوبی از مدل حاصل نگردند

موارد (الف) و (ب) و (ج)، مربوط به اعتبار ساختار مدل می باشند در حالیکه مورد ( د ) با دقت پارامترها در ارتباط است.

دقت مدل می تواند با تست های عملیاتی به دست آید در حالیکه اعتبار مدل نیازمند تعریف مفهومی می باشد.

طراحی فرآیند گردآوری شواهد برای تست کردن مدل شامل مراحل زیر خواهد بود:

1- تعریف (شامل اندازه گیری)

2- نمونه برداری (شامل طراحی آزمایشات)

3- کاهش داده ها

4- به کارگیری داده ها در تست

5- امتحان کردن نتایج

6- طراحی مجدد شواهد ( در صورتی که عملکرد مدل در مقابل شواهد شکست بخورد این امکان وجود خواهد داشت که شواهد گردآوری شده اشتباه بوده باشند)

در مقاله ای دیگر، بلاک (Black, 1962)، اعتبار یک مدل معین را با بررسی میزان همریختی (isomorphism) آن با کاربرد مورد نظر بررسی کرده است.

مفهوم ایزومرفیسم یا ایزومرفیسم جزیی، از مفاهیم مهم در اعتبارسنجی مدلها می باشد. بایستی دقت داشت در معادل فرض کردن اعتبار و مفهوم رسمی همریختی، یک مدل حاوی مواردی از جنس عمومی (نظیر معادلات ریاضی) است، در حالیکه یک سیستم معمولا به فرم داده (اندازه گیری و مشاهدات) می باشد که به شکل ثبت وقایع خاص تعریف شده است. لذا مدل و داده دارای ساختارهای متفاوتی از دید منطقی می باشند.

نیلور و همکاران (Naylor et al., 1966) چهار متدولوژی متمایز از هم را برای صحت سنجی و اعتبار سنجی مدل ها پیشنهاد نموده اند. این متدولوژی ها عبارتند از:

الف) Synthetic apriorism

نظریه ای که مدل بر اساس آن بنا نهاده شده است صرفا سیستمی از استنتاج های منطقی از مجموعه ای از مقدمات می باشد که بر مبنای واقعیت های غیر قابل تردید بنا نهاده شده اند.

ب) Ultra empiricism

این متدولوژی یک شکل افراطی از اثبات گرایی منطقی می باشد که انسان را محور همه چیز می داند (از واقعیت ها آغاز می کنند نه از مفروضات)

ج) Positive economics

طبق این متدولوژی در حوزه های اقتصادی، معیار اعتبارسنجی درست بودن مفروضات مدلها نیست، بلکه توانایی آنها در پیشگویی رفتار متغیرهای برونزای منظور شده در مدل می باشد.

این اصل تنها شاخصی جهت اعتبارسنجی یک مدل می باشد که آنرا بدون توجه به ناموجه بودن مفروضات می پذیرد.

د) اعتبارسنجی چند مرحله ای

مرحله 1- فرموله کردن فرضیه ها و اصول موضوعه

مرحله 2- اصول موضوعه را به عنوان فرضیه های آزمایشی در نظر بگیرید

سعی کنید ایده کارل پوپر در خصوص ابطال پذیری اصول موضوعه را اعمال نمایید. برای این منظور می توانید از انواع  تست های آماری نظیر تست t، تست F، مربع کای، تست های آزاد از توزیع و غیره کمک بگیرید.

درست است که از نظر فلسفی اعتبارسنجی اصول موضوعه بی معناست، ولی می توان روش های تست آماری را روی فرضیه های استخراج شده از آن اصول موضوعه به کار گرفت.

مرحله 3- تست توانایی مدل در پیشگویی رفتار سیستم

از این مرحله می توان جهت مدلهای هنجاری و مدلهای تشریحی استفاده نمود. اعتبار مدلهای تشریحی را می توان با رد یا تایید آنها توسط مشاهدات تجربی تعیین کرد در حالیکه مدلهای هنجاری را می توان به کمک تاثیر آنها در دست یابی به برخی از اهداف سیاستی معین تشخیص داد.

هرمان (Hermann, 1967) اعتقاد دارد که قصد و هدف از یک مدل، به شدت روی شیوه اعتبارسنجی مدل می تواند موثر باشد. وی پنج نوع معیار برای اعتبارسنجی را تعیین نموده است:

1) اعتبار داخلی internal validity

2) اعتبار صوری face validity

3) اعتبار متغیر / پارامتر

4) اعتبار وقایع event

5) اعتبار فرضیه hypothesis

فیشمن و کیویات  (Fishman & Kiviat, 1968)  مابین صحت سنجی و اعتبار سنجی تمایز قائل شده اند. صحت سنجی نشان می دهد که آیا یک مدل با ساختار ویژه و داده ها آنگونه که طراح مدل می خواسته است رفتار می کند یا خیر؟

اعتبارسنجی نشان می دهد که تا چه حد یک مدل می تواند سیستم دنیای واقعی را تقریب بزند.

در مقوله اعتبار و اعتبارسنجی در مدلهای علوم اجتماعی نیز ادبیات مناسبی وجود دارد. کاپلان (Kaplan, 1964) اعتقاد دارد که یک نظریه یا یک مدل هنگامی معتبر است که واجد دو ویژگی باشد:

– نقش خود را در پژوهش علمی به خوبی ایفا کند (به هدف خود دست یابد)

– در تست های تجربی موفق عمل کند

کاپلان توضیح نمی دهد که چگونه بایستی ایفای نقش موفق مدل را اندازه گیری کرد یا سنجید. وی از دیدگاه یک تئوریسین حوزه روان درمانی سه نوع اعتبار را نام می برد:

الف) اعتبار محتوایی content validity

حوزه خاصی که اندازه گیری یا تست در آن حوزه انجام می پذیرد.

ب) اعتبار پیشگویی

نتایج حاصل از مدل با نتایج واقعی تجربی مقایسه می گردد.

ج) اعتبار ساخت construct validity

اعتبار اندازه های ساخته شده را می سنجد. یعنی اندازه هایی که مستقیما قابل مشاهده نمی باشند. در حقیقت اعتبار روابط عملکردی سنجیده می شوند.

بسیاری از متغیرهای استفاده شده در علوم اجتماعی به صورت مستقیم قابل مشاهده نمی باشند (یعنی یک صفت تجربی واحد برای اندازه گیری متغیر وجود ندارد). چند متغیر در قالب یک خوشه ظاهر می شوند که صفتی قابل اندازه گیری را نشان می دهند. در علوم اجتماعی به این مجموعه از صفت ها indicators یا شاخص ها گفته می شود. متغیرهای غیر مستقیم هم که شاخص ها آنها را اندازه گیری می کنند، unobserved یا مشاهده ناپذیر نامیده می شوند.

سه نوع روش متمایز برای اندازه گیری متغیرهای مشاهده ناپذیر توسط تکنیک های شاخص ها وجود دارند:

1- شاخص تکی: یک شاخص تکی جهت اندازه گیری متغیر به کار می رود ( اندازه گیری نقطه ای)

2- index: یک گروه از شاخص ها با هم ترکیب می شوند تا یک index یا امتیاز تکی خلاصه شده را شکل دهند.

3- چند شاخصه: در این روش، شاخص ها هویت منفرد خود را حفظ می کنند.

هر سه روش شامل ملاحظات اعتبار محتوایی و پیشگویی می گردند. اعتبار یک index در عین حال به چارچوب مفهومی که اجزا شاخص و شیوه ترکیب آنها را با همدیگر مشخص می کند (یعنی اعتبار ساخت) هم بستگی دارد.

از نظر کاهنه (Kahne, 1976) یک مدل می تواند credibility داشته باشد که خود به دو بخش validity و value تقسیم می گردد. اعتبار یک مدل می تواند توسط نزدیکی بردار خروجی آن به بردار خروجی طبیعی سیستم اندازه گیری شود.

کارپلاس (Karplus, 1977) اعتقاد دارد که مدلها در علوم فیزیکی تمایل دارند تا به صورتی ساختاری بر اساس فرآیندی استنتاجی از قوانین و بینش های پایه ای استخراج شوند (قیاس یا deduction) . در حالیکه در علوم اجتماعی این مدلها عموما بر اساس یک سیستم اندازه گیری ورودی-خروجی به دست می آیند (استقرا  induction ) .

از این رو در حالت حدی، کارپلاس یک طیف برای مدلهای ریاضی پیشنهاد می کند که بر اساس درجه قیاسی / استقرایی بودن تعریف شده باشند.

3- شناسایی سیستم و اعتبارسنجی مدل

شناسایی سیستم به معنای فرآیند تعیین یک مدل به همراه تعیین مقادیر پارامترهای آن (بر اساس داده های ورودی و خروجی) می باشد.

روش معمول که تحت عنوان تخمین پارامتر نامیده می شود عبارت است از تنظیم پارامترها تا بدانجا که پاسخ مدل نزدیک ترین ارزش به داده ها را داشته باشد ( در حالیکه ساختار یک مدل خاص را در نظر گرفته باشیم).

خود ساختار مدل هم می تواند به گونه ای تغییر داده شود تا بهترین برازندگی به دست آید. دو دیدگاه در این زمینه وجود دارند:

الف) دیدگاه پیشینی (priori) از تئوری شناسایی پذیری (identifiability) که توسط دی استفانو و کوبللی ارائه شده است (Distefano & Cobelli, 1980).

شناسایی پذیری پیشینی را به معنای یگانه بودن مطابقت بین یک مدل و جایگاه های ورودی و خروجی آن بدون توجه به ملاحظات در خصوص داده های سیستم تعریف کرده اند. به بیان دیگر اصولانیازی به وجود خود سیستم نیست (به همین جهت بعضا از شناسایی پذیری تئوریک هم به جای پیشینی استفاده میگردد)

ب) شناسایی پذیری پسینی (posteriori) یا کاربردی

یکی از راه های شناسایی مدل، ترکیب نمودن خروجی های مدل و داده های سیستم در یک تابع زیان می باشد. این تابع می تواند در فضای پارامترهای مدل بهینه گردد. اگر ساختار مدل دارای عدم قطعیت باشد، می توان این تغییرات را تا دست یابی به مدل و پارامترهای بهینه ادامه داد.

1-3- ارتباط مابین شناسایی سیستم و اعتبارسنجی مدل

نقش شناسایی سیستم در اعتبار سنجی مدل تابعی است از هدف ما از مدل. یک مدل می تواند به صورت پیشینی از نظر پارامترها شناسایی پذیر باشد، به خوبی برازش داده ها را انجام دهد، ولی به هیچ عنوان ساختار داخلی آن بیانگر سیستم مورد مطالعه نباشد. مثلا ممکن است مدل خطی باشد در حالیکه محدودیت های سیستم کاملا غیر خطی رفتار نمایند. در این حالت اگر هدف از مدل صرفا این است که ویژگی های ورودی/خروجی سیستم را باز تولید نماید (برای یک دامنه محدود تر ورودی ها) پس برای این هدف، مدل معتبر می باشد و شناسایی پذیری در اینجا معادل با اعتبارسنجی خواهد بود.

با این حال اگر قصد این باشد که مدل هم ویژگی های درونی سیستم و هم ویژگی های ورودی/خروجی آنرا نمایندگی کند، برای اعتبارسنجی آن نیازمند تست های بسیار قوی تری خواهیم بود (مثلا برای یک مدل خطی، تست های خطی بودن الزامی خواهند بود).

در مجموع اگر یک مدل برازندگی خوبی نسبت به داده ها داشته باشد، شاخص انحراف کوچکی برای پارامترها داشته باشد (بخصوص کوواریانس) و نیز ویژگی های کیفی قابل توجهی را از خود نشان دهد، تمامی اینها شواهد خوبی جهت اعتبار مدل خواهند بود. مهرا (Mehra, 1980) دو نوع تست جهت اعتبارسنجی مدل معرفی می کند: اعتبارسنجی نظریه پایه، اعتبارسنجی داده پایه.

تست های نظریه پایه شامل تست های شبیه سازی، تجزیه و تحلیل حساسیت و تحلیل های پایداری مدل می گردند.

2-3- مفهوم کفایت مدل (Adequacy)

مفهوم کفایت مدل به عنوان جایگزینی برای اعتبارسنجی معرفی شد تا مشکلات ناشی از رویکردهای فلسفی به اعتبارسنجی پیش نیایند. معمولا مفهوم کفایت در مواجهه با مجموعه ای از مدلها پیش می آید. مدلی که دارای بیشترین کفایت است مدلی است که از همه بیشتر به بردار داده ها نزدیکتر است و در عین حال یک هدف عملی را هم ارضا می کند، نظیر سادگی.

رجانی و مارکتی (Reggiani & Marchetti, 1975) یک رویکرد برداری جهت کفایت مدل را ارائه نمودند: مساله عبارت است از یافتن کافی ترین مدل M از میان مجموعه ای از مدلهای Mb که θ (یک هدف داده شده) را نمایندگی کند. آنها مفهومی را مبتنی بر فاصله برداری مابین مدلها ارائه نمودند. این کار اجازه رتبه بندی مدل ها را خواهد داد. دلیل مطرح شده بردار این است که قاعتا نمی توان تنها با یک معیار، کفایت مدل را ارزیابی نمود. فاصله مدل M از هدف θ ملاک رتبه بندی مدلها قرار خواهد گرفت.

آرجنتزی (Argentesi, 1978) مدل رجانی و مارکتری را توسعه داد و مولفه بردار V را به صورت زیر دسته بندی نمود:

1- شاخص برازندگی مطلق (شاخص ماکرو) Global fitting index

2- شاخص برازندگی جزیی (برای زیر مدلها)  Partial fitting index      

3- شاخص سادگی (تعداد پارامترها) Simplicity index

4- شاخص های تجزیه و تحلیل حساسیت و آنالیز خطا

5- شاخص های مرتبط و ویژه

اگر اندیس ها و مولفه ها به درستی انتخاب شده باشند، همگی مولفه های V برای θ بایستی صفر گردند. در این حالت باید داشته باشیم:    

[math]min|V(M)-V(theta)|[/math]

مراجع:

Argentesi, F. (1978). A methodology for the evaluation of model adequacy. Progress in Cybernetics and Systems Research, III, John Wiley, New York, 184, 190.

Black, M. (1962). Models and archetypes. Models and Metaphors: Studies in Language and Philosophy (Ithaca, New York: Cornell University Press, 1962) p, 22, 664-677.

Churchman, C. W., Ackoff, R. L., & Arnoff, E. L. (1957). Introduction to operations research.

Distefano, J., & Cobelli, C. (1980). On parameter and structural identifiability: Nonunique observability/reconstructibility for identifiable systems, other ambiguities, and new definitions. IEEE Transactions on Automatic Control, 25(4), 830-833.

Finlay, P. N., & Wilson, J. M. (1990). Orders of validation in mathematical modelling. Journal of the Operational Research Society, 41(2), 103-109.

Fishman, G. S., & Kiviat, P. J. (1968). The statistics of discrete-event simulation. Simulation, 10(4), 185-195.

Hermann, C. F. (1967). Validation problems in games and simulations with special reference to models of international politics. Behavioral science, 12(3), 216-231.

Kahne, I. (1976). Model credibility for large-scale systems. IEEE Transactions on Systems, Man, and Cybernetics.

Kaplan, A. (2017). The conduct of inquiry: Methodology for behavioural science. Routledge.

Karplus, W. J. (1977). The spectrum of mathematical modeling and systems simulation. ACM SIGSIM Simulation Digest, 9(1), 32-38.

Leaning, M. S. (1980). The validity and validation of mathematical models: Methodological, theoretical, and practical studies with emphasis on the modelling of complex biological systems (Doctoral dissertation, The City University).

Mehra, R. K. (1979). Nonlinear system identification: selected survey and recent trends. IFAC Proceedings Volumes, 12(8), 77-83.

Naylor, T. H. (1966). Computer simulation techniques.

Reggiani, M. G., & Marchetti, F. E. (1975). On assessing model adequacy. IEEE Transactions on Systems, Man, and Cybernetics, (3), 322-330.

نظرات بسته شده است.