ر حال حاضر اکثر الگوریتمهای جستجوی به کار گرفته شده در ابزارهای کاوش قوانین انجمنی عددی از روش های گسسته سازی متغیرهای پیوسته استفاده کرده و فرض میکنند که تمامی متغیرها گسسته هستند. این مسئله، منجر به تولید قوانین انجمنی میشود که از دقت و صحت قابل قبولی برخوردار نیستند. از آن جایی که مسئلۀ کاوش قوانین انجمنی عددی یک مسئلۀ بهینه سازی سخت به شمار میرود،تا یک مسئلۀ گسسته سازی ساده، الگوریتمهای جستجوگری که میتوانند با متغیرهای پیوسته سروکار داشته باشند و جواب هایی دقیقتر از جوابهای روش های مرسوم فراهم آورند، میتوانند جالب توجه باشند.
 در این پایان نامه، الگوریتم جدیدی برای کاوش قوانین انجمنی عددی چند هدفه ارائه شده که قادر است که بدون نیاز به مشخص کردن آستانۀ حداقل پشتیبان و حداقل اطمینان و در یک مرحله به کشف بازههایی از صفات عددی که قوانین انجمنی جذاب، با پشتیبان و اطمینان بالا بپردازد. برای این کار، الگوریتم کلونی مورچهها در حوزة پیوسته (ACOR) به گونهای به کار گرفته شده است که به تولید قوانین انجمنی عددی بهینۀ یک مجموعه داده، که شامل متغیرهای عددی پیوسته است، بینجامد.
مقدمه:
دادهکاوی سودمندترین ابزار کشف دانش از میان تراکنشها است [3] [2] [1]. یکی از کاربردهای مهم دادهکاوی، کشف قوانین انجمنی میباشد که یکی از مهمترین روش های بازشناسی الگو در سیستمهای بدون نظارت است. کشف قوانین انجمنی مانند جستجوی طلا در یک پایگاه داده بسیار بزرگ است، که در اینجا منظور از طلا یک قانون جذاب که هنوز کشف نشده است، میباشد. از این طریق میتوان تمام قوانین ممکن را در یک پایگاه داده پیدا کرد، اما مسئله اینجاست که تحلیل تعداد زیادی قانون کار سختی است. به همین جهت، معیارهایی همچون ضریب پشتیبان و ضریب اطمینان برای مشخص کردن قوانین با کیفیت بالاتر به کار میروند.
 اکثر الگوریتمهای کاوش قوانین انجمنی، مانند الگوریتم Apriori و AIS، مبتنی بر روش هایی هستند که توسط Agrawalدر [4] و [5] پیشنهاد شدهاند. با بهره گرفتن از این متدها نمیتوان قوانینی را که شامل صفات خاصه عددی هستند کشف نمود. این الگوریتمها مسئله کاوش قوانین انجمنی را به دو قسمت

تقسیم میکنند [1 : [6) تولید مجموعه اقلام مکرر، که در آن همه اقلامی که معیار حداقل پشتیبان را ارضا میکنند پیدا میشوند.تولید قوانین انجمنی، که در آن قوانین انجمنی که حد اقل اطمینان را ارضا میکنند از مجموعه اقلام مکرر تولید شده در مرحله قبل استخراج میشوند. از میان این دو مرحله، 

مقالات و پایان نامه ارشد

تولید قوانین انجمنی، پیچیدگی محاسباتی بالاتری دارد، لذا روش هایی که به طور کارا مجموعه اقلام مکرر را تولید میکنند میتوانند جالب توجه واقع شوند. به محض پیدا شدن مجموعه اقلام مکرر، قوانین انجمنی از این مجموعه اقلام استخراج میشوند.

 در بسیاری از مسائل، ممکن است با اقلام دادهای سر و کار پیدا کنیم. که صریح 3 یا 4عددی هستند.
قوانین حاصل از این مجموعه اقلام را قوانین انجمنی عددی مینامند. به همین دلیل، الگوریتمهایی برای کاوش قوانین انجمنی عددی ارائه شدند. در یک قانون انجمنی عددی صفات خاصۀ داده ها محدود به نوع بولین نیستند، بلکه میتوانند دو نوع عددی (مثل سن، حقوق و گرما) و یا صریح (مثل جنسیت و علامت تجاری) باشند [7]. از آنجایی که کاوش قوانین انجمنی عددی یک مسئله بهینه سازی سخت است تا یک مسئله گسسته سازی ساده، دستۀ مهمی از مسائل کاوش قوانین انجمنی وجود دارند که تنها زمانی میتوانند با یک الگوریتم بهینه سازی ترکیبی حل شوند که بازة پیوستۀ مقادیر مجاز صفات خاصۀ عددی به مجموعۀ محدودی تبدیل شوند. مسئله تبدیل بازة پیوسته به مجموعۀ متناهی همیشه کار راحتی نیست، به خصوص
زمانی که بازة اولیه، بازة وسیعی باشد و شفافیت و دقت بالایی مد نظر باشد. بنابراین، در این گونه موارد، معمولاً الگوریتمهایی که به طور طبیعی و ساده قادر به کار کردن با متغیرهای پیوسته عددی هستند، بهتر عمل میکنند [8].
 هم چنین، کاوش قوانین انجمنی عددی باید به عنوان یک مسئلۀ چند هدفه تلقی شود، چرا که یک قانون انجمنی باید قانونی جذاب و با مقدار پشتیبان و اطمینان بالایی باشد؛ لذا الگوریتمهای کاوش قوانین انجمنی بایستی چند هدفه بوده و به طور همزمان همۀ معیارها را برای کشف قوانین انجمنی مفید بررسی نمایند.
 در سالهای اخیر، الگوی هوش جمعی و به خصوص از این میان بهینه سازی کلونی مورچهها و بهینه سازی گروه ذرات، توجه زیادی را در تحقیقات به خود جلب کرده است. همینطور، این الگوریتمها رایجترین متاهیوریستیکهای هوش جمعی برای داده کاوی هستند.

موضوعات: بدون موضوع  لینک ثابت


فرم در حال بارگذاری ...