تاریخ انتشار | 10 جولای 2021 |
---|---|
فرمت فایل | قابل ویرایش – ورد – word |
تعداد صفحات | 43 صفحه |
کاربرد آمار در داده کاوی
همانگونه که واضح و مشخص است با گذشت زمان علم نیز پیشرفت می کند، هر چه به جلوتر می رویم روشهای جدیدتر و بهتر مورد استفاده قرار می گیرد. علم امروز نسبت به دیروز جدیدتر است. روشهای جدید علمی در پی کشف محدودیت های روشهای قدیمی ایجاد می شود و از آنجایی که روشهای آماری جزء روشهای قدیمی Data mining محسوب می شوند، از این قاعده کلی که دارای محدودیت هستند مستثنی نیستند. داشتن فرض اولیه در مورد داده ها، یکی از این موارد است. در اینجا به تشریح بیشتر تفاوت های بین مباحث و متدهای آماری و دیگر متدهای داده کاوی که در کتابهای مختلف بحث شده است می پردازیم.
تکنیکهای داده کاوی و تکنیکهای آماری در مباحثی چون تعریف مقدار هدف برای پیش گویی، ارزشیابی خوب و داده های دقیق (تمیز) (clean data) خوب عمل می کنند، همچنین این موارد در جاهای یکسان برای انواع یکسانی از مسایل (پیش گویی، کلاس بندی و کشف) استفاده می شوند، بنابراین تفاوت این دو چیست؟چرا ما آنچنان که علاقه مند بکاربردن روشهای داده کاوی هستیم علاقه مند روشهای آماری نیستیم؟ برای جواب این سوال چندین دلیل وجود دارد. اول اینکه روشهای کلاسیک داده کاوی از قبیل شبکه های عصبی، تکنیک نزدیک ترین همسایه روشهای قوی تری برای داده های واقعی به ما می دهند و همچنین استفاده از آنها برای کاربرانی که تجربه کمتری دارند راحت تر است و بهتر می توانند از آن استفاده کنند. دلیل دیگر اینکه بخاطر اینکه معمولاُ داده ها اطلاعات زیادی در اختیار ما نمی گذارند، این روشها با اطلاعات کمتر بهتر می توانند کار کنند و همچنین اینکه برای داده ها وسیع کابرد دارند.
در جایی دیگر اینگونه بیان شده که داده های جمع آوری شده نوعاُ خیلی از فرضهای قدیمی آماری را در نظر نمی گیرند، از قبیل اینکه مشخصه ها باید مستقل باشند، تعیین توزیع داده ها، داشتن کمترین همپوشانی در فضا و زمان اغلب داده ها هم پوشانی زیاد می دارند، تخلف کردن از هر کدام از فرضها می تواند مشکلات بزرگی ایجاد کند. زمانی که یک کاربر (تصمیم گیرنده) سعی می کند که نتیجه ای را بدست آورد. داده های جمع آوری شده بطورکلی تنها مجموعه ای از مشاهدات چندی بعد است بدون توجه به اینکه چگونه جمع آوری شده اند.
در جایی پایه و اساس Data mining به دو مقوله آمار و هوش مصنوعی تقسیم شده است که روشهای مصنوعی به عنوان روشهای یادگیری ماشین در نظر گرفته می شوند.فرق اساسی بین روشهای آماری و روشهای یادگیری ماشین (machine learning) بر اساس فرضها و یا طبیعت داده هایی که پردازش می شوند.بعنوان یک قانون کلی فرضها تکنیکهای آماری بر این اساس است که توزیع داده ها مشخص است که بیشتر موارد فرض بر این است که توزیع نرمال است و در نهایت درستی یا نادرستی نتایج نهایی به درست بودن فرض اولیه وابسته است.در مقابل روشهای یادگیری یادگیری ماشین از هیچ فرض در مورد داده ها استفاده نمی کند و همین مورد باعث تفاوتهایی بین این دو روش می شود.
به هر حال ذکر این نکته ضروری به نظر می رسد که بسیاری از روشهای یادگیری ماشین برای ساخت مدل dataset از حداقل چند استنتاج آماری استفاده می کنندکه این مساله بطور خاص در شبکه عصبی دیده می شود.
بطور کلی روشهای آماری روش های قدیمی تری هستند که به حالت های احتمالی مربوط می شوند.Data mining جایگاه جدید تری دارد که به هوش مصنوعی یادگیری ماشین سیستمهای اطلاعات مدیریت (MIS) و متدلوژی Database مربوط می شود.
روشهای آماری بیشتر زمانی که تعداد دادهها کمتر است و اطلاعات بیشتری در مورد داده ها می توان بدست آورد استفاده می شوند به عبارت دیگر این روشها با مجموعه داده ها ی کوچک تر سر و کار دارند همچنین به کاربران ابزارهای بیشتری برای امتحان کردن داده ها با دقت بیشتر فهمیدن ارتباطات بین داده ها می دهد. بر خلاف روشهایی از قبیل شبکه عصبی که فرآیند مبهمی دارد. پس به طور کلی این روش در محدوده مشخصی از داده های ورودی بکار می رود.بکار بردن این روشها مجموعه داده های مجموعه داده های زیاد احتمال خطا در این روشها را زیاد می کند.چون در داده ها احتمالnoise وخطا بیشتر می شود و نیز روشهای آماری معمولابه حذف noiseمی پردازند، بنابراین خطای محاسبات در این حالت زیاد می شود.
در بعضی از روشهای آماری نیازداریم که توزیع داده ها را بدانیم. اگر بتوان به آن دسترسی پیدا کرده با بکار بردن روش آماری می توان به نتایج خوبی رسید.
روشهای آماری چون پایه ریاضی دارند نتایج دقیق تری نسبت به دیگر روشهای Data mining ارائه می دهند ولی استفاده از روابط ریاضی نیازمند داشتن اطلا عات بیشتری در مورد داده ها است.
مزیت دیگر روشهای آماری در تعبیر و تفسیر داده ها است. هر چند روشهای آماری به خاطر داشتن ساختار ریاضی تفسیر سخت تری دارند ولی دقت نتیجه گیری و تعبیر خروجی ها در این روش بهتر است بطور کلی روشهای آماری زمانی که تفسیر داده ها توسط روشهای دیگر مشکل است بسیار مفید هستند.
این ها فقط بخشی از متون این مقاله و تحقیق و پروژه به صورت پراکنده و ناقص می باشد ، برای دانلود تحقیق ، دانلود مقاله ، دانلود پروژه به صورت کامل لطفا آن را خریداری نمایید. ( بالای صفحه )
دیدگاهها
هیچ دیدگاهی برای این محصول نوشته نشده است.