چگونه داده‌ها را جمع‌آوری و تحلیل کنیم؟

01/07/1400 - 12:05

یکی از مهم‌ترین وظایف متخصصان هوش مصنوعی و یادگیری ماشین جمع‌آوری و تحلیل داده‌ها است. این‌کار هر در تعریف ورودی‌های مدل و هم در به‌دست آوردن معیار ارزیابی برای آزمایش‌ها نیاز است. در ساده‌ترین تعریف، جمع‌آوری داده‌ها فرایند به‌دست آوردن داده‌ها درباره پدیده مورد مطالعه است.

روش‌های مختلفی برای کسب داده‌ها وجود دارد. در برخی موارد، داده‌ها در اسناد قالب‌بندی شده در دسترس قرار دارند و مسئله در واقع پیدا کردن و دسترسی به آن‌ها است. در موارد دیگر، داده‌ها با استفاده از پرسش‌نامه‌ها، بررسی‌های میدانی و آزمایش‌های فیزیکی به‌دست می‌آید. در پروژه‌های جامع و بزرگ‌تر، مثل مدل‌های شهری یا اقتصادی، داده‌های موردنیاز را می‌توان از اسناد موجود و معتبر به‌دست آورد. منابع داده رایج برای برخی مدل‌ها گزارش‌های سرشماری، چیکیده آمار منشتر شده توسط ارگان‌های دولتی و منابعی از این دست است. در پروژه‌های مربوط به سیستم‌های تجاری، یکی از منابع با ارزش داده‌ها اسناد حساب‌داری و مهندسی شرکت‌ها است. این اسناد گاه برای به‌دست آوردن تخمین تقاضا برای محصول، هزینه تولید و دیگر داده‌های مرتبط مفید هستند. با این‌حال، باید دقت کنید که تنها نقطه شروع هستند. پرسش‌نامه‌ها و بررسی‌های میدانی نیز روش‌هایی بالقوه برای به‌دست آوردن داده‌های مرتبط با پروژه‌های صنعتی هستند. با ظهور سامانه‌های جمع‌آوری داده‌های آنلاین و مستمر، کسب داده‌ها به فرایندی نیمه پیوسته تبدیل شده، زیرا به راحتی داده‌ها در پایگاه داده یا اسناد کامپیوتری به شکل ساخت‌یافته در دسترس قرار می‌گیرند. به‌طور معمول، آزمایش‌های فیزیکی پر هزینه و زمان‌بر هستند، زیرا مستلزم اندازه‌گیری، ثبت و ویرایش داده‌ها هستند. علاوه بر این در برنامه‌ریزی این نوع آزمایش‌ها باید دقت زیادی به خرج دهید تا اطمینان حاصل کنید شرایط آزمایش توصیف‌کننده شرایط واقعی است و داده‌ها به درستی ثبت شده‌اند.

با این‌حال، در برخی موارد، ممکن است داده‌های در دسترس نباشد یا بودجه موجود یا ماهیت سیستم مانع از انجام آزمایش شود. یک مثال روشن در اینز مینه طرح پیشنهادی مکان‌یابی در یک خط مونتاژ است. یک روش کسب داده‌ها در چنین سناریوهایی، استفاده از داده‌های متقاون یا از پیش در دسترس است. در روش مذکور، برآوردهای مدت زمان‌های فعالیت با استفاده از جداول داده‌های استاندارد انجام می‌شود. روش دیگر استفاده از داده‌ها به‌دست آمده از فعالیت‌های مشابه یا هم‌تراز است.

در هر دو حالت، جمع‌آوری داده‌ها برای تعریف ورود‌های مدل و جمع‌آوری داده‌ها برای ارزیابی عملکرد سیستم با استفاده از مدل، ما مشکلی به‌نام تبدیل داده‌ها خام به شکل قابل استفاده را روبروی خود مشاهده می‌کنیم. به همین دلیل روش‌هایی که برای خلاصه‌سازی یا توصیف مشخص‌های مهم مجموعه‌ای از داده‌های طراحی شده برای ما اهمیت دارد. این روش‌ها داده‌ها را در ازای حذف مقداری از اطلاعات خلاصه می‌کنند.

گروه‌بندی داده‌ها

یک روش برای تبدیل داده‌ها به شکلی که پردازش آن‌ها را ساده‌تر می‌کند اشاره دارد. گروهربندی داده‌ها به شکل دسته‌ها و مجموعه‌های کوچک‌تر انجام می‌شود. در ادامه داده‌ها با جدول‌بندی و تعیین گروهی که باید در آن قرار گیرند خلاصه می‌شوند. این نوع جدول را جدول توزیع فراوانی نیز می‌نامند. جدولی که توصیف خوبی از اطلاعات ارایه می‌کند. أنواع مخحتلفی از جدول توزیع فراوانی وجود دارد که برای نمایش داده‌های گروه‌بندی شده مفید هستند. یک نوع از آن‌ها فراوانی‌های تجمعی است که از به هم افزودن متوالی فراوانی‌ها در جدول فراوانی به‌دست می‌آید.

متخصصان هوش مصنوعی ابزار دیگری به‌نام توزیع فراوانی در اختیار دارند که از طریق تقسیم مقدار داده‌ها به مجموعه کل به‌دست می‌آید. جداول توزیع فراوانی هنگام مقایسه دو یا چند توزیع آماری مفید هستند. توزیع فراوانی و تجمعی گاهی برای افزایش تفسیر‌پذیری داده‌ها به شکل تصویری نشان داده می‌شود. متداول‌تر نوع ارائه تصویری، هیستوگرام است که فراوانی‌های هر دو گروه را به شکل مستطیل‌های که طول‌شان نشانگر فراوانی گروه است نشان می‌دهد.

نکاتی مهم در زمان تهیه جدول توزیع فراوانی

ابتدا باید تعداد گروه‌ها و حدهای بالا و پایین برای هر گروه را مشخص کنید. این انتخاب‌ها به ماهیت و کاربرد نهایی داده‌ها بستگی دارد.

تا جایی که ممکن است عرض گروه‌ها برابر در نظر بگیرید. البته در این زمینه استثناءهایی نیاز وجود دارد.

فواصل گروه‌ها نباید روی هم منطبق باشند و هر نقطه از اطلاعات باید تنها به یک گروه مرتبط باشد.

به‌طور معمول حداقل 5 و حداکثر 20 گروه استفاده شود.

برآورد پارامتر

اگر مجموعه‌ای از داده‌ها شامل تمام مشاهدات ممکن از متغیر تصادفی هستند از آن با عنوان جمعیت (Population) نام برده می‌شود و اگر تنها شامل بخشی از مشاهدات باشند به عنوان نمونه (Sample) از آن نام برده می‌شود. روش دیگر برای خلاصه‌سازی مجموعه‌ای از داده‌ها در نظر گرفتن داده‌ها به عنوان نمونه‌ای است که برای تخمین پارامترهای جمعیت مربوطه از آن استفاده می‌شود. از پارامترهای مربوط به جمعیت که بیشتر از همه استفاده می‌شوند باید به میانگین یا مقیاس مرکزیت و واریانس که مقیاس پراکندگی است اشاره کرد. در برآورد پارامترهای جمعیت از طریق داده‌های نمونه باید به دو نکته مهم دقت کنید. اول آن‌که ما به ثبت نمونه و فقط به مقدار هر مشاهده بدون توجه به زمان آن می‌پردازیم. آماری که از ثبت نمونه‌های مستقل از زمان به‌دست می‌آید به آمار بر پایه مشاهده معروف هستند. نکته دوم برای متغیرهایی است که مقادیر آن‌ها با توجه به زمان تعریف شده‌اند.

تخمین توزیع

در حالی که خواص توزیع‌های فرضی به مدل‌ساز کمک می‌کند توزیع فرضی مناسبی را انتخاب کند، اما بهتر است که این فرض با یک یا چند آزمون آزمایش شود. آزمون‌های کای-مربع (Chi-square) و کالمگروف اسمیرنوف (Kolmogorov Smirnov) آزمون‌های شناخته شده در این زمینه هستند.

مدل شبیه‌سازی

برای تهیه مدل شبیه‌سازی، مدل‌ساز باید چارچوب ذهنی برای توصیف سیستم انتخاب کند. این چارچوب یا دورنما توصیف‌کننده نگرش کلی است که در آن روابط کارکردی سیستم را می‌توان مشاهده و توصیف کرد. مدل‌های سیستم‌ها را می‌توان به دو گروه با تغییرات گسسته و تغییرات پیوسته تقسیم کرد. دو اصطلاح مذکور به مدل و نه به سیستم واقعی مرتبط هستند. هر سیستم را می‌توان به شکل تغییرات گسسته و به شکل تغییرات پیوسته مدل کرد. در بیشتر شبیه‌سازی‌ها، زمان مهم‌ترین متغیر مستقل است و دیگر متغیرهای شبیه‌سازی، تابعی از زمان و متغیرهای وابسته هستند. در بحث شبیه‌سازی، گسسته و پیسوته توصیف‌کننده رفتار متغیرهای وابسته هستند. در شبیه‌سازی گسسته، متغیرهای وابسته در مقاطع ویژه‌ای از زمان که زمان‌های رخداد نام دارد تغییر می‌کنند. در چنین مدل‌هایی، متغیر زمان، بسته به این‌که متغیرهای وابسته در هر نقطه از زمان بتوانند اتفاق افتند یا در مقاطعی ویژه از زمان رخ دهند پیوسته یا گسسته هستند.

در شبیه‌سای پیوسته، متغیرهای وابسته مدل ممکن است در طول زمان شبیه‌سازی به‌طور دایم تغییر کنند. اگر مقادیر متغیرهای سیستم فقط در بازه‌های زمانی مشخصی در دسترس باشند، شبیه‌سازی از نظر زمان به شکل گسسته انجام می‌شود و اگر مقادیر متغیرهای سیستم در هر لحظه از زمان در دسترس باشند شبیه‌سازی از نظر زمان به شکل پیوسته است. البته حالت دیگری نیز وجود دارد که به‌نام شبیه‌سازی ترکیبی از آن نام برده می‌شود. در این روش متغیرهای وابسته مدل ممکن است به‌طور گسسته، پیوسته یا پویسته با پرش‌های گسسته تغییر کنند. در این‌جا متغیر زمان ممکن است پیوسته یا گسسته باشد.

مطالب پربازدید

ماهنامه شبکه را از کجا تهیه کنیم؟
ماهنامه شبکه را می‌توانید از کتابخانه‌های عمومی سراسر کشور و نیز از دکه‌های روزنامه‌فروشی تهیه نمائید.

ثبت اشتراک نسخه کاغذی ماهنامه شبکه
ثبت اشتراک نسخه آنلاین

کتاب الکترونیک +Network راهنمای شبکه‌ها

برای دانلود تنها کتاب کامل ترجمه فارسی +Network اینجا کلیک کنید.

کتاب الکترونیک دوره مقدماتی آموزش پایتون

اگر قصد یادگیری برنامه‌نویسی را دارید ولی هیچ پیش‌زمینه‌ای ندارید اینجا کلیک کنید.

برچسب:

به اشتراک گذاری مطلب:

Telegram Twitter Print HTML

نظر شما چیست؟

form.antibot { display: none !important; } You must have JavaScript enabled to use this form.

پربازدیدترین مطالب

کتابخانه های گرافیکی در پایتون

چگونه داده‌ها را جمع‌آوری و تحلیل کنیم؟