فرآیندکاوی چیست؟
در دادهکاوی معمولا مدلها برای پیشبینی نمونههای مشابه در آینده استفاده میشوند. در واقع روشهای دادهکاوی و یادگیری ماشین کمی وجود دارند که مانند یک جعبه سیاه پیشبینیهایی تولید میکنند بدون اینکه امکان برگشت به عقب یا بیان علت آنها را داشته باشند. از آنجا که فرایندهای تجاری کنونی خیلی پیچیده هستند پیشبینیهای دقیق معمولا غیرواقعی هستند. دانش بهدست آمده و بینش عمیقتر نسبت به الگوهای و فرایندهای کشف شده به رفع پیچیدگی کمک خواهد کرد؛ بنابراین اگرچه دادهکاوی و فرایندکاوی مشترکات زیادی دارند اما تفاوتهای پایهای بین آنها در کاری که انجام میدهند و جایی که مورد استفاده قرار میگیرند وجود دارد. فرایندکاوی (Process mining) علم تقریبا نوظهوری است که میان هوش محاسباتی و دادهکاوی و مدلسازی و تحلیل فرایندهای سازمان قرار میگیرد. هدف فرآیندکاوی، کشف، نظارت و بهبود فرایندهای واقعی از طریق استخراج دانش از دادههای ذخیره شده در سیستمهای اطلاعاتی است. فرآیندکاوی بیشتر به تحلیل فرایندها با استفاده از گزارشهای رخدادها میپردازد. تکنیکهای کلاسیک دادهکاوی نظیر خوشهبندی، طبقهبندی، انجمنیابی و غیره روی مدلهای فرایند تمرکز ندارند و فقط برای تحلیل گام مشخصی در فرایند کلی استفاده میشوند. فرآیندکاوی دیدگاه فرآیندی را به دادهکاوی اضافه میکند. تکنیکهای فرایندکاوی از دادههای رخدادهای ثبت شده برای کشف و تحلیل و بهبود فرآیند استفاده میکنند. هر رخداد ثبت شده به یک فعالیت اشاره دارد و مرتبط با یک نمونه فرآیند میباشد.
فرآیندکاوی چگونه انجام میشود؟
روشهای فرایندکاوی، براساس دادههای رخداد به سه دسته تکنیکهای کشف فرایند (process discovery)، تکنیکهای بررسی انطباق (conformance checking) و تکنیکهای بهبود فرآیند (process enhancement) طبقهبندی میشوند.
بهطور مثال، در گروه اول که تکنیکهای کشف فرایند هستند، دادههای رخداد دریافت میشوند و یک مدل بدون استفاده از هیچ اطلاعات پیشینی تولید میکنند. تکنیکهای بررسی انطباق بررسی میکنند که آیا فرایند واقعی که در حال اجرا در سازمان بوده منطبق با مدل کشف شده است و بلعکس. تکنیکهای دسته سوم هم به این موضوع میپردازند که آیا میشود با استفاده از دادههای رخداد یک فرایند را ارتقا یا توسعه داد. به عنوان مثال با استفاده از برچسب زمانی در دادههای ثبت شده میتوان مدل را طوری توسعه داد که گلوگاهها، زمان انتظار برای دریافت خدمت و زمان توان عملیاتی را نشان دهد. برخلاف روشهای تحلیلی دیگر، فرآیندکاوی فرایند محور است و نه داده محور اما با داده کاوی در ارتباط است.
فرایندکاوی چه تفاوتی با دادهکاوی دارد؟
در حقیقت فرآیندکاوی قدرت دادهکاوی و مدلسازی فرایند را ترکیب میکند؛ با تولید خودکار مدل فرایندها بر مبنای لاگ های رخداد، فرآیندکاوی باعث ایجاد مدلهای زنده با قابلیت به روز رسانی بالا میشود. فرآیندکاوی نقاط مشترک زیادی با دادهکاوی دارد. من جمله مشترکات این است که هر دو با چالش پردازش حجم بزرگ دادهها مواجه هستند. سیستمهای فناوری اطلاعات دادههای زیادی درباره فرایندهای تجاری مورد پشتیبانی خود جمعآوری میکنند. این دادهها به خوبی بیانگر آنچه در دنیای واقعی اتفاق افتاده هستند و قابلیت استفاده برای درک و بهبود سازمان را دارند. بر خلاف دادهکاوی، فرایندکاوی بر دیدگاه فرایندی تمرکز میکند؛ یعنی به یک اجرای فرایند از منظر تعدادی فعالیت اجرا شده نگاه میکند. بیشتر تکنیکهای دادهکاوی الگوها را در قالبی مانند قوانین یا درخت تصمیم استخراج میکنند. اما فرایندکاوی مدل فرایندهای کاملی ایجاد میکند و سپس از آنها برای شناسایی گلوگاه استفاده میکند. در دادهکاوی عمومیسازی به منظور جلوگیری از سرریز شدن دادهها امری بسیار مهم است. این یعنی میخواهیم تمام دادههایی را که با قانون کلی سازگاری ندارند دور بیندازیم. در فرایندکاوی نیز عمومیسازی در کار کردن با فرایندهای پیچیده و درک جریان فرایندهای اصلی لازم است. همچنین در بیشتر موارد درک استثناءها به منظور کشف نقاط ناکارآمدی و نیازمند بهبود ضروری به نظر میرسد.
چالشهای فرایندکاوی
کاوش فرایند مهمترین ابزار برای سازمانهای مدرنی است که نیاز به مدیریت مناسب فرایندهای عملیاتی دارند. از یک سو با رشد باورنکردنی حجم داده روبرو هستیم و از دیگر سو فرایندها و اطلاعات باید بهطور مناسب جمعآوری شوند تا نیازمندیهای مربوط به کارایی، انطباق و خدمت رسانی پاسخ داده شود. علیرغم کاربردی بودن فرآیندکاوی، هنوز چالشهای عمدهای پیش رو میباشد که باید مورد توجه قرار گیرد. در ذیل به این چالشها اشاره شده است.
در سیستمهای فعلی انرژی زیادی باید صرف استخراج دادههای رویداد مناسب برای کاوش فرایند صورت گیرد. بهطور معمول، در این زمنیه چند مشکل وجود دارد که باید مرتفع گردد. برخی از این مشکلات عبارتند از:
- ممکن است دادهها بر روی چندین منبع توزیع شده باشد. این اطلاعات باید ادغام گردند. این مشکل زمانی حادتر میشود که از چندین شناسه برای منابع مختلف استفاده شود. مثلاً یک سیستم از نام و تاریخ تولد برای شناسایی افراد استفاده کند و سیستم دیگر از شماره امنیتی اجتماعی فرد.
- دادههای سازمانی بیشتر شیمحور میباشند و نه فرایندمحور. به عنوان مثال محصولات و ظرفها میتواند تگهای RFID ایی داشته باشند که خودکار منجر به ثبت رکورد گردند. برای رصد کردن سفارش یک مشتری، این اطلاعات شی محور باید ادغام و پیش پردازش شوند.
- دادههای رویداد ممکن است ناکامل باشند. یکی از رایجترین مشکلات این است که رویدادها به صورت صریح به نمونههای فرایند اشاره نمیکنند.
- دادههای رویداد ممکن است حاوی اطلاعات پرت باشد. منظور از دادههای پرت نمونههایی است که از الگوی عمومی پیروی نکرده و به ندرت اتفاق میافتند.
برای حل این مشکل نیاز به ابزارهای بهتر و متدولوژیهای مناسب تر میباشد. علاوه بر آن، همانطور که پیش تر نیز به آن اشاره شد، سازمانها باید با دادههای لاگ همانند شهروندان درجه یک برخورد کنند و نه به عنوان یک محصول جانبی.
- دومین چالش بزرگ استفاده از دادههای رویداد پیچیدهای که ویژگیهای گوناگونی دارند. دادههای گزارش ممکن است که ویژگیهای خیلی متنوعی داشته باشند. بعضی از دادههای لاگ ممکن است که آنچنان بزرگ باشند که رسیدگی به آنها دشوار باشد و بعضی از آنها ممکن است آنقدر کوچک باشند که نتوان نتایج قابل اطمینانی از آنها استحصال کرد. ابزارهای موجود در مواجه با دادههای با ابعاد پتابایت دشواریهایی دارند. در کنار تعداد رکوردهای رویدادهای ذخیره شده ویژگیهای دیگری نظیر متوسط تعداد رویدادها در هر حالت، شباهت میان حالتها، تعداد رویدادهای منحصر به فرد و تعداد مسیرهای واحد نیز هستند که باید مورد توجه قرار گیرند. به عنوان مثال فایل لاگ داده L1 با مشخصات ذیل را در نظر بگیرید: ۱۰۰۰ حالت، بهطور متوسط ۱۰ رویداد به ازای هر حالت. فرض کنید فایل لاگ L2 حاوی تنها ۱۰۰ حالت باشد اما هر حالت حاوی ۱۰۰ رویداد باشد و همه رویدادها از یک مسیر واحد تبعیت کنند. پر واضح است که آنالیز L2 بمراتب دشوارتر از آنالیز L1 میباشد، علیرغم اینکه هر دو فایل سایز برابر و یکسانی دارند. از آنجایی که دادههای لاگ تنها حاوی نمونههای مثال میباشند، بنابراین نباید اینطور فرض شود که آنها کامل هستند. تکنیکهای کاوش متن باید با استفاده از «فرض جهان باز» با این عدم کامل بودن کنار بیایند: این واقعیت که اگر پدیدهای اتفاق نمیافتد به معنای عدم امکان رخداد آن نیست. این موضوع تعامل با دادههای لاگ با سایز کم و حاوی تغییرات زیاد را دشوار میکند. همانطور که پیشتر هم اشاره شد، بعضی از فایلهای لاگ ممکن است حاوی رکوردهایی با سطح انتزاع بسیار پایین باشند. دادههای با سطح پایین چندان مطلوب ذی نفعان نمیباشند؛ بنابراین عموماً سعی میشود تا دادههای سطح پایین با همدیگر تجمیع شوند تا دادههای با سطح بالاتر تولید گردد. به عنوان مثال، زمانی که فرایند تشخیص و درمان گروهی از بیماران آنالیز میشود، احتمالاً دیگر علاقهمند به دانستن نتایج آزمایشها انفرادی افراد نیستیم. در این گونه از موارد، سازمانها لازم است که از روش سعی و خطا استفاده نمایند تا دریابند که آیا دادهها مناسب برای کاوش فرایند میباشند؛ بنابراین ابزارها باید سرویس آزمایش امکانسنجی سریع برای یک پایگاه داده مشخص را فراهم نمایند.
- چالش بعدی برقراری تعادل بین معیارهای کیفیت نظیر سازگاری، سادگی، دقت و عمومیت است. غالباً دادههای ثبت شده کامل نیستند. مدلهای فرایندی معمولاً محدودیتی برای تعداد نامحدود نمونه فرایند (درحالت وجود حلقهها) ندارند. از طرفی، بعضی از نمونهها هم نسبت به سایرین رخداد بمراتب کمتری دارند؛ بنابراین اینکه فکر کنیم هر نمونه فرایند قابل رخدادی در فایل وقایع ثبت شده موجود میباشد، تصور نادرستی میباشد. ساخت مدل برای رفتارهایی که به ندرت رخ میدهند (دادههای نویز) کار بسیار دشواری میباشد. در این گونه موارد، برای پردازش این دسته از رفتارها بهتر است که از چک کردن مطابعت استفاده شود. نویز و ناکامل بودن، کشف فرایند را به یکی از پرچالشترین مسائل تبدیل کردهاست. تعادل برقرار کردن بین معیارهای سادگی، سازگاری، دقت و عمومیت داشتن کار پرچالشی میباشد. به همین دلیل اکثر تکنیکهای قدرتمند کاوش فرایند پارامترهای متنوعی را فراهم میسازند. الگوریتمهای جدیدی برای تعادل برقرار کردن بین این معیارها نیاز میباشد.
- چالش بعدی در ارتباط با ساخت شاخصههای ارزیابی است. کاوش فرایند تکنولوژی نوظهوری است. همین امر نشان میدهد که چرا نیاز به شاخصههای ارزیابی میباشد. به عنوان مثال تاکنون دهها تکنیک کشف فرایند ارائه شدهاست اما گزارش دقیقی از کیفیت این روشها در دسترس نمیباشد. علیرغم اینکه تفاوتهای زیادی در کارایی و عملکرد این تکنیکها وجود دارد، ارزیابیشان کار دشوار و پیچیدهای میباشد؛ بنابراین نیاز به دادههای استاندارد و همچنین معیارهای کیفیت مناسب به شدت احساس میشود. البته در این زمینه کارهای محدودی انجام شدهاست. از جمله معیارهای ارزیابی ارائه شده به چهار معیار سازگاری، سادگی، دقت و عمومیت میتوان اشاره نمود. همچنین دادههای رویداد ثبت شده هم در سایت فرایندکاوی موجود میباشد. از یک طرف باید شاخصها براساس دادههای واقعی باشد. از طرف دیگر نیاز به تولید پایگاه داده ترکیبی ایی میباشد که ویژگیهای خاصی داشته باشد.
- چالش بعدی ارتقای پیشرفرضهای نمایشی که در کشف فرایند استفاده میشوند. یک تکنیک کشف فرایند، با استفاده از یک زبان مشخص (BPMN، Petri Net و ...) یک مدل فرایند تولید مینماید. به هر حال مهم است که تجسم نتایج، مجزای از نمایی باشد که در کشف فرایند مورد استفاده قرار میگیرد. انتخاب یک زبان هدف غالباً تعدادی فرض ضمنی را هم دربر میگیرد. این فرضیات فضای جستجو را محدود کرده و فرایندهایی که نمیتوانند با استفاده از زبان مقصد نمایش داده شوند، کشف نخواهند شد. این به اصطلاح پیش فرضهای نمایشی که در کشف فرایند استفاده میشوند باید با انتخاب آگاهانه همراه گردند و نباید (فقط) بر مبنای اولویتهای نمایشی گرافیکی انتخاب شوند. مثلاً شکل ذیل را در نظر بگیرید. بسته به آنکه زبان مقصد اجازه همزمانی را بدهد یا ندهد، میتواند بر روی نمایش مدل کشف شده و کلاس مدلهایی که توسط الگوریتم استفاده میشود تأثیر داشته باشد. اگر پیشفرضهای نمایشی اجازه همزمانی را ندهند (بخش a تصویر) و اجازه استفاده همزمان چند فعالیت از یک برچسب را ندهند (بخش c از تصویر)، آنگاه شکل b تصویر که دارای مشکلات هم باشد تنها امکانپذیر خواهد بود.
- چالش بعدی کاوش بین سازمانی است. بهطور سنتی، کاوش فرایند در یک سازمان اجرا میگردد. اما با گسترش تکنولوژی وب سرویس، یکپارچگی زنجیره تأمین و محاسبات ابری، سناریوهایی پیش میآید که در آن دادههای چند سازمان برای آنالیز در دسترس میباشد. در حقیقت دو مشخصه برای کاوش فرایندهای بین سازمانی موجود میباشد. در سناریوی همکارانه، سازمانهای مختلف همگی باهم در جهت رسیدن به اهداف مشخصی همکاری داشته و نمونه فرایندها بین این سازمانها در جریان میباشد. در این مدل سازمانها همانند قطعات یک پازل میباشند. فرایند کلی به قطعاتی شکسته شده و بین سازمانها توزیع میشود تا هر سازمان وظیفه مربوط به خود را انجام دهد. آنالیز رویدادهای ثبت شده در تنها یکی از این سازمانها کافی نمیباشد. به منظور کشف فرایندهای انتها به انتها، رویدادهای ثبت شده سازمانهای مختلف باید بایکدیگر ادغام گردد که کار سادهای نمیباشد. سناریوی دوم این است که سازمانهای مختلف در عین حال که از زیرساختهای مشترکی استفاده مینمایند، فرایند یکسانی را اجرا نمایند. به عنوان مثال Saleforce.com را میتوانید در نظر بگیرید. این شرکت فرایند فروش شرکتهای دیگر را بر عهده دارد و مدیریت میکند. از یک طرف شرکتها از زیر ساخت این سایت استفاده میکنند و از طرف دیگر مجبور نیستند که دقیقاً یک فرایند قطعی را دنبال کنند (چراکه سیستم امکان تنظیمات اختصاصی در دنبال کردن فرایند به آنها میدهد. واضح است که آنالیز این تغییرات بین سازمانهای مختلف کار جذاب و جالبی میباشد. این سازمانها میتوانند از همدیگر یاد بگیرند و فراهم کنندگان سرویس ممکن است که سرویس هایشان را ارتقا بخشند و سرویسهای ارزش افزودهای را برمبنای نتیجه کاوشهای بین سازمانی ارائه نمایند.
در ابتدا، تمرکز کاوش فرایند روی دادههای قدیمی (که در پایگاه داده سیستمهای اطلاعاتی موجود میباشد) بود، اما امروزه با گسترش تکنولوژی و افزایش پردازشهای روی خط، کاوش فرایند نباید محدود به پردازشهای برون خطی باشد. سه نوع پشتیبانی عملیاتی تعریف شدهاست: شناسایی، پیشبینی، توصیه. زمانی که نمونهای از فرایند مورد انتظار تخطی میکند، میتواند شناسایی گردد و سیستم میتواند یک اخطار دهد. دادههای قدیمی میتواند به منظور تولید مدل پیش گوی استفاده گردد. مثلاً میتوان زمان به اتمام رسیدن یک نمونه را پیشگویی کرده و براساس آن تصمیماتی اخذ کرد. استفاده از روشهای کاوش فرایند در مدل برون خطی، چالشهای جدیدی را برحسب قدرت محاسباتی و کیفیت داده ایجاد میکند.
ماهنامه شبکه را از کجا تهیه کنیم؟
ماهنامه شبکه را میتوانید از کتابخانههای عمومی سراسر کشور و نیز از دکههای روزنامهفروشی تهیه نمائید.
ثبت اشتراک نسخه کاغذی ماهنامه شبکه
ثبت اشتراک نسخه آنلاین
کتاب الکترونیک +Network راهنمای شبکهها
- برای دانلود تنها کتاب کامل ترجمه فارسی +Network اینجا کلیک کنید.
کتاب الکترونیک دوره مقدماتی آموزش پایتون
- اگر قصد یادگیری برنامهنویسی را دارید ولی هیچ پیشزمینهای ندارید اینجا کلیک کنید.
نظر شما چیست؟