بزرگ دادهها چیستند؟
بزرگ داده ها (Big Data) به مجموعهای از دادهها اشاره دارد با گذشت زمان حجم آنها به طور تصاعدی بیشتر میشود. این دادهها حجیم و پیچیده هستند، به طوری که ابزارهای سنتی قادر به مدیریت، پردازش و ذخیرهسازی دادهها نیستند. بهطور کلی، مفهوم بزرگ دادهها به تنوع و رشد تصادی و پر سرعت دادهها اشاره دارد. بر همین أساس، بزرگ دادهها به گروههای مختلفی تقسیم شدهاند.
دادهها در دنیای بزرگ دادهها میتوانند ساختارمند یا بدون ساختار باشند، اما این نوع و حجم داده نیستند که اهمیت دارند، بلکه مهم، کارهایی است که سازمانها قادر به انجام آنها با بزرگ دادهها هستند. بزرگ دادهها را میتوان برای به دست آوردن بینش در ارتباط با تجزیه و تحلیلهای استراتژیک به خدمت گرفت. این بینش باعث کیفی تصمیمگیریها شده و باعث میشود سازمانها تصمیمات راهبردی کارآمدتری را اتخاذ کنند.
انواع بزرگ دادهها
با توجه به اهمیت مفاهیم مربوط به بزرگ دادهها بهتر است با أنواع مختلف آنها آشنا شویم. بهطور معمول، بزرگ دادهها به گروههای زیر تقسیم میشوند:
دادههای ساختاریافته (Structured Data): به دادههایی اشاره دارد که ساختار مناسبی دارند و برای بهکارگیری در پروژههای بزرگ مناسب هستند. بهطور مثال، دادههای موجود در بانکهای اطلاعات، فایلهای اکسل و صفحات گسترده همگی در گروه دادههای ساختاریافته طبقهبندی میشوند.
دادههای نیمه ساختاریافته (Semi-Structured Data): دادههایی هستند که ساختار رسمی مدلهای داده مرتبط با پایگاه دادههای رابطهای یا سایر اشکال جداول دادهها تطابق چندانی با آنها ندارد. البته دقت کنید که دادههای نیمه ساختاریافته حاوی برچسبهایی برای جداسازی عناصر معنایی و اجرای سلسله مراتبی رکوردها و فیلدهای دادهای هستند. بهطور مثال، دادههای موجود در ایمیلها، فایلهای گزارش و اسناد ورد در گروه دادههای نیمه ساختاریافته قرار میگیرند.
دادههای بدون ساختار (Unstructured Data): دادههایی هستند که به شکل گستردهای در فضای مجازی در دسترس قرار دارند و فاقد هرگونه انسجام و ساختاری هستند که در ارتباط با بانکهای اطلاعاتی شاهد آن هستیم. به بیان دقیقتر، در حالی که دادههای بدون ساختار دارای ساختار داخلی هستند، اما از الگوهای مدیریت منسجم یا مدلهای دادهای پیروی نمیکنند. بهطور کلی این دادهها فاقد ساختار هستند. از نمونههای بارز این دادهها باید به فایلهای تصویری، صوتی و ویدیویی اشاره کنیم که همگی فاقد ساختار منسجم مرسوم هستند.
بزرگ دادهها چه ویژگیهایی دارند؟
بهطور معمول بزرگ دادهها مجموعهای از سنجهها و پارامترهای مختلف دارند که رویکردهای مختلف تجزیه و تحلیل بزرگ دادهها را شرح میدهند. با اینحال، بزرگ دادهها به دلیل داشتن ویژگیهای زیر داده شهرت پیدا کردهاند:
سرعت رشد دادهها (Velocity): در اینجا واژه سرعت به معنای مدت زمانی است که صرف پردازش داده میشود که یکی از فاکتورهای مهم در ارتباط با بزرگ دادهها است. ویژگی سرعت پارامترهایی مثل میزان تغییر، انفجارهای فعالیت (Activity Bursts) و پیوند مجموعه دادههای ورودی را شامل میشود.
حجم دادهها (Volume): این سنجه با واحد اندازهگیری دادهها مرتبط است که بر مبنای گیگابایت، زتابایت (Zettabytes) و یوتابایت (Yottabytes) نشان داده میشوند. با توجه به روندهای دنیای فناوری کاملا مشخص است که در آنیده حجم دادهها به میزان قابل توجهی افزایش پیدا میکند.
تنوع دادهها (Variety): تنوع به وجود انواع مختلف بزرگ دادهها اشاره دارد. تنوع یکی از بزرگترین نگرانیهایی کارشناس فناوری اطلاعات است، زیرا این ویژگی روی عملکرد تأثیرگذار است. در چنین شرایطی کارشناسان باید از طریق بهکارگیری مکانیزمهای سازماندهی مناسب به فکر مدیریت باشند.
ارزش دادهها (Value): به مزیت رقابتی اشاره دارد که در اختیار سازمانها قرار میدهد. بهطور مثال، آیا دادهها با اهداف شرکت مطابقت دارند، آیا این دادهها سازمان را در جهت ارتقا و شکوفایی سوق میدهند، در واقع، ویژگی ارزش یکی از مهمترین خصلتهای بزرگ دادهها است.
صحت دادهها (Veracity): به میزان دقت و قابل اعتماد بودن دادهها اشاره دارد. اگر صحت دادهها پایین باشد، مدلها نتایج ضعیف یا اشتباهی را ارایه میکنند.
اعتبار دادهها (Validity): در ارتباط با صحت مفهوم دیگری بهنام اعتبار نیز وجود دارد که بیانگر این موضوع است که دادهها تا جه میزان منطبق، معتبر و همسو با اهداف هستند.
نوسان (Volatility): بزرگ دادهها دائما در حال تغییر هستند، به طوری که ممکن است دادههایی که در امروز از یک منبع جمعآوری شدهاند با دادههای فردا تفاوت زیادی داشته باشند. این تغییرپذیری دادهها نوسان نامیده میشود و بر همسوسازی دادهها تاثیر منفی میگذارد.
نمایش (Visualization): از ویژگی مذکور برای نشان دادن بینشهای آماده شده توسط بزرگ دادهها از طریق بهکارگیری رابطهای بصری مثل نمودارها و گرافها استفاده میشود.
بزرگ دادهها چه مزیتهای رقابتی دارند؟
در یک دهه گذشته، بزرگ دادهها به یکی از حوزههای محبوب صنعت فناوری اطلاعات تبدیل شدهاند، زیرا مزایای بالقوهای در اختیار سازمانها قرار میدهند. از جمله این مزایا باید به بهبود تجربه مشتری، مدیریت ریسک، توسعه محصول و ایجاد نوآوری، تصمیمگیری بهتر و سریعتر، کمپینهای متمرکز و هدفمند، شبکههای تامینکننده گسترده، تشخیص کلاهبرداری، کاهش هزینههای سازمان و افزایش بهرهوری و درآمد اشاره کرد.
بزرگ دادهها چه معایبی دارند؟
با وجود مزایای بالقوهای که بزرگ دادها در حوزهرهایی مثل دیجیتال مارکتینگ دارند، با اینحال، معایب خاص خود را نیز دارند از جمله این معایب باید به کمبود دادههای با کیفیت، تغییرات بسیار سریع، نیاز به سختافزار مخصوص، مشکلات مربوط به ادغام با سیستمهای قدیمی و مخاطرات امنیتی اشاره کرد. نظرسنجی که موسسه Syncsort انجام داده نشان میدهد، اولین چالش کار با بزرگ دادهها، کیفیت دادهها و نحوه بررسی آنها است. قبل از آن که دانشمندان علم داده بتوانند به تحلیل بزرگ دادهها بپردازند، ابتدا باید از دقت، میزان مرتبط بودن دادهها و مناسب بودن قالب آنها اطمینان حاصل کنند. اینکار باعث میشود روند گزارشدهی کند شود، اما بررسی مسائل مربوط به کیفیت داده ضروری است. اگر کیفیت دادهها بررسی نشوند، ممکن است بینشهای حاصل از تحلیل دادهها بیارزش تلقی شوند یا مشکلات عدیدهای برای سازمان به وجود آورد. بهطور معمول اطلاعات مربوط به سازمانها در سامانهها و برنامههای مختلفی ذخیرهسازی شدهاند. یکپارچهسازی این منابع دادهای متفاوت و ناهمگون و انتقال دادهها در مکانی که قرار است استفاده شود، زمانبر و هزینهبر است. یکی دیگر از مسائل مهم در این زمینه زیرساخت فناوری اطلاعات است. سازمانها به سختافزارهای مناسب برای پشتیبانی از تحلیل بزرگ دادهها نیاز دارند، زیرا فضای ذخیرهسازی برای نگهداری دادهها، پهنای باند شبکه برای انتقال دادهها به سیستمهای تحلیلکننده و محاسبه منابع برای انجام این تحلیلها همگی به هزینههای زیادی نیاز دارد. برخی شرکتها برای حل این مشکلات به سراغ راهحلهای ابرمحور رفتهاند، اما مکانیزمهای ابری قادر به حل تمامی مشکلات نیستند.
چه روشهایی برای تحلیل بزرگ دادهها وجود دارد؟
بهطور معمول متخصصان از چهار روش برای تحلیل بزرگ دادهها استفاده میکنند که تجزیه و تحلیل توصیفی (Descriptive)، تجزیه و تحلیل تشخیصی (Diagnostic)، تجزیه و تحلیل پیشبینی کننده (Predictive) و تجزیه و تحلیل تجویزی (Prescriptive) نام دارند.
تجزیه و تحلیل توصیفی: تجزیه و تحلیل توصیفی یک روش سودمند برای کشف الگوها در بخش خاصی از مجموعه مشتریان است. ضمن آنکه با استفاده از روش تحلیل توصیفی امکان ساده کردن دادهها وجود دارد و حتا این امکان وجود دارد که دادههای گذشته را به شکل خواندنی خلاصهسازی کرد. در روش فوق روندها جزئیات بیشتری ارائه میشود و به عنوان یک ابزار کمکی برای ایجاد گزارشهایی مانند گزارش درآمد یک شرکت، سود، فروش و سایر موارد به کار میرود. آمار خلاصه (Summary Statistics)، خوشهبندی (Clustering) و قواعد وابستگی (Association Rule) همگی جز روشهای تجزیه و تحلیل توصیفی هستند و برای تحلیل سبد بازار استفاده میشوند.
تجزیه و تحلیل تشخیصی: برای تشخیص مشکل استفاده میشود. به بیان دقیقتر، در روش فوق بینشی دقیق و عمیق در مورد علت اصلی مشکل ارائه میشود. اگر دانشمندان داده (Data Scientist) در نظر داشته باشند، دلایل پنهان یک اتفاق خاص را درک کنند از روش فوق استفاده میکنند. از روشهای زیرمجموعه روش تشخصی باید به تکنیک شکستن مسئله (Drill Down)، دادهکاوی، بازیابی دادهها (Data Recovery)، تحلیل رویگردانی دلیل (Churn Reason Analysis) و تجزیه و تحلیل نمرات سلامت مشتری (Health Score Analysis) اشاره کرد.
تجزیه و تحلیل پیشبینی کننده: در روش فوق سعی در پیشبینی حوادث آینده است. این اتفاقات ممکن است مواردی مثل روندهای بازار، روندهای مصرفکننده و سایر رویدادهای مرتبط با بازار باشند. این تجزیه و تحلیل با به کارگیری دادههای گذشته و زمان حال برای پیشبینی وقایع استفاده میشود. تجزیه و تحلیل پیشگویانه یکی از رایجترین نوع تحلیلهای تجاری است. علاوه بر کاربرد تجزیه و تحلیل پیشگویانه برای ارائهدهندگان خدمات، این روش تحلیلی برای مصرفکنندگان نیز کاربرد دارد. در روش مذکور پس از پیگیری فعالیتهای گذشته و تعیین نقطه مبنا، کارهایی پیشبینی میشوند که باید در آینده انجام شوند. در روش مذکور از مدلهای داده کاوی، هوش مصنوعی و یادگیری ماشین برای تحلیل دادههای جاری و پیشبینی اتفاقات احتمالی در سناریوهای خاص استفاده میشود.
تجزیه و تحلیل تجویزی: یکی دیگر از روشهای کارآمد در حوزه بزرگ دادهها است. تجزیه و تحلیل تجویزی گام پس از تجزیه و تحلیل پیشگویانه است. در روش فوق، ابتدا اقدامات احتمالی در نظر گرفته شده و بررسی میشوند و در ادامه بر اساس نتایج تحلیلهای تجویزی و پیشگویانه یک مجموعه دادههای معین، پیشنهادها ارائه میشوند. تجزیه و تحلیل تجویزی از ادغام دادهها و قوانین تجاری مختلف پدید میآید و اجازه میدهد دادهها هم به صورت داخلی یعنی از طریق ورودیهای سازمانی و هم به صورت خارجی یعنی از طریق بینش شبکههای اجتماعی جمعآوری شوند.
مدل 3V در حوزه بزرگ دادهها چیست؟
در مدل 3V، سه سنجه مهم بزرگ دادهها بررسی شده و با کمک این مدل، اساس کار بزرگ دادهها مشخص میشود. به عبارت دیگر، از طریق بهکارگیری سه ویژگی مدل V3، نحوه ارزیابی بزرگ دادهها و تفاوتهای عمده میان بزرگ دادهها و دادههای سنتی مشخص میشوند. بهطور معمول، مدل V3 سه ویژگی شاخص به شرح زیر دارد:
حجم (Volume): همانگونه که اشاره شد از ویژگیهای شاخص بزرگ دادهها است.آمارها نشان میدهند روزانه حدود 5.2 کوینتیلیون (Quintillion) بایت داده ایجاد میشود که ۱۰ به توان ۱۸ است. به این ترتیب، داشتن دادهها با حجم ترابایت یا پتابایت در دستگاههای ذخیرهسازی و سرورهای برخی از شرکتها دیگر عجیب نیست.
سرعت: رشد و افزایش دادهها و به دنبال آن، نقش برجسته و مهم دادهها در دنیای کسبوکار باعث تغییر دیدگاهها نسبت به دادهها شده است. در واقع، همزمان با تغییر الگوی جمعآوری دادهها، این امکان است که از دادهها به عنوان یک ابزار کمکی استفاده شود. در مدل ۳V مفهوم سرعت (Velocity) برای اندازهگیری میزان سرعت ورود دادهها استفاده میشود. برخی از دادهها بلادرنگ (Real-time) و برخی به شکل دستهای وارد میشوند. با توجه به اینکه سرعت انتقال دادهها در هر پلتفرمی تفاوت دارد، مهم است که بدون داشتن همه حقایق و ارقام، اعمالی همچون تعمیم، کاستن یا نتیجهگیری سریع انجام نشوند.
تنوع (Variety): در گذشته دادهها یک مرتبه از مکانی جمعآوری و در یک قالب خاص ارائه میشدند. این دادهها به شکل فایلهای پایگاه داده و فایلهای اکسل، اکسس و CSV بودند. امروزه دادهها به شکلهای غیر رایج مثل ویدئو، متن، فایل pdf و گرافیک در شبکههای اجتماعی و از طریق فناوریهایی مانند دستگاههای پوشیدنی (Wearable Devices) تولید یا جمعآوری میشوند. در حالی که دادهها با چنین قالبهایی بسیار کاربردی و مفید هستند، اما برای تحلیل و مدیریت دادههای ورودی به مهارتهای تحلیلی بیشتری نیاز است و به دنبال آن، کار بیشتری باید انجام شود. تنوع به چارچوبهای مختلفی اشاره دارد که دادهها در قالب آنها پدید میآیند. بهطور مثال، تصاویر، ویدئوها، فایلهای صوتی، ایمیلها، اسناد، کتابها، ارائهها و توئیتهای تویتتر همگی داده هستند.
بزرگ دادهه چه کاربردی دارند؟
همانگونه که اشاره شد، بزرگ دادهها از حوزههای تاثیرگذار صنعت فناوری اطلاعات هستند. به همین دلیل در صنایع مختلفی کاربرد دارند. از جمله این صنایع باید به بانکداری و اوراق بهادار، دیجیتال مارکتینگ، ارتباطات، رسانه و سرگرمی، حوزه بهداشت و سلامت، سیستمهای آموزشی، تولید و منابع طبیعی، خدمات دولتی، خدمات بیمه، خرده فروشی و عمده فروشی، حمل و نقل و انرژی و خدمات اشاره کرد.
چرا بزرگ دادهها اهمیت دارند؟
تحلیل بزرگ دادهها انقلاب بزرگی در زمینه فناوری اطلاعات ایجاد کرده است. بهطوری که عملکرد شرکتهای مختلف از طریق تحلیل دادهها بهبود پیدا میکند. اصلیترین عامل در این زمینه همانگونه که اشاره شد سه ویژگی کلیدی بزرگ دادهها یعنی حجم، سرعت و تنوع بالا و در ادامه تکنیکهای تحلیلی مختلف مثل یادگیری ماشین داده کاوی، پردازش زبان طبیعی و آمار است. از طریق بهکارگیری بزرگ دادهها میتوان عملیات مختلفی در یک پلتفرم واحد انجام داد. بهطور مثال، امکان ذخیرهسازی ترابایتهایی از دادهها، پیش پردازش و مصورسازی آنها با کمک چند ابزار بزرگ دادهها وجود دارد. برای تحلیل دادهها برای کسب و کار باید اعمالی مانند استخراج داده (Data Extraction)، آمادهسازی داده و ترکیب آنها انجام شوند.
کلام آخر
در مجموع باید بگوییم که تحلیل بزرگ دادهها به سازمانها اجازه میدهد با دادههای خود به شکل کارآمدتری کار کنند و این دادهها را برای شناسایی فرصتهای جدید به کارگیرند. امروزه تکنیکها و الگوریتمهای متفاوتی برای پیشبینی دادهها وجود دارند که برای موفقیت آینده شرکت میتوان از آنها استفاده کرد، بهطوری که به خطدهی استراتژیهای تجاری و سودآوری بیشتر کمک فراوانی کنند.
ماهنامه شبکه را از کجا تهیه کنیم؟
ماهنامه شبکه را میتوانید از کتابخانههای عمومی سراسر کشور و نیز از دکههای روزنامهفروشی تهیه نمائید.
ثبت اشتراک نسخه کاغذی ماهنامه شبکه
ثبت اشتراک نسخه آنلاین
کتاب الکترونیک +Network راهنمای شبکهها
- برای دانلود تنها کتاب کامل ترجمه فارسی +Network اینجا کلیک کنید.
کتاب الکترونیک دوره مقدماتی آموزش پایتون
- اگر قصد یادگیری برنامهنویسی را دارید ولی هیچ پیشزمینهای ندارید اینجا کلیک کنید.
نظر شما چیست؟