Greenplum چیست؟
- Greenplum یک پایگاه داده SQL با ویژگی پردازش موازی انبوه (MPP) بدون وابستگی به سختافزار است که مبتنی بر PostgreSQL طراحی و توسط Pivotal (که بعدا توسط VMware خریداری شد) توسعه پیدا کرده است. معماری پایگاه داده فوق به گونه خاصی طراحی شده تا بتواند انبارهای داده با مقیاس بزرگ و حجم کاری متراکم سازمانها و کسب و کارهای بزرگ را مدیریت کند و این امکان را ارائه میکند تا دادههای خود را بین سرورهای زیادی پخش کنید. این مجموعه قابلیتها در یک پایگاه داده امکان تجزیه و تحلیل سریع و قدرتمند دادههایی که در حجمهای پتابایتی گسترش پیدا کردهاند را فراهم میکند.
معماری Greenplum
- برای درک بهتر و دقیقتر معماری Greenplum اجازه دهید ابتدا نگاهی به یک پایگاه داده MPP بیاندازیم.
پایگاه داده MPP چیست؟
- وقتی حجم زیادی از دادههای پیچیده یا بزرگ دادهها را اداره میکنید، این احتمال وجود دارد که ماشین اصلی شما در زمان پردازش این حجم از دادهها و ارائه نتایج تجزیه و تحلیل به شما از کار بایستد. برای برآورده ساختن نیاز به پردازش سریعتر و دسترسی سریعتر به نتایج، بسیاری از سازمانها به سراغ یک پایگاه داده MPP میروند. سیستم MPP از حداکثر ظرفیت یک معماری اشتراکی برای اداره عملیات مختلف به صورت موازی استفاده میکند. این سیستم از چند واحد پردازشی مختلف استفاده میکند که هر یک با استفاده از حافظه و منابع اختصاصی خود بهطور مستقل کار میکند، بنابراین بارکاری به جای تنها یک دستگاه بین چند دستگاه بهاشتراک گذاشته میشود. معمولا یک سیستم MPP از یک گره هدایتگر و یک یا چند گره محاسباتی تشکیل شده است. گره هدایتگر در Greenplum تحت عنوان مستر شناخته میشود و به سایر گرهها که در Greenplum سگمنت نام دارد اعلام میدارد که باید چه کاری انجام دهند و پاسخهای آنها را برای تهیه جواب نهایی با هم ادغام میکند.
طرح معماری Greenplum
- Greenplum مطابق با معماری PostgreSQL به جای یک کلاستر واحد Greenplum در هر بازه زمانی از چند پایگاه داده PostgreSQL استفاده میکند. کاربران Greenplum میتوانند به سرعت با این نوع پایگاه داده و قابلیتها، نحوه پیکربندی و عملکرد آن آشنا شده و از آن استفاده کنند. روش بهینهسازی و طراحی Greenplum برای کار با وظایف هوش تجاری (BI) و بارهای کاری شبیه به PostgreSQL است. همچنین، Greenplum قابلیتهای زیاد دیگری را نیز از قبیل بارگیری داده موازی، مدیریت منابع، بهینهسازی فضای ذخيرهسازی و محاورههای پیشرفته معرفی کرده که در PostgreSQL وجود ندارد. این امکانات جدید باعث شدهاند تا Greenplum جذابیت بیشتری برای کاربران پیدا کند.
- Greenplum نیز مثل PostgreSQL از یک سرور مستر یا میزبان استفاده میکند که نقطه ورود به پایگاه داده، اتصالات پذیرفته شده و کوئریهای SQL است. با اینحال، جایی که PostgreSQL از گرههای آماده به کار برای توزیع جغرافيایی استقرار خود استفاده میکند، Greenplum از میزبانهای سگمنت که داده را ذخيره و پردازش میکند استفاده میکند. سگمنتهای Greenplum مستقل هستند و هر کدام بخشی از دادهها را ذخيره میکنند. شما میتوانید از میزبانهای کمی به اندازه دو سگمنت استفاده کنید و آنرا به اندازه یک ظرفیت نامحدود گسترش دهید. اگر ویژگی mirroring را فعال کرده باشید باید میزبانهای خود را به حداقل دو برابر افزایش دهید. حال پرسش این است که چگونه همه مولفهها با یکدیگر هماهنگ میشوند؟ اتصالات داخلی Greenplum یک لایه شبکه تعریف میکنند و ارتباطات بین سگمنتهای Greenplum و معماری شبکه میزبان مستر را مدیریت میکنند (شکل زیر).
مزایای Greenplum
در ادامه با برخی از مزایای اصلی Greenplum که به شما برای بهبود عملکرد پایگاه داده کمک میکند آشنا خواهید شد.
عملکرد بالا
- Greenplum از یک طراحی خط لوله (pipeline) داده منحصر به فرد برخوردار است که میتواند بهطور موثری دادهها را از دیسک به پردازنده مرکزی ارسال کند، بدون این که به قرارگیری دادهها در حافظه اصلی متکی باشد. این ویژگی باعث میشود پیادهسازی Greenplum نسبت به سیستمهای درون حافظهای که برای ذخیرهسازی دادهها به حافظه کافی نیاز دارند یا سیستمهای غیر RDBMS که موتورهای پردازشی درون حافظه دارند و برای هر محاوره حافظه اصلی جداگانه اختصاص میدهند از عملکرد بالاتری برخوردار باشد. از آنجایی که Greenplum از قابلیت گسترشپذیری خطی برای پردازش کارآمدتر داده برخوردار است با چالش اغلب RDBMS-ها در گسترش به سطح دادههای پتابایتی مواجه نخواهد بود.
بهینهسازی کوئری گیری
- Greenplum از یک سیستم بهینهسازی کوئری برای بارهای کاری در مقیاس بزرگ و بزرگ دادهها بهره میبرد. Greenplum میتواند بدون آنکه راندمان اجرای محاورهها را کاهش دهد، وظایف تجزیه و تحلیل را در مقیاس پتابایتی انجام دهد.
- این ویژگی به Greenplum اجازه میدهد بار کاری را بین سگمنتهای مختلف خود توزیع کند و برای پردازش یک کوئری از تمام منابع سیستم بهطور موازی استفاده کند. علاوه بر این با بهینهسازی بارکاری (OLTP) سرنام Online Transactional Processing در Greenplum 6 فرآیند کوئریگیری به نسبت نسخه 5 بهبود پیدا کرده است. با این بهروزرسانی Greenplum میتواند به شکل بهینه 90 درصد توان پردازنده مرکزی را به خدمت بگیرد تا محاورهها به دقیقترین شکل ممکن اجرا شوند. در این حالت با بهینهسازی عملکرد سختافزار گره مستر وضعیت عملکرد کوئریگیری هم بهبود مییابد.
منبع باز
- پایگاه داده Greenplum یک پروژه انبار داده منبع باز مبتنی بر هسته منبع باز PostgreSQL است که به کاربران اجازه میدهد از مزایای چند سال تجربه توسعه PostgreSQL همراه با شخصیسازی هدفمند Greenplum برای اپلیکیشنهای بزرگ داده بهرهمند شوند. Greenplum میتواند روی هر نوع سرور لینوکس (میزبانی روی کلاود یا استقرار درون سازمانی) اجرا شود.
- از آنجایی که Greenplum توسط یک گروه از توسعهدهندگان متعهد به مخزن اصلی نگهداری میشود، آنها مشتاقانه از همکاران جدیدی که تجربه کار با این پایگاه داده را دارند در جهت پیشرفت Greenplum استقبال میکنند.
- برای کسب اطلاعات بیشتر میتوانید به صفحه گیتهاب Greenplum به نشانی (https://github.com/greenplum-db/gpdb) مراجعه کنید.
ذخیره دادههای چندوجهی
- ذخیره دادههای چند وجهی Greenplum به شما امکان میدهد پیکربندی جدول و پارتيشنبندی فضای ذخيرهسازی را با آزادی عمل برای اجرا و فشردهسازی فایلهای درون آن کنترل کنید. به این شكل میتوانید جداول خود را بر اساس نوع خاص داده و سلسله مراتب ذخیرهسازی ردیفها و ستونها طراحی کنید.
وقتی در Greenplum یک جدول ایجاد میکنید، میتوانید با انتخاب column-oriented یا row-oriented وضعیت آنرا کنترل کنید. برای اسکنهای کامل معمولا تکنیک column-oriented عملکرد بهتری ارائه میکند.
اصلیترین کاربرد استفاده این بانک اطلاعاتی
- Greenplum ترکیبی قدرتمند از پایگاههای داده پردازش موازی و تحلیل داده پیشرفته را فراهم میکند که به دانشمندان و معماران داده اجازه میدهد تصمیمات تجاری را بر اساس دادههای جمعآوری شده توسط هوش مصنوعی و یادگیری ماشین اتخاذ کنند. اصلیترین موارد استفاده Greenplum به شرح زیر است.
تحلیلگری
- تحلیلگریهای پیشرفته فراهم شده توسط Greenplum شامل حل مسائل مربوط به امور مالی، ساخت، خودرو، خدمات دولتی، انرژی، آموزش، خردهفروشی و غیره است.
برخی از امکانات تجزیه و تحلیل پایگاه داده Greenplum شامل توانایی تجزیه و تحلیل انواع مختلف دادهها، بهکارگیری دانش SQL موجود و آموزش مدلهای بیشتر در زمان کمتر با استفاده از معماری MPP است. همچنین Greenplum با قابلیت تحلیلگری داخل پایگاه داده این امکان را فراهم میکند تا به جای خارج کردن و اجرای داده در یک موتور تحلیل خارجی مستقیما آنرا در خود پایگاه داده
تحلیل کنید.
یادگیری ماشین
- Greenplum یک پایگاه داده ایدهال برای یادگیری ماشین و مطالعه الگوريتمهای کامپیوتری است که بهطور خودکار از طریق کسب تجربه بهبود مییابد. Apache MADlib یک کتابخانه یادگیری ماشین مبتنی بر SQL منبع باز است که در Greenplum و همینطور درPostgreSQL اجرا میشود. این ترکیب به شما کمک میکند موازیسازی، مقیاسپذیری و دقت پیشبینی استقرار یادگیری ماشین Greenplum خود را بهبود بخشید. یادگیری ماشین از طریق MADlib شامل آمار توصیفی و استنباطی، پیوتشناسی (Pivotal) و کدگذاری متغیرهای طبقهبندی شده است.
هوش مصنوعی
- هوش مصنوعی اگر چه شبیه به یادگیری ماشین است، اما به ایدههای گستردهتری اشاره دارد که در آن ماشینها میتوانند وظایف هوشمندانهتری انجام دهند. Greenplum یک انتخاب پایگاه داده عالی برای کاربردهایی است که به دنبال تقلید تواناییهای انسانی از طریق ماشینهای هوشمند هستند. با توانایی Greenplum در مدیریت حجم عظیمی از دادهها در سرعت بالا، پایگاه داده فوق به یک ابزار قدرتمند برای اپلیکیشنهای هوشمند تبدیل شده است. بهطور مثال، شرکت تلکام از تواناییهای هوش مصنوعی پایگاه داده Greenplum برای سنسورهای هوشمند سیستم گزارشگیری اینترنت اشیا استفاده میکند. مشتريان حال حاضر Greenplum شامل American Express، Walmart، Asurian،Bank of America، خدمات بانکداری، رسانه، بیمه، مراقبهای بهداشتی و خردهفروشیها هستند.
از کجا شروع کنیم
- همانگونه که اشاره شد، Greenplum یک پایگاه داده منبع باز است، بنابراین دانلود و استفاده از نسخه عمومی آن کاملا رایگان است. جامعه کوچک، اما فعال Greenplum از مشارکتکنندگان جدید استقبال و بازخوردها را به گرمی میپذیرد.
- برای دانلود Greenplum به آدرس https://greenplum.org/download/ مراجعه کنید. برای کسب اطلاعات بیشتر و مشارکت در اجتماع Greenplum به آدرس https://greenplum.org/community/ مراجعه کنید.
ماهنامه شبکه را از کجا تهیه کنیم؟
ماهنامه شبکه را میتوانید از کتابخانههای عمومی سراسر کشور و نیز از دکههای روزنامهفروشی تهیه نمائید.
ثبت اشتراک نسخه کاغذی ماهنامه شبکه
ثبت اشتراک نسخه آنلاین
کتاب الکترونیک +Network راهنمای شبکهها
- برای دانلود تنها کتاب کامل ترجمه فارسی +Network اینجا کلیک کنید.
کتاب الکترونیک دوره مقدماتی آموزش پایتون
- اگر قصد یادگیری برنامهنویسی را دارید ولی هیچ پیشزمینهای ندارید اینجا کلیک کنید.
نظر شما چیست؟