چگونه یک مجموعه داده‌ برای مدل‌های هوشمند ایجاد کنیم؟
مجموعه داده‌ (Dataset) مجموعه‌ای از اطلاعات ساختارمند است که به‌صورت سیستماتیک جمع‌آوری شده و برای تحلیل، پژوهش، آموزش ماشین و سایر فعالیت‌های مرتبط با داده‌ها استفاده می‌شود. هر مجموعه داده می‌تواند شامل یک یا چند متغیر (فیلد) باشد که اطلاعات مربوط به موضوع خاصی را نمایان می‌کند.

انواع مجموعه داده‌ها

مجموعه داده‌ها می‌توانند در انواع مختلفی وجود داشته باشند که برخی از آن‌ها به شرح زیر هستند:

  • مجموعه داده‌های عددی: این نوع مجموعه داده‌ها شامل اعداد عددی است که معمولا به صورت جدول یا ماتریس نمایش داده می‌شوند. مثال‌هایی از این نوع مجموعه داده‌ها شامل مجموعه داده‌های آماری، اقتصادی، علمی و مالی است.
  • مجموعه داده‌های متنی: این نوع مجموعه داده‌ها شامل متن‌ها و سند‌ها است و ممکن است شامل مجموعه مقالات، کتاب‌ها، مدارک حقوقی، نظرات کاربران و سایر موارد مشابه باشد. این نوع داده‌ها معمولا در حوزه پردازش زبان طبیعی و متن‌کاوی استفاده می‌شوند.
  • مجموعه داده‌های تصویری: این نوع مجموعه داده‌ها شامل تصاویر و تصاویر ماشینی مثل مجموعه داده‌های تصویر پزشکی، مجموعه داده‌های تصویر ماشینی و مجموعه داده‌های شناسایی چهره است.
  • مجموعه داده‌های صوتی: این نوع مجموعه داده‌ها شامل فایل‌های صوتی و سیگنال‌های صوتی مثل مجموعه داده‌های گفتاری و مجموعه داده‌های شناسایی سیگنال صوتی است.

همچنین، مجموعه داده‌ها می‌توانند از منابع مختلفی مانند پایگاه‌های داده عمومی، سامانه‌های آنلاین، سرویس‌های وب، منابع دولتی و سایر منابع موجود در اینترنت و جهان واقعی جمع‌آوری شوند.

چگونه یک مجموعه داده‌ برای مدل‌های هوشمند ایجاد کنیم؟

ساخت یک مجموعه داده‌ها به نوع پروژه و مدل هوشمند بستگی دارد. با این‌حال، برخی از روش‌های رایج برای ساخت مجموعه داده‌ها به شرح زیر هستند:

  • ایجاد دستی: شما می‌توانید به شکل دستی داده‌ها را ایجاد کنید. این روش معمولا برای مجموعه داده‌های کوچک یا آزمایشی استفاده می‌شود. به طور مثال می‌توانید یک فایل متنی بسازید و داده‌های خود را به صورت دستی وارد کنید.
  • جمع‌آوری داده‌های موجود: می‌توانید داده‌های موجود در منابع مختلف را جمع‌آوری کنید. این منابع می‌توانند فایل‌های متنی، پایگاه داده‌ها، وبسایت‌ها، APIها و غیره باشند. برای جمع‌آوری داده‌ها، ممکن است نیاز به استفاده از ابزارهای خاصی مانند وب اسکرپینگ (Web Scraping) یا استفاده از کتابخانه‌ها و ابزارهای مربوطه داشته باشید.
  • تولید داده‌های مصنوعی: در برخی موارد، ممکن است نیاز داشته باشید تا داده‌های مصنوعی ایجاد کنید. برای مثال، اگر می‌خواهید یک مدل یادگیری ماشین را برای تشخیص تصاویر آموزش دهید، می‌توانید تصاویر مصنوعی با استفاده از ابزارهای تولید تصویر مانند OpenCV یا PIL ایجاد کنید.
  • استفاده از مجموعه داده‌های عمومی: در بسیاری از حوزه‌ها، مجموعه داده‌های عمومی در دسترس هستند که شامل داده‌های جمع‌آوری شده از منابع عمومی می‌شوند. برخی از مجموعه داده‌های معروف عمومی شامل MNIST برای تشخیص اعداد دست‌نوشته، CIFAR-10 و ImageNet برای تشخیص تصاویر و IMDb برای مجموعه داده‌های مربوط به فیلم و سریال است.

چگونه می‌توانیم از وب اسکرپینگ برای جمع‌آوری داده‌ها استفاده کنیم؟

برای استفاده از وب اسکرپینگ برای جمع‌آوری داده‌ها، می‌توانید از زبان‌ها و ابزارهای متنوعی مانند پایتون و کتابخانه‌های آن مانند BeautifulSoup و Scrapy استفاده کنید. مراحل کلی وب اسکرپینگ به شرح زیر است:

  • نصب کتابخانه‌های مورد نیاز: ابتدا باید کتابخانه‌های مورد نیاز برای وب اسکرپینگ را نصب کنید. برای زبان پایتون، کتابخانه BeautifulSoup و کتابخانه requests برای دسترسی به صفحات وب استفاده می‌شود. شما می‌توانید این کتابخانه‌ها را با استفاده از مدیر بسته‌های پایتون مثل pip نصب کنید.
  • انتخاب صفحه وب هدف: انتخاب صفحه وبی که می‌خواهید اطلاعات را از آن جمع‌آوری کنید بسیار مهم است. مطمئن شوید که صفحه وب هدف اطلاعات مورد نظر را شامل می‌شود و اجازه اسکرپینگ را دارد.
  • دریافت محتوای صفحه وب: با استفاده از کتابخانه requests می‌توان محتوای صفحه وب را دریافت کرد. به طور معمول، این کار با ارسال یک درخواست GET به URL صفحه وب صورت می‌گیرد.
  • بررسی HTML صفحه وب: با استفاده از کتابخانه BeautifulSoup، می‌توانید HTML صفحه وب را تجزیه و تحلیل کنید و به عناصر مورد نظر دسترسی پیدا کنید. این کتابخانه امکاناتی را فراهم می‌کند تا بتوانید با استفاده از CSS selectors یا XPath به عناصر مورد نظر دسترسی پیدا کنید و اطلاعات را استخراج کنید.
  • استخراج و ذخیره داده: پس از دسترسی به عناصر مورد نظر، می‌توانید اطلاعات را استخراج کرده و در قالب دلخواه ذخیره کنید. ممکن است این اطلاعات را در فایل متنی، پایگاه داده، یا فرمت دیگری ذخیره کنید.
  • پیمایش صفحات بیشتر (در صورت نیاز): اگر اطلاعات مورد نظر شما در چند صفحه وب مختلف وجود دارد، شما می‌توانید با استفاده از وب اسکرپینگ به صفحات بیشتری دسترسی پیدا کنید و اطلاعات را جمع‌آوری کنید. برای این کار، می‌توانید از تکنیک‌هایی مانند پیمایش صفحات (Pagination) یابرای استفاده از وب اسکرپینگ برای جمع‌آوری داده‌ها، می‌توانید از زبان‌ها و ابزارهای متنوعی مانند Python و کتابخانه‌های آن مانند BeautifulSoup و Scrapy استفاده کنید.

یک مثال عملی از نحوه ساخت مجموعه داده

به عنوان یک مثال عملی، فرض کنید که می خواهید یک مجموعه داده برای تشخیص تصاویر سگ و گربه بسازید. مراحل زیر نحوه ساخت این مجموعه داده را نشان می‌دهند:

  • جمع‌آوری تصاویر: ابتدا باید تصاویر متعددی از سگ‌ها و گربه‌ها جمع‌آوری کنید. می‌توانید از اینترنت، پایگاه‌های داده عمومی تصاویر، و منابع دیگری مانند وبسایت‌های متفاوت استفاده کنید. بهتر است تصاویر با اندازه و کیفیت یکسانی انتخاب شوند.
  • برچسب‌گذاری تصاویر: برای هر تصویر، باید برچسبی که نشان دهنده نوع آن (سگ یا گربه) است را اضافه کنید. می‌توانید این کار را با دست انجام دهید یا از ابزارهای برچسب‌گذاری خودکار مانند BBox Label Tool یا LabelImg استفاده کنید.
  • تقسیم داده: معمولا مجموعه داده را به دو بخش تقسیم می‌کنند: بخش آموزش (Training Set) و بخش آزمون (Test Set). بخش آموزش برای آموزش مدل و بخش آزمون برای ارزیابی عملکرد مدل استفاده می‌شود. می‌توانید تصاویر را به صورت تصادفی بین این دو بخش تقسیم کنید، به طور معمول 80٪ از تصاویر به عنوان بخش آموزش و 20٪ به عنوان بخش آزمون اختصاص داده می‌شوند.
  • پیش‌پردازش داده: در صورت نیاز، ممکن است نیاز باشد تصاویر را پیش‌پردازش کنید. این فرآیند شامل تغییر اندازه تصاویر، تغییر رنگ، استفاده از تکنیک‌های افزایش داده (مانند چرخش، وضوح‌بندی، برش و غیره) و سایر تبدیلاتی که برای بهبود عملکرد مدل مورد نیاز هستند، است.
  • ذخیره داده: در نهایت، تصاویر و برچسب‌های مربوطه را به صورت یک فرمت یکسان (مانند CSV یا JSON) ذخیره کنید. این مجموعه داده آماده استفاده در الگوریتم‌های یادگیری ماشین و شبکه‌های عصبی می‌باشد.

با انجام این مراحل، یک مجموعه داده ایجاد کرده‌اید که شامل تصاویر سگ و گربه است و هر تصویر دارای برچسب مربوطه است. این مجموعه داده را می‌توانید برای آموزش مدل تشخیص تصاویر سگ و گربه استفاده کنید.

مثالی از نحوه ساخت مجموعه داده‌ها

به عنوان یک مثال عملی در زبان برنامه‌نویسی پایتون می‌توانید از کتابخانه OpenCV و Pandas استفاده کنید تا یک مجموعه داده تصویری از سگ‌ها و گربه‌ها را ساخته و به یک فایل CSV ذخیره کنید. در ادامه قطعه کدی برای ساخت مجموعه داده تصویری را مورد بررسی قرار می‌دهیم.

import cv2

import os

import pandas as pd

# مسیر پوشه حاوی تصاویر سگ‌ها

dogs_dir = '/path/to/dogs'

# مسیر پوشه حاوی تصاویر گربه‌ها

cats_dir = '/path/to/cats'

# ساخت یک لیست برای نگهداری اطلاعات تصاویر

data = []

# خواندن تصاویر سگ‌ها و اضافه کردن اطلاعات به لیست

for filename in os.listdir(dogs_dir):

    if filename.endswith('.jpg'):

        img_path = os.path.join(dogs_dir, filename)

        img = cv2.imread(img_path)

        if img is not None:

            img = cv2.resize(img, (224, 224))  # تغییر اندازه تصاویر به ابعاد مشخص (مثلاً 224x224)

            data.append({'image': img, 'label': 'dog'})

# خواندن تصاویر گربه‌ها و اضافه کردن اطلاعات به لیست

for filename in os.listdir(cats_dir):

    if filename.endswith('.jpg'):

        img_path = os.path.join(cats_dir, filename)

        img = cv2.imread(img_path)

        if img is not None:

            img = cv2.resize(img, (224, 224))  # تغییر اندازه تصاویر به ابعاد مشخص (مثلاً 224x224)

            data.append({'image': img, 'label': 'cat'})

# تبدیل لیست به دیتافریم Pandas

df = pd.DataFrame(data)

# ذخیره دیتافریم به فایل CSV

csv_file = '/path/to/dataset.csv'

df.to_csv(csv_file, index=False)

در این کد، ابتدا مسیر پوشه‌های حاوی تصاویر سگ‌ها و گربه‌ها را مشخص می‌کنیم. سپس تصاویر را خوانده، تغییر اندازه داده و به لیست data اضافه می‌کنیم. هر تصویر در لیست دارای دو فیلد است: image که تصویر خود را نگهداری می‌کند و label که برچسب مربوط به آن تصویر (سگ یا گربه) را نگهداری می‌کند.

سپس، لیست data را به یک دیتافریم در Pandas تبدیل می‌کنیم. در نهایت، دیتافریم را به فایل CSV ذخیره می‌کنیم که شامل تصاویر و برچسب‌های مربوطه است.

لازم به توضیح است که قطعه کد بالا یک نمونه ساده است و اگر قصد استفاده از قطعه کد بالا را دارید باید مسیرهای مناسب برای پوشه‌ها و فایل CSV را بر اساسبه نام پروژه و محیط خود تنظیم کنید. همچنین، در صورت نیاز، می‌توانید کدها را تغییر داده و به نیازهای خاص خود با آن هماهنگ کنید. امکان استفاده از این قطعه کد برای انجام پروژه‌های شخصی آزاد است، اما اگر قصد استفاده از آن در کار تجاری را دارید، لطفا به من هم اطلاع دهید!!

آیا می‌توانیم از این کد برای ساخت مجموعه داده‌های دیگری استفاده کنیم؟

پاسخ مثبت است. شما می‌توانید از این کد برای ساخت مجموعه داده‌های دیگری نیز استفاده کنید. کدی که در مثال بالا ارائه شد، فقط یک نمونه برای ساخت مجموعه داده تصویری از سگ‌ها و گربه‌ها بود. با تغییر مسیر پوشه‌ها و تعیین برچسب‌های مناسب برای هر دسته داده، می‌توانید به راحتی مجموعه داده‌های دیگری را ایجاد کنید. با این‌حال، باید به چند نکته مهم دقت کنید.

  • مسیر پوشه‌ها: در کد بالا، مسیر پوشه‌های داده برای سگ‌ها و گربه‌ها با استفاده از dogs_dir و cats_dir مشخص شده است. شما باید این مسیرها را با مسیرهای مناسب برای دسته‌های مورد نظر خود تغییر دهید.
  • برچسب‌ها: در کد بالا، برای هر دسته داده برچسب مناسب (مثلا dog و cat) استفاده شده است. شما باید برچسب‌ها را بر اساس دسته‌بندی مورد نظر خود تنظیم کنید. به عنوان مثال، اگر می‌خواهید مجموعه داده‌های دسته‌بندی شده برای خودروها و موتورسیکلت‌ها بسازید، می‌توانید برچسب‌های car و motorcycle را استفاده کنید.
  • پیش‌پردازش داده: در صورت نیاز، ممکن است بخواهید عملیات پیش‌پردازش داده را تغییر دهید. مانند تغییر سایز تصاویر، تبدیل رنگ، استفاده از تکنیک‌های افزایش داده و غیره. شما می‌توانید این تغییرات را در کد اعمال کنید.

با توجه به این نکات، قادر خواهید بود مجموعه داده‌های مختلف را با استفاده از این کد ساخته و برای آموزش و تست الگوریتم‌های یادگیری ماشین استفاده نمایید.

آیا می‌توانیم از این کد برای ساخت مجموعه داده‌های صوتی استفاده کنیم؟

پاسخ مثبت است، می‌توانید این قطعه کد را برای ساخت مجموعه داده‌های صوتی نیز استفاده کنید. با تغییر کد به‌طور مناسب، می‌توانید فایل‌های صوتی را بخوانید، پیش‌پردازش کنید و در قالب یک مجموعه داده ذخیره کنید. در زیر قطعه کدی را برای ساخت مجموعه داده‌های صوتی با استفاده از کتابخانه librosa در زبان برنامه‌نویسی پایتون مورد بررسی قرار می‌دیهم:

import os

import librosa

import pandas as pd

# مسیر پوشه حاوی فایل‌های صوتی

audio_dir = '/path/to/audio_files'

# تنظیمات پیش‌پردازش صوت

sample_rate = 22050

duration = 5  # مدت زمان مورد نظر برای هر فایل صوتی (به ثانیه)

# ساخت یک لیست برای نگهداری اطلاعات فایل‌های صوتی

data = []

# خواندن فایل‌های صوتی و اضافه کردن اطلاعات به لیست

for filename in os.listdir(audio_dir):

    if filename.endswith('.wav'):

        file_path = os.path.join(audio_dir, filename)

        audio, sr = librosa.load(file_path, sr=sample_rate, duration=duration)

        if len(audio) == sample_rate * duration:

            data.append({'audio': audio, 'label': 'class_label'})

# تبدیل لیست به دیتافریم Pandas

df = pd.DataFrame(data)

# ذخیره دیتافریم به فایل CSV

csv_file = '/path/to/dataset.csv'

df.to_csv(csv_file, index=False)

در این کد، ابتدا مسیر پوشه حاوی فایل‌های صوتی را مشخص می‌کنیم. سپس با استفاده از کتابخانه librosa، فایل‌های صوتی را خوانده و با تنظیمات مشخص شده پیش‌پردازش می‌کنیم. در اینجا، ما مدت زمان تعیین شده (مثلاً 5 ثانیه) از هر فایل صوتی را برش می‌دهیم.

سپس، اطلاعات مربوط به هر فایل صوتی را به لیست data اضافه می‌کنیم. هر آیتم در لیست دارای دو فیلد است: audio که نمونه‌های صوتی را نگهداری می‌کند و label که برچسب مربوط به آن فایل صوتی را نگهداری می‌کند.

سپس، لیست data را به یک دیتافریم در پانداس تبدیل می‌کنیم و در نهایت دیتافریم را به یک فایل CSV ذخیره می‌کنیم.

مجموعه داده خوب چه ویژگی‌هایی دارد؟

اگر قصد استفاده یا ساخت یک مجموعه داده را دارید باید بدانید که یک مجموعه داده خود باید ویژگی‌های زیر را داشته باشد:

  • تنوع: مجموعه داده باید شامل نمونه‌های متنوع و متعادلی از داده‌ها باشد. به بیان دقیق‌تر، باید نمونه‌های مختلفی از هر دسته داده حاضر باشد و کمبود نمونه‌ها در یکی از دسته‌ها رخ ندهد. این تنوع در استفاده از مجموعه داده برای آموزش و ارزیابی الگوریتم‌های یادگیری ماشین بسیار مهم است.
  • برچسب‌گذاری صحیح: هر نمونه داده باید برچسب صحیح و دقیقی داشته باشد که نشان دهنده دسته‌بندی یا ویژگی مربوط به آن باشد. برچسب‌ها باید به درستی و به صورت یکتا و کامل تعیین شده باشند.
  • حجم مناسب: مجموعه داده باید حجم کافی داشته باشد تا بتواند الگوریتم‌های یادگیری ماشین را به خوبی آموزش دهد. حجم مناسب بستگی به مسئله مورد نظر و نیازهای آموزشی دارد. در برخی موارد، مجموعه داده باید بزرگ باشد تا بتواند مدل‌های پیچیده را آموزش دهد، در حالی که در برخی موارد کوچکترین مجموعه داده هم می‌تواند مناسب است.
  • دقت و صحت: مجموعه داده باید دارای دقت و صحت بالا باشد که به معنای عدم وجود خطاها، اشتباهات برچسب‌گذاری، داده‌های پرت و نویزی و مشکلات دیگر در مجموعه داده است. دقت و صحت مجموعه داده می‌تواند تاثیر مستقیمی بر عملکرد و قابلیت اعتماد مدل‌های یادگیری ماشین داشته باشد. همچنین، مجموعه داده باید تعادلی در توزیع داده‌ها بین دسته‌ها داشته باشد. به این معنی که تعداد نمونه‌ها در هر دسته به صورت متوازن باشد و یک دسته به صورت چشمگیری بیشتر از سایر دسته‌ها تعداد نمونه داشته باشد.
  • متاداده‌ها: همراه با مجموعه داده، متاداده‌های مربوط به داده‌ها نیز می‌توانند مفید باشند. این متاداده‌ها می‌توانند شامل اطلاعات مانند توضیحات، منبع، تاریخ، شرح و سایر اطلاعات مربوط به داده‌ها باشند.

این قاعده در ارتباط با انواع مختلف مجموعه داده‌ها همچون مجموعه داده‌های صوتی نیز صدق می‌کند. برای مثال، باید تنوعی در نمونه‌های صوتی با تفاوت‌های مختلف از نظر سبک، سرعت، بیان، تلفظ و غیره وجود داشته باشد. همچنین، برچسب‌ها باید به درستی و دقت نسبت به محتوای صوتی تعیین شده باشند، و حجم و کیفیت داده‌ها نیز به اندازه کافی مناسب باشد.

ماهنامه شبکه را از کجا تهیه کنیم؟
ماهنامه شبکه را می‌توانید از کتابخانه‌های عمومی سراسر کشور و نیز از دکه‌های روزنامه‌فروشی تهیه نمائید.

ثبت اشتراک نسخه کاغذی ماهنامه شبکه     
ثبت اشتراک نسخه آنلاین

 

کتاب الکترونیک +Network راهنمای شبکه‌ها

  • برای دانلود تنها کتاب کامل ترجمه فارسی +Network  اینجا  کلیک کنید.

کتاب الکترونیک دوره مقدماتی آموزش پایتون

  • اگر قصد یادگیری برنامه‌نویسی را دارید ولی هیچ پیش‌زمینه‌ای ندارید اینجا کلیک کنید.

ایسوس

نظر شما چیست؟