این مطلب یکی از مقالات پرونده ویژه«رایانش و خدمات ابری» شماره 205 ماهنامه شبکه است. علاقهمندان میتوانند کل این پرونده ویژه را از روی سایت شبکه دانلود کنند.
قابلیتی که بسیاری از کسبوکارها و کاربران نیاز مبرمی به آن دارند، سرویسهای تبدیل متن به گفتار و گفتار به متن است. دو سرویسی که بهطور مستقیم از زیرساختهای ابری استفاده میکنند. زمانی که شما جملهای را به زبان میآورید و دستیار صوتی جمله را دریافت میکند، محاوره شما را به سمت سرویسهای ابری ارسال کرده تا این محتوا در سرویس ابری پردازششده و در ادامه جمله شما اگر یک دستور باشد، روی دستگاهی که از آن استفاده میکنید اجراشده و شما خروجی نهایی را مشاهده کنید. زمانی که هوش مصنوعی به این بازی وارد میشود شما با دو فاکتور سرعت و دقت سروکار خواهید داشت.
همزمان با برگزاری کنفرانس NAB and SpeechTek گوگل از قابلیتها و بهروزرسانیهای جدیدی که تصور میکرد به کسبوکارها کمک میکند و به شکل بهتری از سرویس تبدیل متن به گفتار و بالعکس استفاده کنند، رونمایی کرد. گوگل در وبلاگ این شرکت در ماه مارس اعلام کرد: از این پس توسعهدهندگان میتوانند از سرویس تبدیل متن به گفتار ابری این شرکت استفاده کنند. سرویسی که به توسعهدهندگان اجازه میدهد با اتکا بر الگوی ویونت (WaveNet) و زیرساخت شبکه عصبی عمیق این شرکت از صدای طبیعی در ارتباط با تبدیل متن به گفتار در برنامههای کاربردی خود استفاده کنند. فناوری که توسعهدهندگان از آن استفاده میکنند، همان فناوری است که سرویسهایی همچون Google Maps و گوگل اسیستنت از آن استفاده میکنند. پروژه ویونت و واسطهای برنامهنویسی مرتبط با این فناوری ماحصل پژوهشها و تلاشهای شرکت دیپمایند است. یک ماه پس از انتشار این خبر، گوگل در ماه آوریل اعلام کرد، پس از گذشت دو سال از معرفی سرویس گفتار به متن (Cloud Speech-to-text) تغییرات بزرگ و مهمی را در آن اعمال کرده است. گوگل نخستین بار در سال 2016 میلادی بود که از سرویس API Cloud Speech رونمایی کرد و اکنون بیش از یک سال است که به شکل عمومی در اختیار مردم قرار گرفته است. این سرویس که تا پیش از این به نام Cloud Speech API از آن نام برده میشد، اکنون بهاندازهای پرمخاطب شده که به گفته گوگل هر شش ماه یکبار بر تعداد کاربران آن افزوده میشود. Cloud Speech-to-Text اکنون از یک مکانیزم جدید تشخیص متادیتاها برای تگ کردن و گروهبندی محتوا، اضافه کردن خودکار نشانهگذاری و مجموعهای از مدلهای از پیشساخته شده برای بهبود دقت تبدیل پشتیبانی میکند. گوگل در وبلاگ این شرکت متعهد شده که سرویس یادشده در99 درصد موارد در دسترس مشتریان قرار خواهد داشت. قابلیتها و تغییراتی که گوگل به سرویس تبدیل گفتار به متن خود اضافه کرده باعث شده تا کیفیت تبدیل محتوای متنی به گفتار و بالعکس بهتر از قبل شود. بهروزرسانی اعمالشده از آن جهت حائز اهمیت است که به کسبوکارها اجازه میدهد واسطهای برنامهنویسی مرتبط با این فناوری را بهتر از گذشته به کار گرفته و محتوایی کاملا غنی و قدرتمند در اختیار مشتریان خود قرار دهند. (شکل 1)
بهروزرسانی سرویس Speech-to-Text ضمن آنکه قادر است متادیتاها را تشخیص دهد، به ویژگی نشانهگذاری خودکار نیز تجهیز شده است. گوگل در یادداشتی که در وبلاگ این شرکت در ماه مارس منتشر کرد، اعلام کرد از این پس سرویس Cloud Text-to-Speech به توسعهدهندگان اجازه میدهد سامانههای پاسخگوی صوتی قدرتمندی را برای مراکز تماس مشتریان ایجاد کرده، به دستگاههای اینترنت اشیایی که به شکل دوطرفه با کاربران در ارتباط هستند قابلیت پاسخگویی داده و به شکل خودکار محتوای متنی مقالهها را به قالبهای صوتی همچون کتابهای صوتی تبدیل کنند. این سرویس به توسعهدهندگان اجازه میدهد، از میان 32 صدای مختلف گزینه موردنظر خود را انتخاب کنند. گوگل به توسعهدهندگان اجازه داده از برچسبهای نشانهگذاری متن به گفتار موسوم به SSML برای اضافه کردن مکث، دستورالعملهای تلفظ و تاریخ به گفتار استفاده کنند. سیاست اتخاذشده از سوی گوگل نشان میدهد، این شرکت بیش از آنچه تصور میشد علاقه دارد تا ابزارهای هوش مصنوعی ساخت این شرکت را در قالب سرویسهایی در اختیار سازمانها قرار دهد.
گوگل میگوید: «بهروزرسانیهای اخیر دریچههای تازهای از فرصتها را پیش روی شرکتهایی قرار خواهد داد که در نظر دارند به شکل متفاوتی با کاربران خود ارتباط برقرار کنند. سرویسهای جالبتوجهی در اختیار آنها قرار داده و بازخوردها را به شکل متفاوتی از مشتریان دریافت کرده تا در نهایت کیفیت سرویسهای خود را بهبود بخشند. با بهروزرسانی speech To Text کاربران به جدیدترین پژوهش انجامشده از سوی متخصصان گوگل در ارتباط با یادگیری ماشین از طریق بهکارگیری توابع RESTful API دسترسی خواهند داشت.» این بهروزرسانیها با بهتر کردن عملکرد مدلهای تشخیص گفتار اجازه میدهند تا سرویسهایی همچون استخراج/تبدیل صوت از یک ویدیو و تبدیل محتوای صوتی یک تماس تلفنی به متن بهتر از گذشته انجام شود. مشتریان میتوانند مدلی را که احساس میکنند برای کسبوکارها آنها بهتر بوده و بهخوبی میتواند به نیازهای آنها پاسخ دهد، انتخاب کنند. گوگل همچنین مدل enhanced phone_call را طراحی کرده است. مدل یادشده از دادههای مربوط به مشتریانی که به شکل داوطلبانه تصمیم گرفتهاند، دادههای خود را با Cloud Speech-to-text به اشتراک قرار دهند بهمنظور بهبود کیفیت سرویس گفتار به متن استفاده میکند. مشتریانی که تصمیم میگیرند در این برنامه مشارکت داشته باشند، دسترسی کامل به این سرویس و سایر مدلهای پیشرفتهای را خواهند داشت که بر مبنای دادههای سایر مشتریان کار میکند. گوگل میگوید: «مدل enhanced phone_call در مقایسه با مدل basic phone_call به میزان 54 درصد کمتر دچار خطا و اشتباه میشود.» گوگل همچنین مدل ویدیویی ارائهشده از سوی این شرکت را نیز مورد بازبینی قرار داده است. این بازبینی بهمنظور بهینهسازی فرآیند پردازش صوتی از ویدیوها و/یا صدا از طریق چند اسپیکر اعمالشده است. مدل ویدیویی از همان الگوی یادگیری ماشین استفاده میکند که یوتیوب از آن استفاده کرده و نزدیک به 64 درصد کمتر از مدل پیشفرض دچار اشتباه و خطا شده است. Cloud Speech-to-Text اکنون میتواند به لطف شبکه عمیق عصبی جدید LSTM بهطور خودکار به نشانهگذاری گفتار بپردازد. این مدل اکنون در وضعیت بتا قرار دارد، اما قادر است به شکل خودکار کاماها، علامت سوال و نقطهها در یک متن را پیشنهاد دهد. گوگل به کاربران اجازه داده با برچسبگذاری متادیتاهای قابلتشخیص و گروهبندی رونوشتها و ارائه بازخوردها به تیم گوگل اجازه دهند تا کیفیت این محصول را بهبود بخشد. بهطور مثال، شما میتوانید ویدیو یا صوت رونوشت شده خود را با برچسبهایی همچون (فرمانهای صوتی برای یک برنامه خرید) voice commands for a shopping app یا (شوی تلویزیونی ورزش بسکتبال) basketball sports to shows نشانهگذاری کرده و توصیف کنید تا گوگل بهدرستی بتواند این اطلاعات را برای Cloud Speech-to-Text جمعآوری کرده و در پروژه بعدی خود از آنها استفاده کند. لازم به توضیح است که مدل ویدیویی و مدل enhanced phone_call به زبان انگلیسی در درست کاربران قرار داشته و بهزودی زبانهای دیگری نیز به آن اضافه خواهد شد. برای کسب اطلاعات بیشتر و آزمایش فناوری تبدیل گفتار به متن میتوانید به آدرس https://cloud.google.com/speech-to-text/ مراجعه کنید. در بخش convert your speech to text right now گوگل اجازه میدهد از طریق میکروفون یا آپلود فایل این سرویس مبتنی بر یادگیری ماشین را آزمایش کنید. البته توجه داشته باشید در زمان انتخاب فایل صوتی شما با محدودیت اندازه فایل صوتی روبرو هستید. در زمان نگارش این مقاله فایل صوتی شما باید زمانی کمتر از یک دقیقه و حجمی کمتر از 50 مگابایت داشته باشد.
ماهنامه شبکه را از کجا تهیه کنیم؟
ماهنامه شبکه را میتوانید از کتابخانههای عمومی سراسر کشور و نیز از دکههای روزنامهفروشی تهیه نمائید.
ثبت اشتراک نسخه کاغذی ماهنامه شبکه
ثبت اشتراک نسخه آنلاین
کتاب الکترونیک +Network راهنمای شبکهها
- برای دانلود تنها کتاب کامل ترجمه فارسی +Network اینجا کلیک کنید.
کتاب الکترونیک دوره مقدماتی آموزش پایتون
- اگر قصد یادگیری برنامهنویسی را دارید ولی هیچ پیشزمینهای ندارید اینجا کلیک کنید.
نظر شما چیست؟