هوش مصنوعی مایکروسافت ظرف سه ثانیه صدای شما را تقلید می‌کند

مایکروسافت از یک هوش مصنوعی شبیه‌ساز صدا رونمایی کرده است که قادر است صدای افراد را پس از فقط سه ثانیه گوش دادن به صحبت‌ کردن آن‌ها، عینا تقلید کند.

مدل زبان «وال-ای» (VALL-E) با استفاده از شش هزار ساعت سخنرانی انگلیسی از هفت هزار سخنران مختلف آموزش داده شد تا «طرز حرف زدن شخصی‌سازی شده با کیفیت بالا» از هر گوینده نادیده‌ای را بازآفرینی کند.

هنگامی که این دستگاه هوش‌مصنوعی، صدای ضبط‌شده فردی را در اختیار داشته باشد، قادر است صدای او را جوری بازسازی کند که گویی آن شخص در حال گفتن هر چیزی است. این سیستم حتی می‌تواند لحن احساسی و محیط پژواک‌شناختی گوینده اصلی را تقلید کند.

در مقاله‌ای که این سامانه را توصیف می‌کند، آمده است: «نتایج آزمایش نشان می‌دهد که وال-ای از نظر طبیعی بودن گفتار و شباهت به گوینده، به طرز چشمگیری از پیشرفته‌ترین سامانه‌ یادگیری بدون مشاهده نمونه‌های مشابه [برای] تولید متن به گفتار (TTS) بهتر عمل می‌کند.»

This section contains relevant reference points, placed in (Inner related node field)

«افزون بر این، متوجه شدیم که وال-ای می‌تواند احساسات و محیط پژواک‌شناختی صدای گوینده را در خلال تولید صدا درست حفظ کند.»

از جمله کاربردهای بالقوه آن، خواندن کامل کتاب‌های صوتی از تنها یک نمونه ضبط‌شده [صدای] نویسندگان، ویدیوهایی با صداگذاری به زبان طبیعی، و پرکردن صدا برای بازیگر فیلم در صورت خراب شدن ضبط اصلی است.

همانند سایر فناوری‌های «جعل عمیق» که شباهت بصری افراد را در ویدیوها تقلید می‌کند، امکان استفاده نادرست هم مطرح است.

نرم افزار وال-ای که برای تولید صدای ساختگی استفاده می‌شود، در حال حاضر برای استفاده عموم در دسترس نیست، و مایکروسافت به «خطرات احتمالی در استفاده نادرست از این ابزار، از جمله جعل شناسایی صدا یا جعل هویت یک گوینده خاص» اشاره کرده است.

مایکروسافت گفت که در ادامه توسعه وال-ای از «اصول هوش مصنوعی مسئولانه» خود پیروی می‌کند، و راه‌های ممکن را در تشخیص صداهای تولیدشده برای کاهش چنین خطراتی نیز در نظر می‌گیرد.

مایکروسافت، وال-ای را با استفاده از ضبط‌ صداها در حوزه عمومی، عمدتا از کتاب‌های صوتی «لیبری‌ووکس» آموزش داد، و سخنرانانی که صدای آن‌ها تقلید شد، با میل خود در آزمایش‌ها شرکت کردند.

پژوهشگران مایکروسافت در اظهارنامه‌‌ای اخلاقی گفتند: «زمانی که این مدل به سخنرانان نادیده تعمیم داده می‌شود، اجزای مربوط به آن باید با مدل‌های ویرایش گفتار، شامل پروتکلی به منظور اطمینان از توافق گوینده با اعمال ویرایش‌ها و سیستم تشخیص صدای ویرایش‌شده، همراه شوند.»

هوش مصنوعی مایکروسافت ظرف سه ثانیه صدای شما را تقلید می‌کند

این سیستم حتی می‌تواند لحن احساسی و محیط پژواک‌شناختی گوینده اصلی را تقلید کند

Read More

بیشتر بخوانید

بیشتر از تکنولوژی

هوش مصنوعی خیاط می‌‌شود؟

بریتانیا یک سامانه جدید و کم‌هزینه ضد‌پهپاد در خاورمیانه مستقر کرد

یک میلیون مورد اختلال جی‌‌پی‌اس در منطقه خلیج فارس؛ جنگ الکترونیک وارد مرحله تازه‌ای شد

لوسید گراویتی، رقیب جدید برای ب‌ام‌و، مرسدس بنز و آئودی

آخرین اخبار

هوش مصنوعی خیاط می‌‌شود؟

اسوشیتدپرس: پسر و عروس گروگانگیر سفارت آمریکا می‌خواهند در آمریکا بمانند؛ «می‌خواهیم پسرمان زندگی عادی داشته باشد»

اکسیوس به نقل از ترامپ: تهران تا جمعه یا شاید شنبه و اوایل هفته آینده مهلت دارد

ونزوئلا «کیف مادورو» را به آمریکا مسترد کرد

اعلام شروط ایران برای توافق با آمریکا؛ قطر: مذاکرات به زمان بیشتری نیاز دارد

هرگونه توافق هسته‌ای با جمهوری اسلامی باید فراتر از «برجام» دولت اوباما باشد

دیدگاه

هرگونه توافق هسته‌ای با جمهوری اسلامی باید فراتر از «برجام» دولت اوباما باشد

از آتن و اسپارت تا پکن و واشنگتن؛ معنای «تله توسیدید» چیست؟

لبنان در آستانه بازتعریف سرنوشت؛ میان جنگ، نفوذ و دیپلماسی

پیمان عدم تعرض با ایران؛ ابتکار ریاض برای بازتعریف صلح و امنیت در منطقه

جامعه‌المصطفی، ارگان کشف و جذب مزدوران ایدئولوژی

خاورمیانه: پایان عصر چترهای دفاعی؟

ما در رسانه های اجتماعی:

You are here

هوش مصنوعی مایکروسافت ظرف سه ثانیه صدای شما را تقلید می‌کند

این سیستم حتی می‌تواند لحن احساسی و محیط پژواک‌شناختی گوینده اصلی را تقلید کند

Read More

بیشتر بخوانید

بیشتر از تکنولوژی

آخرین اخبار