عمومی

حرف‌ها و متن‌هایی که به سخنرانی تبدیل می‌شود

از دستیار‌های مجازی گرفته تا تبدیل کتاب هاب نوشتاری به کتاب‌های صوتی، تولید صدای هوش مصنوعی به‌سرعت در حال رشد است و شرکت‌ها برای بهره‌گیری سریع تر از پتانسیل این فناوری با هم در رقابت هستند.

به گزارش سرویس وبگردی خبرگزاری صدا و سیما ، شرکت Voicemod ، یکی از شرکت های مستقر در والنسیا است. این استارت‌آپ یک نرم‌افزار تغییر صدا و بورد صدا با هوش مصنوعی توسعه داده است که تبدیل فوری متن به گفتار و گفتار به گفتار با صدای متفاوت را امکان پذیر می‌کند. برخلاف اکثر رقبای خود، این شرکت ادعا می‌کند که صدا‌ها را در زمان واقعی و با تأخیر کم تغییر می‌دهد و کاربران را قادر می‌سازد همانطور که در زندگی واقعی صحبت می‌کنند، به صحبت کردن با این پلتفرم بپردازند.

 

تبدیل متن به صدا به کمک هوش مصنوعی

به گفته جیمی بوش، مدیر عامل و یکی از بنیانگذاران Voicemod، این شرکت مدل هوش مصنوعی خود را با استفاده از مجموعه داده‌های در دسترس عموم و صداپیشگان حرفه‌ای آموزش می‌دهد که منجر به مجموعه وسیعی از عبارات صوتی، زیر و بم، آهنگ‌ها و احساسات می‌شود. از طریق تکنیک‌های یادگیری ماشینی، مدل یاد می‌گیرد که الگو‌های گفتار و پیچیدگی‌های فرد را درک، تجزیه و تحلیل و پیش‌بینی کند.

 

بوش می­گوید: زمانی که کاربر در نرم افزار یا برنامه ما صحبت می‌کند، ورودی صوتی او در زمان واقعی پردازش می‌شود. سپس مدل هوش مصنوعی ما الگو‌ها و دگرگونی‌های آموخته شده را در ورودی اعمال می‌کند و امکان تبدیل فوری صدا را فراهم می‌کند. Voicemod عمدتاً صنعت سرگرمی از جمله گیمرها، استریمرها، سازندگان محتوا و یوتوبر‌ها را در پلتفرم‌های مختلف از دیسکورد و تی سوییچ گرفته تا یوتوب و اینستاگرام هدف قرار می‌دهد. برای رسیدگی بیشتر به تقاضای فزاینده کاربران برای تبدیل حرف هایشان به صدای هوش مصنوعی، این مجموعه در کنار ۱۰۰ گزینه صوتی موجود در مجموعه خود، اکنون مجموعه موسوم به “انسان AI” را راه اندازی می‌کند. اگرچه Voicemod قبلاً فیلتر‌های صدای انسان را ارائه می‌داد، اما مجموعه جدید قرار است واقعی‌ترین مجموعه انسانی تا به امروز باشد.

 

AI Humans که روی ضبط صدا از بازیگران آموزش دیده است، شامل ۲۰ آواتار صوتی است که از نظر شخصیت، جنسیت و سن متفاوت اند. شخصیت‌ها عبارتند از جو، یک صدای مرد ۸۰ ساله با لحن خشن و طعنه‌آمیز و جنیفر، صدای زن ۲۵ ساله، با شخصیتی «پر انرژی و دوستانه». کاربران همچنین می‌توانند زیر و بم هر شخصیت را سفارشی کنند و درک جنسیت و سن صدا را تغییر دهند. بوش گفت: صدای هوش مصنوعی فرصت‌های هیجان‌انگیزی را برای صنایعی که به دنبال پرورش اکتشاف خلاق و ابراز وجود، افزایش شخصی‌سازی، و تقویت فراگیری در فضا‌های دیجیتال هستند، ارائه می‌کند.

 

اما علیرغم تأثیر مثبتی که تولید صدای هوش مصنوعی می‌تواند داشته باشد، این فناوری با خطرات متعددی نیز همراه است. برخی از آن‌ها عبارتند از سوء استفاده، کلاهبرداری، جعل هویت و حتی سرقت صدا که به ویژه صداپیشگان حرفه‌ای را تحت تاثیر قرار می‌دهد. به گفته بوش، Voicemod فعالانه در تلاش است تا این خطرات را کاهش دهد. برای مثال، در حال توسعه یک فناوری واترمارک برای کمک به پلتفرم‌ها برای شناسایی و ردیابی صدا‌های تولید شده توسط هوش مصنوعی است، در حالی که اقداماتی را برای محافظت از مالکیت معنوی صداپیشگانی که با آن‌ها کار می‌کند، اجرا کرده است.

 

بوش معتقد است که هوش مصنوعی برای حرفه ای‌ها به یک ابزار تبدیل خواهد شد. وی می‌گوید: چیزی که شاید در این بحث‌ها نادیده گرفته شود این است که در پس هر استفاده از هوش مصنوعی صوتی همزمان، موردی که Voicemod هدف قرار می‌دهد، انسانی است که به طور مؤثر هوش مصنوعی را هدایت می‌کند. Voicemod که در حال حاضر بیش از ۴۰ میلیون دانلود صفحه نمایشی دارد. در آینده قصد دارد روی موبایل نیز راه اندازی شود و به دست میلیون‌ها کاربر فعال برسد. همچنین در حال کار روی مشارکت B۲B با شرکت‌های بازی و پلتفرم‌های هدست واقعیت مجازی است. این نرم افزار که به صورت رایگان در دسترس است، با گزینه‌ای نیز برای نسخه PRO پولی که ویژگی‌ها و محتوای اضافی را باز می‌کند، فعال می‌شود.

 

منبع: https://sinapress.ir/

دکمه بازگشت به بالا