هوش مصنوعی جدید
- علمی و پزشکی
این هوش مصنوعی جدید از روی فایل صوتی شبیه سازی میکند!
به گزارش خبرگزاری یومیر و بر اساس گزارش زومیت، OpenAI پیشنمایش مدل هوش مصنوعی تبدیل متن به صوت موسومبه موتور صدا (Voice Engine) را رونمایی کرده است. این مدل با گرفتن نمونهی ۱۵ ثانیهای از صدای یک شخص، میتواند هر متنی را با همان صدا بخواند. هنوز تاریخ عمومیشدن ویس انجین مشخص نشده و انتظار میرود که با توجه به نگرانیها از گسترش دیپ فیک، OpenAI روش استفادهی مسئولانه از این ابزار را برای جلوگیری از هرگونه سوءاستفادهی احتمالی اعلام کند. جف هریس، یکی از اعضای تیم محصول OpenAI، در مصاحبهای گفته است: «ما میخواهیم اطمینان حاصل کنیم که همه در مورد نحوهی بهکارگیری ویس انجین احساس خوبی داشته باشند. ما نسبتبه خطرات این فناوری آگاهیم و برای آن راهحلهایی داریم.» هریس میگوید: «ما نمونهی کوچکی از صوت و متن را میگیریم و صدای شبیهسازیشده را تولید میکنیم که با صدای اصلی کاملاً همخوانی دارد. صدای اصلی پس از اتمام درخواست حذف میشود. چنانچه متن دادهشده دارای قسمتهای سؤالی، تعجبی یا مانند آن باشد، تن صدای تولیدشده نیز متناسب با آن تغییر خواهد کرد.» توسعهی مدل هوش مصنوعی ویس انجین از اواخر سال ۲۰۲۲ آغاز شد و از آن برای تولید صداهای پیشفرض موجود در API تبدیل متن به گفتار …
- علمی و پزشکی
هوش مصنوعی جدید گوگل/ میشنود، ترجمه میکند و حرف میزند
مدل AudioLM در حفظ اطلاعات زبان آوایی مانند هویت و لحن گوینده عملکرد بالایی دارد. با ترکیب AudioLM با PaLM-2، مدل AudioPaLM میتواند از تخصص زبانی PaLM-2 و حفظ اطلاعات زبان آوایی AudioLM استفاده کند تا به درک کاملتری از متن و گفتار دست یابد و بهتر بتواند آنها را خلق کند. بیشتر بخوانید: تولید متن و صدا با گوگل AudioPaLM مدل AudioPaLM از کلمات مشترکی استفاده میکند که میتواند هم گفتار و هم متن را با تعداد محدودی از توکنهای مجزا نشان دهد. این ویژگی به مدل زبانی جدید گوگل اجازه میدهد تا وظایفی مانند تشخیص گفتار، تبدیل متن به گفتار و ترجمه گفتار به گفتار را در یک معماری و فرایند آموزش یکپارچه و واحد قرار دهد. مدل جدید گوگل بهخاطر ترکیب دو مدل زبانی، میتواند متن و گفتار را پردازش کند یا آنها را بسازد. این موضوع کاربردهای AudioPaLM را افزایش میدهد و میتوان از آن برای کارهایی مانند تشخیص صدا یا تبدیل صدا به متن استفاده کرد. AudioPaLM ظاهراً در آزمایشها در زمینه ترجمه گفتار عملکرد بهتری نسبت به سایر سیستمها داشته است. این مدل همچنین میتواند گفتار را به متن ترجمه کند و چنین کاری را برای ترکیبهای زبانی جدید هم انجام دهد. مدل زبانی …