هوش مصنوعی جدید

  • علمی و پزشکیاین هوش مصنوعی جدید از روی فایل صوتی شبیه سازی می‌کند!

    این هوش مصنوعی جدید از روی فایل صوتی شبیه سازی می‌کند!

    به گزارش خبرگزاری یومیر و بر اساس گزارش زومیت، OpenAI پیش‌نمایش مدل هوش مصنوعی تبدیل متن به صوت موسوم‌به موتور صدا (Voice Engine) را رونمایی کرده است. این مدل با گرفتن نمونه‌ی ۱۵ ثانیه‌ای از صدای یک شخص، می‌تواند هر متنی را با همان صدا بخواند. هنوز تاریخ عمومی‌شدن ویس انجین مشخص نشده و انتظار می‌رود که با توجه به نگرانی‌ها از گسترش دیپ فیک، OpenAI روش استفاده‌ی مسئولانه از این ابزار را برای جلوگیری از هرگونه سوءاستفاده‌ی احتمالی اعلام کند. جف هریس، یکی از اعضای تیم محصول OpenAI، در مصاحبه‌ای گفته است: «ما می‌خواهیم اطمینان حاصل کنیم که همه در مورد نحوه‌ی به‌کارگیری ویس انجین احساس خوبی داشته باشند. ما نسبت‌به خطرات این فناوری آگاهیم و برای آن راه‌حل‌هایی داریم.» هریس می‌گوید: «ما نمونه‌ی کوچکی از صوت و متن را می‌گیریم و صدای شبیه‌سازی‌شده را تولید می‌کنیم که با صدای اصلی کاملاً همخوانی دارد. صدای اصلی پس از اتمام درخواست حذف می‌شود. چنانچه متن داده‌شده دارای قسمت‌های سؤالی، تعجبی یا مانند آن باشد، تن صدای تولیدشده نیز متناسب با آن تغییر خواهد کرد.» توسعه‌ی مدل هوش مصنوعی ویس انجین از اواخر سال ۲۰۲۲ آغاز شد و از آن برای تولید صداهای پیش‌فرض موجود در API تبدیل متن به گفتار …

  • علمی و پزشکیهوش مصنوعی جدید گوگل/ می‌شنود، ترجمه می‌کند و حرف می‌زند

    هوش مصنوعی جدید گوگل/ می‌شنود، ترجمه می‌کند و حرف می‌زند

    مدل AudioLM در حفظ اطلاعات زبان آوایی مانند هویت و لحن گوینده عملکرد بالایی دارد. با ترکیب AudioLM با PaLM-2، مدل AudioPaLM می‌تواند از تخصص زبانی PaLM-2 و حفظ اطلاعات زبان آوایی AudioLM استفاده کند تا به درک کامل‌تری از متن و گفتار دست یابد و بهتر بتواند آن‌ها را خلق کند. بیشتر بخوانید: تولید متن و صدا با گوگل AudioPaLM مدل AudioPaLM از کلمات مشترکی استفاده می‌کند که می‌تواند هم گفتار و هم متن را با تعداد محدودی از توکن‌های مجزا نشان دهد. این ویژگی به مدل زبانی جدید گوگل اجازه می‌دهد تا وظایفی مانند تشخیص گفتار، تبدیل متن به گفتار و ترجمه گفتار به گفتار را در یک معماری و فرایند آموزش یکپارچه و واحد قرار دهد. مدل جدید گوگل به‌خاطر ترکیب دو مدل زبانی، می‌تواند متن و گفتار را پردازش کند یا آن‌ها را بسازد. این موضوع کاربردهای AudioPaLM را افزایش می‌دهد و می‌توان از آن برای کارهایی مانند تشخیص صدا یا تبدیل صدا به متن استفاده کرد. AudioPaLM ظاهراً در آزمایش‌ها در زمینه ترجمه گفتار عملکرد بهتری نسبت به سایر سیستم‌ها داشته است. این مدل همچنین می‌تواند گفتار را به متن ترجمه کند و چنین کاری را برای ترکیب‌های زبانی جدید هم انجام دهد. مدل زبانی …

دکمه بازگشت به بالا