Мультиязычное караоке: сопоставление текстов с музыкой
Автоматическая генерация субтитров для караоке и синхронизация их с музыкой
Коротко о проекте
Для мобильного приложения караоке и интеллектуального учителя вокала необходимо разработать систему автоматической разметки песен: сопоставления текстов и музыки точно в темп. Решение работает для всех языков и универсально для всех песенных жанров.
Клиент
Под NDA
Сфера
Startups
Трудозатраты, ч
1000
Страна
Россия
О клиенте
Современное караоке в мобильном телефоне. Около двух миллионов песен на разных языках, а также уникальная функция обучения пению с помощью интеллектуальной системы исправления вокальных ошибок.

Задача
Наша команду решала задачу создания умной разметки песен для генерации субтитров для караоке. Заказчик имел более 1,8 млн песен и текстов к ним, нам было необходимо точно сопоставить начало текста и музыкального фрагмента таким образом, чтобы пользователь мог вовремя вступать в исполнение песни, при этом на экране приложения верно отображались субтитры. Интеллектуальная разметка позволило сократить время на обработку с нескольких месяцев до нескольких дней.

Research
Сбор данных
Интеллектуальная разметка
Решение
В первую очередь система разбивала песню на разные аудиодорожки: музыка и голос исполнителя. Далее была разработана собственная нейронная сеть, которая распознавала аудио сигналы в музыкальной композиции, что позволило автоматически присвоить тайм-коды участкам аудио с голосом. Был разработан модуль, который сопоставлял тексты песен и аудио фрагменты таким образом, чтобы пользователь своевременно получал субтитры караоке в так музыке.
Решения сопоставимо с лучшими проектами в области элаймента, такими как Spotify.

- Руководитель проекта
- Аналитик
- Backend-разработчик
- DevOps
- Teamlead Data Scientist
- Data Scientist
- Data Engineer
Технологии: Python, Pytorch, FastAPI.
База данных: PostgreSQL.
Инструменты: Docker, Click Up.
Результат
Разработана система интеллектуальной разметки и сопоставления музыки и текстов и сервис автоматической генерации субтитров для мобильного приложения караоке. С помощью нашего решения было обработано более 1,8 млн музыкальных композиций. Модель одинаково хорошо работает на 67 языках.
Метрикой качества работы модели является точность сопоставления музыки и текста, то есть своевременное появление текста на экране мобильного приложения. Усредненная ошибка составила 0,5 секунд, что является результатом сопоставимым по качеству с мировыми лидерами.
Важным результатом применения автоматической разметки является огромная экономия времени и средств заказчика. Ручная разметка занимает около 1-2 минут, что в контексте 1,8 млн песен является колоссальными затратами. Автоматическая разметка не только экономит время, но и исключила возможные человеческие ошибки.
Разработка интеллектуальных систем для решения Ваших задач
Заполните форму и менеджер проконсультирует о том как реализовать проект. Ваша идея для нас ценность, а партнерство превращается в дружбу
- Нам доверяют крупные компании и стартапы по всему миру
- 3 года создаем решения, используя искусственный интеллект
- 30 уникальных специалистов реализуют сложные проекты