Мультиязычное караоке: сопоставление текстов с музыкой


Автоматическая генерация субтитров для караоке и синхронизация их с музыкой

Коротко о проекте

Для мобильного приложения караоке и интеллектуального учителя вокала необходимо разработать систему автоматической разметки песен: сопоставления текстов и музыки точно в темп. Решение работает для всех языков и универсально для всех песенных жанров.

Клиент

Под NDA

Сфера

Startups

Трудозатраты, ч

1000

Страна

Россия

О клиенте

Современное караоке в мобильном телефоне. Около двух миллионов песен на разных языках, а также уникальная функция обучения пению с помощью интеллектуальной системы исправления вокальных ошибок.

Задача

Наша команду решала задачу создания умной разметки песен для генерации субтитров для караоке. Заказчик имел более 1,8 млн песен и текстов к ним, нам было необходимо точно сопоставить начало текста и музыкального фрагмента таким образом, чтобы пользователь мог вовремя вступать в исполнение песни, при этом на экране приложения верно отображались субтитры. Интеллектуальная разметка позволило сократить время на обработку с нескольких месяцев до нескольких дней. 

Порядок работы:

Research

Задача сопоставления музыки и текста требовала предварительного изучения. Мы проанализировали мировой опыт и предложили собственную архитектуру

Сбор данных

Мы занимались проектированием хранилища данных и объедением аудио файлов и текстов к ним

Интеллектуальная разметка

Разработана модель, которая автоматически размечала и сопоставляла текст и музыкальный файл. В результате генерировались субтитры для караоке

Решение

В первую очередь система разбивала песню на разные аудиодорожки: музыка и голос исполнителя. Далее была разработана собственная нейронная сеть, которая распознавала аудио сигналы в музыкальной композиции, что позволило автоматически присвоить тайм-коды участкам аудио с голосом. Был разработан модуль, который сопоставлял тексты песен и аудио фрагменты таким образом, чтобы пользователь своевременно получал субтитры караоке в так музыке.

Решения сопоставимо с лучшими проектами в области элаймента, такими как Spotify.

Команда проекта:
Технологии и инструменты:

Технологии: Python, Pytorch, FastAPI.
База данных: PostgreSQL.
Инструменты: Docker, Click Up.

0.1
млн обработанных и размеченных аудиотреков
0
секунд занимает обработка одной песни
0.1
секунд средняя ошибка разметки одной строки
1
языков обрабатывает решение

Результат

Разработана система интеллектуальной разметки и сопоставления музыки и текстов и сервис автоматической генерации субтитров для мобильного приложения караоке. С помощью нашего решения было обработано более 1,8 млн музыкальных композиций. Модель одинаково хорошо работает на 67 языках. 

Метрикой качества работы модели является точность сопоставления музыки и текста, то есть своевременное появление текста на экране мобильного приложения. Усредненная ошибка составила 0,5 секунд, что является результатом сопоставимым по качеству с мировыми лидерами.

Важным результатом применения автоматической разметки является огромная экономия времени и средств заказчика. Ручная разметка занимает около 1-2 минут, что в контексте 1,8 млн песен является колоссальными затратами. Автоматическая разметка не только экономит время, но и исключила возможные человеческие ошибки.

Разработка интеллектуальных систем для решения Ваших задач

Заполните форму и менеджер проконсультирует о том как реализовать проект. Ваша идея для нас ценность, а партнерство превращается в дружбу

    Заполните форму для связи с нами

    В течении суток с Вами свяжется менеджер