Мультиязычное караоке: сопоставление текстов музыке

Из текста и песни формируется размеченный по времени текст для караоке.

 

Коротко о проекте

Для мультиязычного караоке потребовалось из песен и их текстов получить время в которое поется каждая из строк. Клиенту было важно иметь инструмент для быстрой разметки большого количества песен. Решение должно быть автоматическим и мультиязычным. Команда Estesis успешно выполнила все требования заказчика.

 
Клиент

Под NDA

Сфера

Startups

Срок

2 месяца

О клиенте

Российский стартап, создающий мобильное приложение – мультиязычное караоке. В перспективе приложение станет также и продвинутым “мобильным-репетитором” по пению. Команда проекта обратилась к Estesis за решением с ML-ядром в основе. 

Задача

У стартапа уже есть песни и тексты к ним. Для создания караоке заказчику требуется поставить таймкоды в текстах у начала каждой строчки. Разметка миллионов песен вручную – это очень медленно и весьма неточно. 

Клиенту требуется решение с ML-ядром, которое в автоматическом режиме разметит песни самостоятельно. Клиенту важно, чтобы решение было мультиязычным – качественно обрабатывало тексты на русском и английском языках. Также очень важно увеличить скорость разметки треков. 

Порядок работы решения:

Сбор базы данных

Собираются базы данных песен и текстов к ним для последующей разметки нашими нейросетями

Разметка нейросетями

В текстах песен автоматически размечается начало каждой строчки таймкодом - формируется база размеченных текстов

Использование

Пользователь использует мобильное приложение - караоке, где каждая строчка текста появляется в такт музыке

Решение

Обучена нейронная сеть, которая распознавала звуки в песне. Из песни был выделен голос певца. Затем лирика (текст песни) получала тайм-коды в соответствии с выделенным голосом певца. 

В ходе работы удалось обучить модель распознавать тексты не только на английском и русском, но и на других языках.

Реализовано:
case_image02
Команда проекта:

ML-модуль

Технологии и инструменты:

Технологии: Python, Pytorch.
База данных: PostgreSQL.
Инструменты: Docker, Click Up.

0.1
млн - число уже размеченных нашим решением песен
0
сек - продолжительность разметки одной песни
0.1
сек - итоговый accuracy удовлетворяет требованиям
1
языков поддерживает решение Estesis при разметке

Результат

Была сформирована система в которой при наличии текста и песни – формируется размеченный по времени текст для караоке. Решение внедрено в работу и уже разметило тексты 1 800 000 песен.

Клиент был приятно удивлен качеством полученной мультиязычности. У команды Estesis получилось подготовить модель к текстам, не только на английском и русском, но и еще на 67 языках.

Полученный accuracy полностью удовлетворил требованиям заказчика и составил ≈ 0,5 сек. Скорость разметки также соответствует его запросам.

В дальнейшем планируется развить успех и вновь увеличить точность и  скорость разметки треков.

Artificial intelligence solutions!

Решения с ML, HighLoad проекты и RnD на благо вашего бизнеса.

В нашей команде есть ученые с мировым именем в области науки о данных, более 25 научных публикаций, 3 инновационных продукта прошли государственную регистрацию.

Руководители проектов готовы работать с вами на русском, английском и китайском языках.

    Заполните форму для связи с нами

    В течении суток с Вами свяжется менеджер.

    Registration

    Forgotten Password?