Перевод аудиофайл в текстовый файл. Два сервиса распознавания речи и перевода в текст онлайн

05.08.2019 Фото и видео

Ни одна программа не сможет полностью заменить ручную работу по расшифровке записанной речи. Однако существуют решения, которые позволяют существенно ускорить и облегчить перевод речи в текст, то есть, упростить транскрибацию.

Транскрибация – это запись аудио или видео-файла в текстовом виде. Есть в интернете оплачиваемые платные задания, когда за транскрибацию текста исполнителю выплачивается некоторая сумма денег.

Перевод речи в текст полезен

  • студентам для перевода записанных аудио- или видео-лекций в текст,
  • блогерам, ведущим сайты и блоги,
  • писателям, журналистам для написания книг и текстов,
  • инфобизнесменам, которым нужен текст после проведенного ими вебинара, выступления и т.д.,
  • людям, которым сложно печатать – они могут надиктовать письмо и послать его родным или близким,
  • другие варианты.

Опишем наиболее эффективные инструменты, доступные на ПК, мобильные приложения и онлайн-сервисы.

1 Сайт speechpad.ru

Это онлайн-сервис, который позволяет через браузер Google Chrome переводить речь в текст. Сервис работает с микрофоном и с готовыми файлами. Конечно, качество будет значительно выше, если использовать внешний микрофон и диктовать самому. Однако сервис неплохо справляется даже с видеороликами на YouTube.

Нажимаем «Включить запись», отвечаем на вопрос про «Использование микрофона» – для этого кликаем «Разрешить».

Длинную инструкцию про использование сервиса можно свернуть, нажав на кнопку 1 на рис. 3. От рекламы можно избавиться, пройдя несложную регистрацию.

Рис. 3. Сервис speechpad

Готовый результат легко редактируется. Для этого нужно либо вручную исправить выделенное слово, либо надиктовать его заново. Результаты работы сохраняются в личном кабинете, их также можно скачать на свой компьютер.

Список видео-уроков по работе с speechpad:

Можно транскрибировать видео с Youtube или со своего компьютера, правда, понадобится микшер, подробнее:

Видео «транскрибирование аудио»

Работает сервис с семью языками. Есть небольшой минус. Он заключается в том, что если нужно транскрибировать готовый аудио-файл, то его звучание раздаётся в колонки, что создает дополнительные помехи в виде эха.

2 Сервис dictation.io

Замечательный онлайн-сервис, который позволит бесплатно и легко переводить речь в текст.

Рис. 4. Сервис dictation.io

1 на рис. 4 – русский язык можно выбрать в конце страницы. В браузере Google Chrome язык выбирается, а в Мозилле почему-то нет такой возможности.

Примечательно то, что реализована возможность автосохранять готовый результат. Это убережет от случайного удаления в результате закрытия вкладки или браузера. Готовые файлы этот сервис не распознает. Работает с микрофоном. Нужно называть знаки препинания, когда производите диктовку.

Текст распознается достаточно корректно, орфографических ошибок нет. Можно самостоятельно вставлять знаки препинания с клавиатуры. Готовый результат можно сохранить на своем компьютере.

3 RealSpeaker

Эта программа позволяет легко переводить человеческую речь в текст. Она предназначена для работы в разных системах: Windows, Android, Linux, Mac. С ее помощью можно преобразовывать речь, звучащую в микрофон (например, он может быть встроен в ноутбук), а также записанную в аудиофайлы.

Может воспринимать 13 языков мира. Существует бета-версия программы, которая работает в режиме онлайн-сервиса:

Нужно перейти по указанной выше ссылке, выбрать русский язык, загрузить на онлайн-сервис свой аудио- или видео-файл и оплатить его транскрибацию. После транскрибации можно будет скопировать полученный текст. Чем больше файл для транскрибации, чем больше времени понадобится на его обработку, подробнее:

В 2017-ом году был бесплатный вариант транскрибации с помощью RealSpeaker, в 2018-ом году такой возможности нет. Сильно смущает тот момент, что транскрибированный файл доступен всем пользователям для скачивания, возможно это будет доработано.

Контакты разработчика (ВКонтакте, Facebook, Youtube, Твиттер, электронная почта, телефон) программы можно найти на странице его сайта (точнее, в подвале сайта):

4 Speechlogger

Альтернатива предыдущему приложению для мобильных устройств, работающих на Android. Доступно бесплатно в магазине приложений:

Текст редактируется автоматически, в нем расставляются знаки препинания. Очень удобно для того, чтобы надиктовывать себе заметки или составлять списки. В результате текст получится весьма достойного качества.

5 Dragon Dictation

Это приложение, которое распространяется бесплатно для мобильных устройств от компании Apple.

Программа может работать с 15 языками. Она позволяет редактировать результат, выбирать из списка нужные слова. Нужно четко проговаривать все звуки, не делать лишних пауз и избегать интонации. Иногда возникают ошибки в окончаниях слов.

Приложение Dragon Dictation используют обладатели , например, чтобы, перемещаясь по квартире, надиктовать список покупок в магазине. Приду туда, можно будет посмотреть на текст в заметке, и не надо слушать.

Какую бы программу Вы ни использовали в своей практике, будьте готовы перепроверять результат и вносить определенные коррективы. Только так можно получить безукоризненный текст без ошибок.

Также полезные сервисы:

Получайте актуальные статьи по компьютерной грамотности прямо на ваш почтовый ящик .
Уже более 3.000 подписчиков

.

23.08.2014. Неожиданно обнаружил, что могу использовать для транскрибирования скрытые возможности в windows 7 и 8. Возможно это работает не всегда, но на двух моих компьютерах — старом нотбуке и новом моноблоке сработало. Последовательность действий следующая — открываем контрольную панель, затем выбираем звук и в ней вкладку записывающие устройства. Там нажимаем правую кнопку мыши и в появившемся контекстном меня выбираем — показать скрытые устройства.

Появится скрытый миксер звука. Делаем его доступным и затем устройстом записи по умолчанию.

После этого напротив миксера появится столбик, означающий, что он используется для записи.

И вроде все — можно приступать к переводу аудио в текст в модуле транскрибирования, при этом мы слышим звук из колонок и не нужно никаких повторителей.

Пользователь Виктор поделился опытом установки стерео микшера в случае если его нет в системе.

Использование виртуального кабеля

Нашел сегодня бесплатную замену программе Virtual audio cabel (VAC). Альтернатива почти свободно распространяется (там странная лицензия donationware) на сайте http://www.VB-CABLE.com .

Правда, предлагаемый там программа для повтора аудио у меня не заработала, но создать виртуальный кабель получилось и я смог распознать аудио без микрофона.

При переводе аудио с помощью программ, создающих виртуальный аудио кабель происходит неприятное явление — текст накапливается в поле предварительного просмотра и не попадает в результирующее поле. После порядка 5 минут распознавания программа отключается и высвечивается ошибка «error network». Так как ошибка находится вне кода блокнота, то просто исправить ее нельзя (правда можно обойти, например, выключением записи через некоторые промежутки времени).

От 07.11.13. Сделал принудительный перенос из предварительных результатов в результирующее поле при превышении длины текста 300 символов. Теперь проблема практически решена (17.12.2014 Теперь уже есть специальное Поле задания длины буфера фраз ).

15.12.2013 Для сравнения привожу результаты транскрибирования mp3 2.5 минутного отрывка записи сказки Пушкина, скаченной с популярного сайта bibe.ru. Bite rate записи равнялся 128 kbps, колонки и микрофон самые обычные.

Результат перевода аудио с помощью колонок и микрофона

Результат перевода аудио с помощью программы VB-CABLE

Настройка виртуального кабеля

1. Скачиваете виртуальный кабель , распаковываете его в папку и запускаете либо VBCABLE_Setup.exe , либо VBCABLE_Setup_x64.exe (в зависимости от разрядности вашей Windows)

2. Открываете окно управления записывающими устройствами и делаете CABLE Output устройством по умолчанию.

3. Открываете окно управления устройствами воспроизведения и делаете CABLE Input устройством по умолчанию.

4. Теперь можно приступать к транскрибированию. После этих манипуляций звук будет идти из выхода аудио на запись, микрофон при этом перестает работать. Чтобы вернуть его для работы нужно сделанные исменения откатить (вернуть все назад).

Использование физического кабеля

2.06.2014. Пользователь Владимир Гусев предложил использовать для транскрибирования кабель 3.5 jack- 3.5 jack. Один конец кабеля при этом вставляется в выход на колонки, а другой на вход для микрофона. Качество при этом методе получается близкое к качеству, полученному на vbcable, но нет неприятного эффекта накапливания текста в буфере предварительного просмотра. Для контроля звука он также предлагает использовать кабель с размножителем.

Здравствуйте, друзья. Сегодня последняя статья из серии про профессию транскрибатор, в которой я расскажу, как новичку сделать транскрибацию максимально просто и быстро.

Показывать буду на примере одной из , о которых мы вчера разговаривали. Также приведу интересный способ, как можно делать расшифровку записей в текст с помощью распознавания речи.

Способ 1

Express Scribe — это профессиональная программа, которой пользуются практически все, кто занимается переводом аудио- и видеозаписей. Она имеет все необходимые функции, которые требуются.

После установки данной программы и запуска, вы увидите такое окно.

Она, к сожалению, не имеет интерфейса на русском языке, но в ней и так всё понятно и настроек особых не требуется. Просто установите её и работайте.

Удобство этой программы заключается в том, что не нужно переключаться между окнами проигрывателя и текстовым документом, прослушивать запись и набирать текст можно сразу в одном месте.

Шаг 1. Чтобы загрузить свои файлы, которые нужно транскрибировать, нажмите кнопку «Load» или просто перетащите их из вашей папки, где они лежат, в самое верхнее окно.

Шаг 2. Изучите или напишите себе шпаргалку, какие горячие клавиши вам потребуются в работе.

Стандартные настройки горячих клавиш:

  • F9 — воспроизведение записи.
  • F4 — пауза.
  • F10 — воспроизведение с обычной скоростью.
  • F2 — воспроизведение на низкой скорости (50%).
  • F3 — воспроизведение на высокой скорости (150%).
  • F7 — перемотка назад.
  • F8 — перемотка вперёд.

Удобно, что клавиши воспроизведения и паузы настроены под разные руки, и через некоторое время мышечная память их легко запомнит.

Шаг 3. В нижнем правом углу программы установите комфортную для вас скорость проигрывания записи. Можно замедлить до такого состояния, чтобы успевать печатать, не делая паузу.

Шаг 4. Можно начинать делать транскрибацию.

Также для записи вы можете отрегулировать каналы аудио, чтобы звук был лучше и понятнее, просто включите запись и подвигайте шкалы до лучшего качества.

Шаг 5. После того, как вы сделали перевод из аудио в текст, скопируйте получившийся текст в документ Word для сохранения и последующего его редактирования.

Способ 2

Второй способ заключается в том, чтобы не набирать текст на клавиатуре самостоятельно, а чтобы он набирался автоматически с помощью сервисов распознавания голоса.

В Гугл документах эта функция находится во вкладке «Инструменты» -> «Голосовой ввод...» или запускается сочетанием клавиш CTRL+SHIFT+S.

Заключение

Вот такие два совершенно простых способа, которые помогут вам сделать транскрибацию и заработать (для кого-то первые) деньги через интернет.

Профессия «транскрибатор» очень простая и с ней может справиться каждый, поэтому здесь не так много можно зарабатывать. Я рекомендую вам ознакомиться с другими интересными специальностями в книге « », на которую я недавно делал обзор.

Если у вас возникли ко мне какие-то вопросы или пожелания, то всегда можете написать их мне ниже в комментариях к этой статье. Желаю удачи в освоении данного направления и хороших доходов в удалённой работе!

Сразу нужно сказать - программы, автоматически распознающей и переводящей речь в текст, не существует. Во всяком случае, пока. Поэтому расшифровка записей в текст на данный момент производится только вручную. В этой статье представлен обзор программ, помогающих сделать этот нелегкий процесс более удобным, быстрым и качественным.

RSplayer V1.4 Данная программа имеет много возможностей по обработке аудиофайлов, но здесь мы рассмотрим только использование ее для расшифровки аудио.

Для удобства расшифровки аудиофайлов в программе предусмотрен простой текстовый редактор, в верхней части окна которого размещается аудиоплейер. Существуют следующие комбинации клавиш: левый Alt – курсорная стрелка вниз – остановка воспроизведения, левый Alt – курсорная стрелка вверх – возобновление воспроизведения с позиции минус пять секунд от позиции остановки воспроизведения (очень удобная функция для расшифровщика). Эти же комбинации клавиш действуют из всех программ Windows, что позволяет использовать для расшифровки, например, Microsoft Word.

Программа проста в использовании, все, что вам необходимо сделать для работы - это загрузить запись в программу, запустить воспроизведение и набивать текст, используя для остановки и возобновления указанные выше комбинации клавиш.

Программа для обработки и расшифровки аудиозаписей в текст RSplayer V1.4 распространяется бесплатно; скачать ее, а также получить более подробную информацию о ней можно на сайте разработчика http://www.recsound.org/rsplayer.html

Dragon Dictate - это американская программа для распознавания речи (естественно, английской), используется для перевода речи в текст, а также для передачи голосовых команд компьютеру. На Dragon Dictate были основаны отечественные версии «Диктант»,"Комбат", "Горыныч", «Диктограф».

Прямо скажем, все отечественные программы оставляют желать лучшего.С настройкой программ придется изрядно повозиться - настроить их на тембр собственной речи, занести новые слова в словарь. Впрочем, чем больше работаешь в этих программах, тем больше они «привыкают» к голосу и понимают вас, но для этого нужно время, и немалое.

Вряд ли хоть одну из них можно считать полноценной программой для транскрипции речи в текст. Даже в идеальных условиях, при отсутствии шумов, при четком произношении - ошибок масса. Кроме того, приходится постоянно отвлекаться на просмотр вводимого текста, постоянно исправлять неточности. В итоге скорость расшифровки раза в 2 ниже, чем при вводе вручную с клавиатуры.

Что касается расшифровки интервью, семинаров, конференций пр., то названные программы для подобной работы не подходят совершенно, так как понимают речь только своего «хозяина». Желающие поближе познакомиться с различными "горынычами" найдут в Интернете большое количество бесплатных версий этих программ.

Транскрайбер «Цезарь» от Центра Речевых Технологий. Удобная программа, легкая в эксплуатации, работа ведется в редакторе Microsoft Word (в 2003 и в 2007), есть функция шумоочистки и замедления голоса, что иногда очень спасает при расшифровке «сложных» записей.

Для тех, у кого большой опыт расшифровки и хорошая скорость печати, наоборот, есть функция ускорения записи. Управление воспроизведением осуществляется как автоматически на панели транскрайбера, так и с помощью специальной ножной педали, которая предоставляется в комплекте с программой. Есть автоматическая проверка орфографии, что позволит избежать ошибок и опечаток.

Очень удобно то, что заранее можно задать имена участников и потом вводить их одним нажатием клавиши, что также ускоряет работу. "Цезарь" поддерживает расшифровку звука во всех распространенных форматах. Минус у этой программы только один - она платная .

Узнать более подробную информацию о программе можно на сайте Центра Речевых Технологий http://www.speechpro.ru/product/transcription/cesar

Вместо «Цезаря» можно не менее успешно использовать проигрыватель AIMP - отличный бесплатный вариант, скачать можно на официальном сайте http://www.aimp.ru/ .

В настройках отрегулируйте функции «Немного перейти назад» и «Немного перейти вперед» - они нужны, чтобы заново прослушать последний фрагмент или перейти на фрагмент вперед.

Вызвав эквалайзер, можно уменьшить значение Speed и увеличить значение Pitch. При этом скорость воспроизведения замедлится, но высота голоса (если правильно подобрать Pitch) - не изменится. Постарайтесь так подобрать эти два параметра, чтобы можно было практически синхронно со звуком набирать текст, только иногда останавливая запись. Если все удобно и правильно настроить, то набор будет занимать гораздо меньше времени.

Программу для расшифровки аудио Express Scribe легко бесплатно скачать в Интернете. Поддерживает огромное количество форматов записи, имеет интеграцию с Microsoft Word. Доступна отмотка назад по нажатию одной кнопки, интервал отмотки в секундах можно настраивать любой.

Также изменяется скорость проигрывания, есть функция шумоочистки. Программа хорошая, легкая в освоении, несмотря даже на то, что интерфейс на английском языке, так что можно смело рекомендовать ее для работы. TextService активно использует эту программу для расшифровки интервью, круглых столов, конференций, семинаров, и др.

Надеемся, статья пригодится и поможет в выборе программ для расшифровки аудиозаписей. Учитывая черепашью скорость развития анализаторов речи, похоже, что работа стенографисток, машинисток и операторов будет актуальна еще очень долгое время. И может это и к лучшему, ведь ни одна программа не сможет до конца понять человеческую речь, верно интерпретировать речевые и эмоциональные акценты. Плюс к этому стенографистки-машинистки сохранят свою работу - борьба с безработицей)

В свою очередь хотим напомнить, что готовы выполнить для вас расшифровку аудиозаписи в текст любой тематики в любое время дня и ночи, что конечно сэкономит ваше время.

В нашем современном, насыщенном событиями мире, скорость работы с информацией является одним из краеугольных камней достижения успеха. От того как насколько быстро мы получаем, создаём, перерабатываем информацию зависит наша рабочая производительность и продуктивность, а значит и наш непосредственный материальный достаток. Среди инструментов, способных повысить наши рабочие возможности, важное место занимают программы для перевода речи в текст, позволяющие существенно увеличить скорость набора нужных нам текстов. В данном материале я расскажу, какие существуют популярные программы для перевода аудио голоса в текст, и каковы их особенности.

Большинство ныне существующих программ для перевода голоса в текст имеют платный характер, предъявляя ряд требований к микрофону (в случае, когда программа предназначена для компьютера). Крайне не рекомендуется работать с микрофоном, встроенным в веб-камеру, а также размещённым в корпусе стандартного ноутбука (качество распознавания речи с таких устройств находится на довольно низком уровне). Кроме того, довольно важно иметь тихую окружающую обстановку, без лишних шумов, способных напрямую повлиять на уровень распознавания вашей речи.

При этом большинство таких программ способны не только трансформировать речь в текст на экране компьютера, но и использовать голосовые команды для управления вашим компьютером (запуск программ и их закрытие, приём и отправление электронной почты, открытие и закрытие сайтов и так далее).

Программа преобразования речи в текст

Перейдём к непосредственному описанию программ, способных помочь в переводе речи в текст.

Программа «Laitis»

Бесплатная русскоязычная программа для распознавания голоса «Laitis » обладает хорошим качеством понимания речи, и, по мнению её создателей, способна практически полностью заменить пользователю привычную клавиатуру. Программа хорошо работает и с голосовыми командами, позволяя с их помощью выполнять множество действий по управлению компьютером.

Для своей работы программа требует обязательного наличия на ПК скоростного интернета (в работе программы используются сетевые сервисы распознавания голоса от «Google» и «Yandex»). Возможности программы позволяют, также, управлять с помощью голосовых команд и вашим браузером, для чего необходима установка на веб-навигатор специального расширения от «Laitis» (Chrome, Mozilla, Opera).

«Dragon Professional» — расшифровка аудиозаписей в текст

На момент написания данного материала цифровой англоязычный продукт « Dragon Professional Individual » является одним из мировых лидеров по качеству распознаваемых текстов. Программа понимает семь языков (с русским пока работает лишь мобильное приложение «Dragon Anywhere» на и ), обладает высоким качеством распознавания голоса, умеет выполнять ряд голосовых команд. При этом данный продукт имеет исключительно платный характер (цена за основную программу составляет 300 долларов США, а за «домашнюю» версия продукта «Dragon Home » покупателю придётся выложить 75 американских долларов).

Для своей работы данный продукт от «Nuance Communications» требует создания своего профиля, который призван адаптировать возможности программы под специфику вашего голоса. Кроме непосредственной диктовки текста, вы можете обучить программу выполнять ряд команд, тем самым делая своё взаимодействие с компьютером ещё более конгруэнтным и удобным.

«RealSpeaker» — сверхточный распознаватель речи

Программа для трансформации голоса в текст «RealSpeaker » кроме стандартных для программ такого рода функций, позволяет задействовать возможности веб-камеры вашего ПК. Теперь программа не только считывает аудио составляющую звука, но и фиксирует движение уголков губ говорящего, тем самым более корректно распознавая выговариваемые им слова.


«RealSpeaker» считывает не только аудио, но и визуальную составляющую процесса речи

Приложение поддерживает более десяти языков (в том числе и русский), позволяет распознавать речь с учётом акцентов и диалектов, позволяет транскрибировать аудио и видео, даёт доступ к облаку и многое другое. Программа условно бесплатна, за платную версию придётся заплатить вполне реальные деньги.

«Voco» — программа быстро переведёт голос в текстовый документ

Ещё один преобразователь голоса в текст – это платный цифровой продукт «Voco », цена «домашней» версии которого ныне составляет около 1700 рублей. Более продвинутые и дорогие варианты данной программы – «Voco.Professional» и «Voco.Enterprise» имеют ряд дополнительных возможностей, одной из которых является распознавание речи из имеющихся у пользователя аудиозаписей.

Среди особенностей «Voco» отмечу возможность дополнения словарного запаса программы (ныне словарный запас программы включает более 85 тысяч слов), а также её автономную работу от сети, позволяющую не зависеть от вашего подключения к Интернету.


Среди плюсов «Voco» — высокая обучаемость программы

Приложение включается довольно просто — достаточно дважды нажать на клавишу «Ctrl».Приложение абсолютно бесплатно, поддерживает несколько десятков языков, среди которых и русский.

Заключение

Выше мной были перечислены программы для перевода вашей аудио записи голоса в текст, описан их общий функционал и характерные особенности. Большинство подобных продуктов обычно имеет платный характер, при этом ассортимент и качество русскоязычных программ качественно уступает англоязычным аналогам. Особое внимание при работе с подобными приложениями рекомендую уделить вашему микрофону и его настройкам – это имеет важное значение в процессе распознавания речи, ведь плохой микрофон может свести на нет даже самый качественный софт рассмотренного мной типа.