Раньше всё это приходилось делать вручную, когда не было соответствующего ПО. Но благо, что в наше время сервисы для транскрибации видео появились, которые позволяют это делать в автоматическом режиме. Причем быстро и качественно. Сам для транскрибации Speech2Text использую, мне его знакомый посоветовал когда-то.