英文视频添加中英双语字幕(基于Whisper语音识别和Google翻译)

第一步:安装配置环境,这一步重要介绍安装的环境依赖,可以看完第二章再来看一遍

(1)Whisper环境配置

可以参考以下博客的内容讲显卡驱动,CUDA和cudnn的安装比较详细,我建议能用GPU加速就尽量使用,Whisper速度有点慢如何在你的电脑上完成whisper的简单部署_Wayne_WX的博客-CSDN博客 Windows使用whisper前需要进行的一些环境配置https://blog.csdn.net/m0_52156129/article/details/129263703

我的ffmpeg是使用conda安装的,命令如下(注意:需要安装到自己创建的conda环境):

conda install -c conda-forge ffmpeg-python

激活创建的conda环境,这里我的环境名是whisper

conda activate whisper

检查ffmpeg是否安装成功 

ffmpeg -version

显示结果如下表明安装成功,ffmpeg非常重要,在我们的处理后续也有应用 

 (2)安装以下依赖

  可以将文件夹里mp4格式视频批量转换成mp3,多次测试发现Whisper处理mp3速度快些,缺啥安装啥,慢地话可以换个国内源

from moviepy.editor import *
import os
import filetype
import argparse

(3)Google翻译环境依赖

两种方法,可以使用googletrans

pip install googletrans==4.0.0rc1

或者requests

pip install requests

第二步:编写脚本主要有两步

(1)批量将MP4格式视频转换成MP3

这里其实可以使用ffmpeg来做,我一开始用的moviety库,后来发现ffmpeg也可以

参考了这里,代码很详细写地很好 Python3 批量提取视频中的音频_python提取视频中的音频_流星蝴蝶没有剑的博客-CSDN博客Python3 批量提取 视频中的音频https://blog.csdn.net/qq_44009311/article/details/124818112

 转换好的Mp3文件便可以进行语音识别提取了

(2)使用Whisper进行语音转文字并制作srt文件

首先你可以在MP3文件所在的文件夹内打开cmd,conda激活环境,使用

whisper 文件名.mp3

也可以生成字幕文件,如果你只是要求英文字幕的话可以到此为止了,Whisper不支持翻译成中文,只支持转录源语言或者将源语言翻译成英文,如果获取纯中文字幕或者中英双语字幕,你需要继续看下去

1.了解Whisper的transcribe和Srt文件的格式

回想openai给出的官方python测试代码

import whisper

model = whisper.load_model("base")
result = model.transcribe("audio.mp3")
print(result["text"])

result具有众多属性,包括识别的文本,以及文本的开始时间start和结束时间end,其他的对于我们本次任务没有帮助故不介绍,那么我们这样就可以输出识别的每一句话的开始和结束时间以及内容

import whisper
model = whisper.load_model("base")
result = model.transcribe("13.mp3")
for segment in result["segments"]:
    print(segment['start'])
    print(segment['text'])
    print(segment['end'])

 这样,输出结果如上图所示

另外需要了解srt文件的格式

第一行:编号(从0开始)

第二行:起始时间,比我们常见的时分秒HH:MM:SS又多了一个逗号和三位数的毫秒单位

往后都是字幕部分,但是字幕到下一条字幕之间一定有空格。

 两者对比可知,我们可以通过Whisper获取字幕的文字内容以及起始时间,核心时起始时间格式的转换。然后可以使用f.write()的方法逐行写入srt文件即可

2.转换时间格式

Whisper输出的时间格式是带小数点的,我们可以这样来想:

第一步:使用字符串分割以小数点为分界点,小数点左边是秒,秒可以参考这里,转换成时分秒的格式

Python时间转换:X秒 --> 时:分:秒_python 时分秒_zhu6201976的博客-CSDN博客Python 秒转时分秒 思路实现https://blog.csdn.net/zhu6201976/article/details/126750272

第二步:小数点右边的不足一秒的部分换成三位数毫秒

第三步:然后二者再进行字符串相加即可

3.调用谷歌翻译的两种方法

参考这里即可,使用的时候要科学上网 3种谷歌多语言翻译接口的调用方法(Python)_谷歌翻译接口_DooDoo~的博客-CSDN博客在日常的生活和工作中,我们经常会需要使用到翻译工具。在诸多翻译工具中,我个人更青睐谷歌翻译,因此在这里整理通过Python调用谷歌翻译接口的3种方式。https://blog.csdn.net/qq_40039731/article/details/126239369

有一个问题,多次尝试发现,对于长视频,翻译字幕需要调用google翻译非常多次,服务器会不稳定导致报错,建议使用ffmpeg或者SolveigMM Video Splitter软件裁剪,ffmpeg慢些但是方便,个人推荐

进入代裁剪视频文件夹内激活whisper环境,输入如下命令即可裁剪视频,-ss对应的是起始时间 

有时间的可以看下这个做下最基本的入门:

FFmpeg 最最强大的视频工具 (转码/压缩/剪辑/滤镜/水印/录屏/Gif/...)_哔哩哔哩_bilibili

有人说可以长视频转换成mp3使用ffmpeg裁剪,分别得到srt文件再合成一个,但是这样时间格式比较繁琐,建议长视频直接裁剪几个部分即可

4.写入文件存储以及一个批处理思路

批处理文件夹内众多mp3文件可以使用,前提是你的mp3都已经不太长,长的mp3可能在谷歌翻译时报错,导致循环无法继续执行

    #自己的Mp3文件所在的文件夹路径
    inpath = r'E:\MP3'
    #读取所有的mp3格式文件路径
    mp3folder = glob.glob(os.path.join(inpath, "*.mp3"))
    for mp3 in mp3folder:
        excute('small',mp3)

(3)字幕与视频合成或使用播放器打开外挂srt文件(推荐)

可以使用Potplayer播放器,我都放在了下载链接里,安装即可可以打开srt文件并方便地调整字幕的颜色、字体大小,位置等,到这里我们的工作就完成啦!

 注:下载内容包括

(1)MP4文件批量转换MP3文件代码

(2)读入MP3文件获取SRT文件的代码(两个分别对应两种调用谷歌翻译的方法)

(3)视频剪辑SolveigMM Video Splitter软件和Potplayer播放器

下载地址: https://download.csdn.net/download/QWE33433/87765242?spm=1001.2014.3001.5503

比基尼海滩
关注 关注
  • 3
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
Whisper实现语音识别转文本
wudi1107的博客
03-04 2983
本文简单介绍了whisper的用途、在windows系统下安装部署whisper的方法以及whisper的简单用法。关于whisper的使用部分仅介绍了命令行模式的使用方法,如果你会使用python,也可以使用以下代码来运行whisper。了解更多请参考官方文档。或者如果你想要在网页上运行whisper,可以安装Whisper Webui。
在 React Native 使用 Whisper 进行语音识别
分享身边生活经验blog
09-08 769
语音识别使程序能够将人类语音处理成书面格式。语法、句法、结构和音频对于理解和处理人类语音至关重要。语音识别算法是计算机科学最复杂的领域之一。人工智能、机器学习、无监督预训练技术的发展,以及 Wav2Vec 2.0 等框架,这些框架在自我监督学习和从原始音频学习方面是有效的,已经提高了它们的能力。语音识别器由以下组件组成:语音输入一种解码器,它依赖于声学模型、发音词典和语言模型进行输出输出一词这些组件和技术进步使未在Windows10查看RAM内存详细信息的5种方法。
python系列&deep_study系列:实战whisper语音识别第一天,部署服务器,可远程访问,实时语音转文字(全部代码和详细部署步骤)
最新发布
weixin_54626591的博客
07-03 661
实战whisper语音识别第一天,部署服务器,可远程访问,实时语音转文字(全部代码和详细部署步骤)
语音识别whisper
caridle的专栏
04-06 1741
Whisper是一个通用的语音识别模型,它使用了大量的多语言和多任务的监督数据来训练,能够在英语语音识别上达到接近人类水平的鲁棒性和准确性1。Whisper的架构是一个简单的端到端方法,采用了编码器-解码器的Transformer模型,将输入的音频转换为对应的文本序列,并根据特殊的标记来指定不同的任务2。您还需要在您的系统上安装ffmpeg命令行工具2。安装完成后,您可以使用edge_tts.Communicate类来创建一个Whisper对象,并调用其transcribe方法来对音频文件进行语音识别3。
软件测试 | Whisper:高效的语音识别与转录技术
慕漓的博客
05-27 1112
Whisper是由OpenAI开发的一种高效语音识别和转录系统。它利用先进的深度学习算法和大规模的语音数据进行训练,能够实现高准确度的语音识别和转录。Whisper不仅支持多语言识别,还具备实时处理能力,适用于各种复杂的应用场景。Whisper作为一种高效的语音识别与转录技术,展现了强大的功能和广泛的应用前景。无论是在个人消费领域,还是在商业和公共服务领域,Whisper都能够提供可靠的语音识别解决方案。随着技术的不断进步,Whisper将继续引领语音识别技术的发展,为用户带来更加智能和便捷的语音交互体验。
Matlab语音识别whisper
06-12
本人刚做好的毕业设计,多多指点…… 包括端点检测、 MFCC LPCC参数的运用,HMM
OpenAI-whisper语音识别模型
不积跬步,无以至千里!
05-19 4692
OpenAI语音识别模型
基于WhisperGoogle翻译英文视频添加字幕
05-08
基于WhisperGoogle翻译英文视频添加字幕,具体介绍在这里,自己配好环境就可以使用,参考此博客 https://blog.csdn.net/qwe33433/article/details/130525004?spm=1001.2014.3001.5501 下载内容包括 (1)MP4...
基于faster whisper实时语音识别语音转文本python源码
12-31
模块: fast_whisper pyaudio 博客地址:blog.csdn.net/FL1623863129/article/details/135319194 视频演示:bilibili.com/video/BV1fQ4y1j7wb
使用 Whisper for Apple Silicon 实现快速的原生设备端语音识别
03-04
将 OpenAI 流行的 Whisper 语音识别模型与 Apple 的 CoreML 框架集成在一起,以便在 Apple 设备上进行高效的本地推理。 先决条件 macOS 14.0 或更高版本。 Xcode 15.0 或更高版本。 步骤 1.在 Xcode 打开 Swift ...
微调Whisper语音识别模型和加速推理
08-25
merge_lora.py:合并Whisper和Lora的模型。 evaluation.py:评估使用微调后的模型或者Whisper原模型。 infer_tfs.py:使用transformers直接调用微调后的模型或者Whisper原模型预测,只适合推理短音频。 infer_ct2.py...
AI语音识别神器Openai Whisper测试音频
03-20
OpenAI Whisper是一款强大的人工智能语音识别工具,它专为理解和转录多语言、多场景的音频内容而设计。这款软件/插件在语音识别领域展现了卓越的性能,能够准确地将语音转化为文字,无论声音环境如何复杂,都能进行...
利用CamtasiaStudio软件为英语视频自动添加英文字幕
热门推荐
一群“番茄土豆”(Esri_GovIndTec_HB)的专栏
07-19 3万+
一、背景说明 Camtasia Studio是美国TechSmith公司出品的屏幕录像和编辑的软件套装。软件提供了强大的屏幕录像(Camtasia Recorder)、视频的剪辑和编辑(Camtasi Studio)、视频菜单制作(Camtasia MenuMaker)、视频剧场(Camtasi Theater)和视频播放功能(Camtasia Player)等。使用本套装软件,用户可以方便地进
使用Whisper生成视频字幕
Silver__Wolf的博客
07-24 529
Whisper是openai开源的一个通用的语音识别模型,它在不同音频的大型数据集上训练,也是一个多任务模型,可以执行多语言语音识别、语音翻译Whisper代码地址Whisper论文地址。
学习实践-Whisper语音识别模型实战(部署+运行)
LZL2020LZL的博客
04-12 6812
OpenAI的语音识别模型WhisperWhisper 是一个自动语音识别(ASR,Automatic Speech Recognition)系统,OpenAI 通过从网络上收集了 68 万小时的多语言(98 种语言)和多任务(multitask)监督数据对 Whisper 进行了训练。OpenAI 认为使用这样一个庞大而多样的数据集,可以提高对口音、背景噪音和技术术语的识别能力。除了可以用于语音识别Whisper 还能实现多种语言的转录,以及将这些语言翻译成英语。
Whisper对于语音识别与转写文文本优化的实践(Python3.10)
刘悦的技术博客
01-25 2841
阿里的FunAsr对Whisper文领域的转写能力造成了一定的挑战,但实际上,Whisper的使用者完全可以针对文的语音做一些优化的措施,换句话说,Whisper的“默认”形态可能在文领域斗不过FunAsr,但是经过文特殊优化的Whisper就未必了。
5分钟教会你英语视频如何制作字幕
人工智能-语音识别的技术应用
08-16 6668
2.识别引擎改为【专业级识别引擎】识别语言改为英语 最近很多自媒体,都是通过国外的网站, 搬运到抖音等视频媒体平台,那么,他们是如何为视频增加字幕的呢?接下来,我给大家进行一下简单教学!~ 英文视频快速搭配字幕 1.进入【分段识别】功能,点击【识别类型【(文)】,进入语言设置 2.识别引擎改为【专业级识别引擎】识别语言改为英语 3.添加我们需要识别的英语视频,并进行翻译 4.点击【翻译文字】按钮,进入设置 5.查看合成后的效果(英文字幕就合成好啦!) ...
【小沐学Python】Python实现语音识别Whisper
爱看书的小沐
12-09 1万+
Whisper 是一种通用的语音识别模型。它是在包含各种音频的大型数据集上训练的,也是一个多任务模型,可以执行多语言语音识别、语音翻译和语言识别。Open AI在2022年9月21日开源了号称其英文语音辨识能力已达到人类水准的Whisper神经网络,且它亦支持其它98种语言的自动语音辨识。Whisper系统所提供的自动语音辨识(Automatic Speech Recognition,ASR)模型是被训练来运行语音辨识与翻译任务的,它们能将各种语言的语音变成文本,也能将这些文本翻译英文
视频添加机器翻译字幕
行走
02-27 998
给英语口语的视频添加英语或者文的字幕。 一个介绍这个方法的视频:https://www.youtube.com/watch?v=OZ5Jg–8bWY 视频所使用的程序来源:https://moon-half.info/p/2993 程序我也上传了。 此外,还需要改一下字幕:https://github.com/agermanidis/autosub/blob/master/autosub/constants.py 语言对应的缩写。 ...
写文章

热门文章

  • 大型稀疏矩阵求解库SuiteSparse的Cholmod模块的配置使用 4575
  • 英文视频添加中英双语字幕(基于Whisper语音识别和Google翻译) 2048
  • 苹果手机的Heic格式转换成jpg格式的简单python代码 985
  • PIE 下载Landsat数据 810
  • 使用GRU实现循环网络股票预测实践 694

最新评论

  • 英文视频添加中英双语字幕(基于Whisper语音识别和Google翻译)

    比基尼海滩: https://download.csdn.net/download/QWE33433/87765242?spm=1001.2014.3001.5503

  • 英文视频添加中英双语字幕(基于Whisper语音识别和Google翻译)

    weixin_43701226: 没找到下载地址

  • PIE 下载Landsat数据

    CSDN-Ada助手: 恭喜您写了这么有用的一篇博客!我很喜欢您的主题,因为遥感数据对于许多领域都非常重要。我建议您在未来的博客中,可以分享一些有关如何处理和分析这些数据的技巧和工具。无论如何,感谢您的分享! CSDN 会根据你创作的博客的质量,给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply8 看奖励名单。

  • PIE-engine 下载MODIS Mod09A1,去云并年度平均值合成

    CSDN-Ada助手: 恭喜您又写了一篇非常有用的博客,对于下载MODIS Mod09A1和去云并年度平均值合成的操作进行了详细的介绍,这对于科研和数据处理的人来说非常有帮助。建议您在以后的文章中,可以深入探讨如何应用这些数据进行科学研究,或者分享一些实际应用的案例,这样能够让读者更好地理解您的文章。期待您接下来的创作! CSDN 会根据你创作的博客的质量,给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply7 看奖励名单。

最新文章

  • PIE 下载Landsat数据
  • PIE-engine 下载MODIS Mod09A1,去云并年度平均值合成
  • Ubuntu18.04下SLEUTH 城市扩张模型编译与使用
2023年6篇
2022年2篇

目录

目录

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43元 前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值

PHP网站源码横岗百度关键词包年推广坪山百搜词包坪地网站推广光明网站优化推广平湖百度爱采购福永设计网站塘坑网站优化按天计费宝安网站关键词优化双龙百搜标王深圳阿里店铺运营石岩网络推广塘坑SEO按天收费永湖网站推广工具南澳关键词排名包年推广爱联SEO按天扣费龙岗网站开发大运关键词按天扣费大运网站优化推广龙华网站开发大鹏SEO按天扣费塘坑模板制作横岗百搜标王塘坑如何制作网站大鹏企业网站制作布吉品牌网站设计平湖营销网站龙岗关键词按天计费石岩SEO按效果付费南澳网络营销松岗阿里店铺托管歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发 春山在望成都发生巨响 当地回应60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账 现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌 家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅:唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子19岁小伙救下5人后溺亡 多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人?开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

PHP网站源码 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化