一个简单的提取mp4、avi等视频文件的内嵌字幕（硬字幕）的攻略

翻了几个网站发现大多数的字幕提取器都是采用esrXP或用翻译器去翻译的，而esrXP需要进行较多的设置、试验、调整等工作才能出图给MODI ocr识别。总的来说就是识别率差，工作量大

这里采用了知乎上的：https://zhuanlan.zhihu.com/p/410868599 的工具

即采用VideoSubFinder_5.50x64和目前国内大厂的OCR文字识别引擎，再添加arctime来完成
从视频中把字幕截取出来→用ocr识别字幕图片→校对字幕→生成srt文件→通过arctime修改时轴→得到ass、lrc一类的字幕文件

教程就以这个流程来进行

前提：下载VideoSubFinder_5.50x64和arctime和上面链接的硬字幕提取工具
注册对应ocr服务获取APP_ID / API_KEY / SECRET_KEY
例如：百度→产品服务/文字识别→创建应用

1 设置硬字幕提取工具

打开你已经安装好的硬字幕提取工具

点击系统设置
输入你注册得到的ocr服务获取APP_ID / API_KEY / SECRET_KEY

下面的app1 app2的顺序不能颠倒 app1是VideoSubFinder_5.50x64的exe程序 app2是arctime的exe程序

2 开始尝试字幕提取
设置完成后，回到主界面打开VideoSubFinder_5.50x64

点击左上角的File 然后点击Open Video(FFMPEG)(如运行出现崩溃请改用opencv)
（教程本例为[RJ376011]中文(简体字) 超耳语!~瞒着家人与义姐JK六浦睦美的背德H~）

先快速观看全片确定字幕区间矩形的范围然后移动左边的两根横线两根竖线设置截图范围

（矩形边框要比实际字幕稍大，不要为了节省图片尺寸而把区间设置成紧贴字幕）
（没必要设置得太宽松，图片高度增大会导致叠图数降低，浪费额度）
点击Search右边的Settings 设置第一个参数Text Alignment 为“Any”（必须）

大部分情况下视频字幕无需取色故不介绍需要时可以点右边界面的Pixel Color 然后点击字幕白色文字中心骨干取色

点击Search→Clear Foders来清空RGBImages目录（意为清除上一个视频的字幕截图）
然后点击Run Search开始等待截图结束
就可以关掉VideoSubFinder_5.50_x64进行下一个步骤

3.对字幕图片进行修改删除多余的空字幕图片

点击主界面上的‘删合’用鼠标滚轮快速游览RGBImages目录

翻页：点击<<<、>>>按键，或键盘PgUp/PgDn键、↑/↓键、键盘←/→键，或将鼠标指针停留在图片区，滚动鼠标滚轮，可以翻页（一次滚动4列）
选中：鼠标左键（或ctr+鼠标左键）点击可以标记选中图片，再次点击可以去选中。Shift+鼠标左键可以连续多选、连续去选。
删除：直到最后一页标记完成，点面板上的‘总删合’按键会弹出删除提示，确认后将删除所有标记过的空图片。

点‘总删合’，确认后将会把刚才手动所有标记过的空字幕、广告水印图片删除

4.开始运行ocr文字识别
百度高精度识别免费额度较少（通用文字识别（高精度版）即A模式通用高精、网络图片文字识别即W模式中文高精，两种模式都是1000次/月（须实名认证），识别率都比较高，也就是说一个账号每月可以有2000次高精度免费额度，如果再注册多几个账号（本软件最多可5个）则总免费额度还能增加几倍），如不采用叠图技术（多张字幕图片叠成一张大图来识别）以节省额度（10倍左右），每月只能识别较少字幕图片，因此，如果用户没有购买额度，或者即使购买了额度又想节省额度，应该在系统设置中选上叠图，并保存设置。（取）

如果是单行的字幕（如本例），在选用百度OCR高精时，还应同时勾选“识别为单行”（具体原因可看用户使用手册）

点击主界面的OCR按键，程序将连接百度OCR服务器，对RGBImages目录中的所有字幕图片从头到尾按顺序做识别，只需等待完成即可（如果出现网络连接问题，多数是使用了VPN导致，请关闭保证网络正常连接）

5.校对字幕
点击主界面上的‘校对’，将打开校对窗，校对窗显示一页4~7组（默认6组）图文
翻页：点击<<<、>>>按键，或键盘PgUp/PgDn键，或将鼠标指针停留在图片区，滚动鼠标滚轮、或↑/↓键，可以翻页
选中：ctrl+鼠标左键点击可以选中图片要删除的图片（黄框），ctrl+鼠标右键点击可以选中图片要合并的图片（橙框），再次点击可以去选中
删除与合并：如果有选中的图片，这时按‘删合’或键盘<Delete>会弹出删除提示，OK或按回车<Enter>将执行删除与合并
6.用arctime编辑字幕文件（说到这步了我应该不需要教打轴吧……）
点击主界面‘生成SRT’按键，将生成带时间轴的字幕文件123.srt，和不带时间轴的纯字幕文件123.txt 保存到你想要保存的地方
打开arctime 放入对应的音声文件和以上步骤得到的123.srt
部分音声作品的官中mp4 会比mp3档wav档多几秒导致时轴对不上
可以通过点击“功能”里的“时间轴整体移动/缩放功能”进行调整
到此教程结束

顶端