导言:当遇到无字幕、难理解的音频或视频,想要获取字幕文本怎么办?想要解放双手,在电脑端直接录音转文字怎么办?今天小编来为大家介绍一款全程免费、支持多语种、准确率高,且可以直接生成多种格式文字稿的ASR工具WhisperDesktop。 Whisper是由OpenAI开发的一个自动语音识别(ASR)开源系统。经过训练,它能够支持多种语言的语音转录,并且可以将这些语言翻译成英文,同时还能够有效地过滤掉背景音和杂音。
Whisper官方介绍 https://openai.com/research/whisper
Whisper支持的语言种类丰富
OpenAI的技术文档介绍了如何基于Whisper模型调用语言转文本API来实现语言转写或将语言翻译成英文的功能。
Speech-to-text API 介绍文档
https://platform.openai.com/docs/guides/speech-to-text
重点来了!
基于Whisper模型,Konstanti设计了一款工具WhisperDesktop,能够在Windows系统中直接使用,无需api key,且安装步骤及操作都十分便捷。下面就来跟随小编一起下载体验吧~
首先,打开https://github.com/Const-me/Whisper,找到页面右下方releases中的最新版本,点击进行下载。
完成下载后,将压缩包进行解压缩,找到WhisperDestop.exe,即为工具程序,点击运行。运行成功后进入主页面,开始配置。
在使用前,需要下载一个二进制文件,请点击页面中的Hugging Face。
https://huggingface.co/ggerganov/whisper.cpp/tree/main
打开这个网页之后,我们会看到很多文件,根据Whisper模型的不同型号(tiny, base, small, medium, large-v1, large-v2),网页上提供了多种二进制文件(.bin文件)。模型越大,转写及翻译的准确度就越高,但同时运行的速度也会相对变慢。大家可以根据电脑配置及使用需求来选择。
推送下方可观看使用演示视频
将文件下载成功后,将文件所在的本地路径复制到Model Path后,配置完毕,点击OK,进入使用界面。
1.在language中选择音频或者视频中的语种。如果希望将其他语言翻译成英文,请勾选Translate。
2.点击Transcribe File栏中右侧的小方框,选择转写文件。
3.在Output Format的下拉菜单中,你可以选择输出的格式:纯文本Text、带时间轴的文本Text with timestamps、SRT格式的字幕文件 SubRip subtitles以及WebVTT格式的字幕文件 WebVTT subtitles。
4.如果希望将转写文件与原文件放在同一目录下,请勾选 “Place that file to the input folder”,或者你可以选择新建一个文件,将文件的路径复制到下方。
均设置好后,点击Transcribe进行转写。
WhisperDesktop还支持Audio Capture的功能,即将录音结果进行转写或翻译。点击下方Audio Capture按钮,进入音频转写页面。
将转写文件、语言、输出文件等设置选定后,点击Capture,开始录音并转写。
如果想返回文件转写页面,点击下方Transcribe File即可。
希望本次介绍可以对大家日常的学习生活有所帮助,也期待小伙伴们可以多多探索这个工具的不同使用场景。
特别说明:本文仅供学习交流,如有不妥欢迎后台联系小编。
翻译技术教育与研究ChatGPT专题组致力于探索发掘ChatGPT为代表的AI工具在语言服务不同阶段的应用,进而提高从业者的工作效率。专题小组目前的主要方向是探索提示词(prompt)及流程变更如何提升交互效果;了解及推介Github等平台上的AI应用,AI应用嵌入语言服务流程及其优化方式。小组通过定期会议及讨论确定选题方向并通过文章、视频等形式分享探索结果,欢迎通过文章留言为大家提供建议意见!