晚上9点，我对着电脑陷入了沉思。事情是这样的，前两天朋友发给我一段 30 分钟

晚上9点，我对着电脑陷入了沉思。
事情是这样的，前两天朋友发给我一段 30 分钟的英文访谈，说"帮我整理一下文字版呗"。你们懂的，这种请求我向来是拒绝的——且不说听力好不好，单是听写 30 分钟就得耗掉半天时间。但这次我学乖了，直接祭出了大杀器：Whisper。
你们可能没听过这个名字，但做语音识别的基本都知道。OpenAI 2022 年开源的模型，支持 98 种语言，训练数据高达 68 万小时。最关键的是——免费开源，MIT 许可证，商用非商用随便用。我寻思着，这不妥妥的"白嫖"天花板吗？
实测过程这么说吧，我直接把音频拖进去，等了大概 2 分钟——出来了。全程无操作，连字幕文件都给我生成好了。我对照了一下，准确率大概在 95% 以上，有些专业术语居然也给我识别出来了。
讲道理，Whisper 这波属实是"降维打击"。以前做语音识别，要么花钱买讯飞、百度的 API，要么自己训练模型——前者要钱，后者要命。现在倒好，OpenAI 直接开源给你用，效果还贼能打。这让那些"套壳"做语音转写的厂商怎么活？
不过我也要说句公道话，Whisper 也不是完美的。本地部署对硬件要求不低，实时性也一般，真要做直播字幕还得另想办法，伯衡君我的 M1 电脑 8G 内存，只能运行 Medium 尺寸的模型。但对于我们这种"能不动手就不动手"的懒人来说，简直就是神器。
基于 OpenAI Whisper 的开箱即用的服务也不少，比如：
1. Fast-Powerful-Whisper-AI-Services-API
2. Whisper-Input
3. whisper-win-gui
你们平时有啥转录需求？评论区说说，看能不能帮上忙。

众力资讯网

晚上9点，我对着电脑陷入了沉思。事情是这样的，前两天朋友发给我一段 30 分钟

热门分类

晚上9点，我对着电脑陷入了沉思。 事情是这样的，前两天朋友发给我一段 30 分钟

热门分类

晚上9点，我对着电脑陷入了沉思。事情是这样的，前两天朋友发给我一段 30 分钟