ffmpeg这个需要咋做,给我一个详细操作步骤
2026-03-18
可以。你如果是想用 FFmpeg 先把音频处理好,再拿去转文字,最常见的做法其实就这几步:
一、先理解 FFmpeg 是干什么的
FFmpeg 本质上是一个命令行工具,用来处理音频和视频,官网把它描述为“录制、转换、推流”的跨平台方案;它支持音视频格式转换,这正适合“把原始音频整理成适合转写的平台可接收格式”。另外,FFmpeg 官方站点在 2026 年 3 月发布了 8.1 版本,所以现在用它仍然是主流方案。(FFmpeg)
你这里的目标,一般不是“直接用 FFmpeg 转文字”,因为 FFmpeg 不负责语音识别;它负责把音频整理成更标准、更干净的格式,比如:
把视频里的音频提取出来
把音频转成 mp3 / wav / m4a
把音频采样率改成 16000
把双声道改成单声道
把大文件切成小段
这些步骤做完,再上传到讯飞听见、飞书妙记、Notta、Otter 之类的平台,识别通常会更稳。这个判断是基于 FFmpeg 官方文档关于“音视频格式转换”和“音频采样率处理”的说明。(FFmpeg)
二、先安装 FFmpeg
1. Mac 安装
如果你是 Mac,最省事的是用 Homebrew:
brew install ffmpeg
装完以后输入:
ffmpeg -version
如果能看到版本号,说明装成功了。FFmpeg 官网的下载页也说明了:官网主要提供源码,而可直接使用的编译版本通常通过各平台分发渠道获取。(FFmpeg)
2. Windows 安装
Windows 常见做法是:
第一步,去 FFmpeg 官网下载页
第二步,进入 Windows 的已编译版本链接
第三步,下载 zip 压缩包
第四步,解压到例如:
C:\ffmpeg
第五步,把下面这个目录加入系统环境变量 Path:
C:\ffmpeg\bin
第六步,打开命令提示符输入:
ffmpeg -version
只要能显示版本信息,就表示成功。FFmpeg 官网下载页明确提到,官网本身提供源码,并列出可直接下载可执行文件的分发入口。(FFmpeg)
三、先看你的原文件信息
在正式转换前,先看看原音频参数:
ffmpeg -i 你的文件名.mp3
比如:
ffmpeg -i interview.m4a
它会输出很多信息,你重点看这几个:
编码格式
采样率,比如 44100 Hz、48000 Hz
声道数,比如 mono 或 stereo
时长
比特率
这一步的意义是:你先知道源文件长什么样,后面才知道该不该改。FFmpeg 官方文档说明 -i 用于指定输入文件,而音视频转换流程就是以输入文件为起点。(FFmpeg)
四、最常见的四个操作
1. 把视频提取成音频
比如你有一个 mp4 视频,想拿里面的人声去转文字:
ffmpeg -i input.mp4 -vn output.mp3
这里:
-i input.mp4表示输入文件-vn表示不要视频output.mp3表示输出成 mp3
如果你想输出 wav:
ffmpeg -i input.mp4 -vn output.wav
FFmpeg 官方文档明确支持输入一个音视频文件并输出成另一种格式,这是它的标准用法。(FFmpeg)
2. 把音频统一转成 mp3
很多网站都支持 mp3,所以这是最常用的:
ffmpeg -i input.wav output.mp3
如果你想控制码率,常见写法:
ffmpeg -i input.wav -b:a 128k output.mp3
FFmpeg 编码文档中说明,b / ab 这类参数用于设置音频比特率。(FFmpeg)
3. 转成适合识别的 wav
语音识别经常偏好更标准的 wav,比如:
采样率 16000
单声道
PCM 编码
命令如下:
ffmpeg -i input.mp3 -ac 1 -ar 16000 -c:a pcm_s16le output.wav
这里你要记住:
-ac 1:转成单声道-ar 16000:采样率改成 16000-c:a pcm_s16le:音频编码改成 PCM 16-bit little-endian
FFmpeg 官方文档里有关于音频采样率转换的示例,比如把 wav 转成 22050 Hz 的音频;这说明采样率调整是标准能力。(FFmpeg)
这个命令非常实用。
很多“转文字网站识别不稳”,不是内容有问题,而是源文件参数乱,比如码率太怪、声道太复杂、背景音乐太重。先统一成这个 wav,通常最稳。
4. 把双声道改成单声道
有些录音文件左右声道内容差异大,识别平台不一定喜欢,改成单声道更稳:
ffmpeg -i input.mp3 -ac 1 output.mp3
这一步本质上是调整 channel layout,FFmpeg 的音频处理文档和过滤器文档都覆盖了这类能力。(FFmpeg)
五、音频太大怎么办
很多网站对上传文件大小有限制,所以经常要压缩或者切片。
1. 压缩音频体积
比如把码率压低:
ffmpeg -i input.wav -b:a 64k output.mp3
或者:
ffmpeg -i input.m4a -b:a 96k output.mp3
码率越低,文件越小,但声音也会差一些。一般语音内容用 64k 到 128k 已经够了。FFmpeg 的编码文档说明音频比特率可以显式设置。(FFmpeg)
2. 切成一段一段
比如你有一段 2 小时录音,想每 10 分钟切一段:
ffmpeg -i input.mp3 -f segment -segment_time 600 -c copy output_%03d.mp3
这里:
-segment_time 600表示每 600 秒切一段output_%03d.mp3会生成:output_000.mp3
output_001.mp3
output_002.mp3
如果你担心 -c copy 兼容性,也可以重新编码:
ffmpeg -i input.mp3 -f segment -segment_time 600 -q:a 2 output_%03d.mp3
分段输出是 FFmpeg 文档支持的常规输出模式之一。(FFmpeg)
六、给你一套最实用的完整流程
假设你有一个视频文件:
课程录屏.mp4
你想把它变成适合上传到“音频转文字网站”的文件。
第一步:先提取音频
ffmpeg -i 课程录屏.mp4 -vn temp_audio.wav
第二步:转换成更适合识别的格式
ffmpeg -i temp_audio.wav -ac 1 -ar 16000 -c:a pcm_s16le final_audio.wav
第三步:如果太大,再压缩成 mp3
ffmpeg -i final_audio.wav -b:a 96k final_audio.mp3
第四步:如果还是太大,再切段
ffmpeg -i final_audio.mp3 -f segment -segment_time 900 -q:a 2 part_%03d.mp3
这样你最后得到的就是:
final_audio.wav:高兼容识别版final_audio.mp3:体积较小版part_000.mp3等:可分段上传版
七、你在终端里具体怎么操作
Mac 终端示例
假设你的文件在“下载”目录。
第一步,进入目录
cd ~/Downloads
第二步,确认文件名
ls
第三步,执行转换
ffmpeg -i 原始录音.m4a -ac 1 -ar 16000 -c:a pcm_s16le 输出.wav
第四步,看结果文件
ls
如果文件名里有空格,记得加引号:
ffmpeg -i "我的会议录音.m4a" -ac 1 -ar 16000 -c:a pcm_s16le "我的会议录音.wav"
八、常见报错怎么处理
1. 提示 command not found: ffmpeg
说明没装成功,或者环境变量没配好。
Mac 一般重新执行:
brew install ffmpeg
Windows 一般是 Path 没配对,或者你不是在新开的命令行窗口里执行。
2. 提示 No such file or directory
说明文件路径不对,或者文件名写错了。
最简单的做法就是先 cd 到文件所在目录,再执行命令。
3. 中文文件名报错
有时终端对中文路径支持不好,可以先把文件改成英文名:
mv "我的录音.m4a" my_audio.m4a
然后再执行:
ffmpeg -i my_audio.m4a -ac 1 -ar 16000 -c:a pcm_s16le out.wav
4. 输出文件已存在
加 -y 强制覆盖:
ffmpeg -y -i input.mp3 output.wav
九、我最推荐你直接记住的 5 条命令
1. 看文件信息
ffmpeg -i input.mp3
2. 从视频提取音频
ffmpeg -i input.mp4 -vn output.mp3
3. 转成标准识别 wav
ffmpeg -i input.mp3 -ac 1 -ar 16000 -c:a pcm_s16le output.wav
4. 压缩成较小 mp3
ffmpeg -i input.wav -b:a 96k output.mp3
5. 切成多段
ffmpeg -i input.mp3 -f segment -segment_time 600 -q:a 2 output_%03d.mp3
十、最适合你的实际用法
如果你的目标只是“把音频丢进网站转文字”,你基本不用研究太复杂,直接用这一条就够了:
ffmpeg -i input.m4a -ac 1 -ar 16000 -c:a pcm_s16le output.wav
这条命令的思路非常朴素:
把格式变标准
把声道变简单
把采样率变成常见识别友好值
让网站更容易吃进去
你可以先把这条跑通。
如果你愿意,我下一条可以直接按你的电脑环境给你出一版:
“Mac 专用 FFmpeg 音频转文字预处理手册”
或者
“Windows 专用一步一步图文命令版”。
发表评论: