将音频或视频中的语音转成文字,并可区分说话人与整理访谈记录。
复制安装指令,让 AI 自动完成配置 · 推荐新手
请帮我安装 askskill 上的 "transcribe" 技能: 1. 下载 https://raw.githubusercontent.com/openai/skills/main/skills/.curated/transcribe/SKILL.md 2. 保存为 ~/.claude/skills/transcribe/SKILL.md 3. 装好后重载技能,告诉我可以用了
Transcribe audio using OpenAI, with optional speaker diarization when requested. Prefer the bundled CLI for deterministic, repeatable runs.
OPENAI_API_KEY is set. If missing, ask the user to set it locally (do not ask them to paste the key).transcribe_diarize.py CLI with sensible defaults (fast text transcription).output/transcribe/ when working in this repo.gpt-4o-mini-transcribe with --response-format text for fast transcription.--model gpt-4o-transcribe-diarize --response-format diarized_json.--chunking-strategy auto.gpt-4o-transcribe-diarize.output/transcribe/<job-id>/ for evaluation runs.--out-dir for multiple files to avoid overwriting.Prefer uv for dependency management.
uv pip install openai
If uv is unavailable:
python3 -m pip install openai
OPENAI_API_KEY must be set for live API calls.export CODEX_HOME="${CODEX_HOME:-$HOME/.codex}"
export TRANSCRIBE_CLI="$CODEX_HOME/skills/transcribe/scripts/transcribe_diarize.py"
User-scoped skills install under $CODEX_HOME/skills (default: ~/.codex/skills).
Single file (fast text default):
python3 "$TRANSCRIBE_CLI" \
path/to/audio.wav \
--out transcript.txt
Diarization with known speakers (up to 4):
python3 "$TRANSCRIBE_CLI" \
meeting.m4a \
--model gpt-4o-transcribe-diarize \
--known-speaker "Alice=refs/alice.wav" \
--known-speaker "Bob=refs/bob.wav" \
--response-format diarized_json \
--out-dir output/transcribe/meeting
Plain text output (explicit):
python3 "$TRANSCRIBE_CLI" \
interview.mp3 \
--response-format text \
--out interview.txt
references/api.md: supported formats, limits, response formats, and known-speaker notes.用于构建、脚手架生成、重构并排查 ChatGPT Apps SDK 应用问题。
帮助你基于接口文档或脚本快速生成可组合的命令行工具
帮助你将应用与基础设施部署、发布并托管到 Cloudflare 平台。
帮助用户把模糊想法转成具体、可衡量的目标与成功标准。
将 Figma 设计组件与代码组件建立映射,便于设计与实现保持一致。
帮助你构建、评审与重构 ASP.NET Core Web 应用及架构方案
将文本批量转换为语音旁白与无障碍朗读,支持音频提示生成。
提取文档文字、处理PDF并对图片执行OCR识别
用于创建、编辑与优化AI技能,并评测其效果与触发准确性。
帮助用户制作适配 Slack 的动画 GIF,并检查规格与动画效果。
帮助智能体搜索公司信息、补全联系人并获取邮箱电话线索
便捷访问音频笔记、转写摘要与待办事项,提升整理效率