OpenAI 音频操作#
使用此操作可以在 OpenAI 中生成音频,或转录/翻译录音。有关 OpenAI 节点本身的更多信息,请参阅 OpenAI。
生成音频#
使用此操作从文本提示创建音频。
输入以下参数:
- 连接凭证:创建或选择现有的 OpenAI 凭证。
- 资源:选择 Audio。
- 操作:选择 Generate Audio。
- 模型:选择用于生成音频的模型。更多信息请参考 TTS | OpenAI。
- TTS-1:用于优化速度。
- TTS-1-HD:用于优化质量。
- 文本输入:输入要生成音频的文本。最大长度为 4096 个字符。
- 语音:选择生成音频时使用的声音。可在 Text to speech guide | OpenAI 中试听各语音样本。
选项#
- 响应格式:选择音频响应的格式。可选 MP3(默认)、OPUS、AAC、FLAC、WAV 和 PCM。
- 音频速度:输入生成音频的速度,值范围为
0.25
到4.0
。默认为1
。 - 输出字段:默认为
data
。输入要存放二进制文件数据的输出字段名称。
更多信息请参阅 Create speech | OpenAI 文档。
转录录音文件#
使用此操作将音频文件转换为文本。OpenAI API 限制音频文件大小不得超过 25 MB。OpenAI 默认会使用 whisper-1
模型。
输入以下参数:
- 连接凭证:创建或选择现有的 OpenAI 凭证
- 资源:选择 Audio
- 操作:选择 Transcribe a Recording
- 输入数据字段名:默认为
data
。输入包含音频文件的二进制属性名,支持的格式包括:.flac
、.mp3
、.mp4
、.mpeg
、.mpga
、.m4a
、.ogg
、.wav
或.webm
选项配置#
- 音频文件语言:使用 ISO-639-1 标准输入音频语言。此选项可提高准确性和降低延迟
- 输出随机性(Temperature):默认为
1.0
。调整响应的随机程度,范围在0.0
(确定性输出)到1.0
(最大随机性)之间。建议仅调整此参数或输出随机性(Top P)中的一项。初始可设置为中等温度值(约0.7),然后根据输出结果进行调整。如果响应过于重复或刻板,则提高温度值;如果响应过于混乱或偏离主题,则降低温度值
更多信息请参考 创建转录 | OpenAI 官方文档。
翻译录音#
使用此操作可将音频翻译为英文。OpenAI API 限制音频文件大小不得超过 25 MB。OpenAI 默认会使用 whisper-1
模型。
输入以下参数:
- 连接凭证:创建或选择现有的 OpenAI 凭证。
- 资源:选择 Audio。
- 操作:选择 Translate a Recording。
- 输入数据字段名:默认为
data
。输入包含音频文件的二进制属性名称,支持的格式包括:.flac
、.mp3
、.mp4
、.mpeg
、.mpga
、.m4a
、.ogg
、.wav
或.webm
。
选项#
- 输出随机性(Temperature):默认为
1.0
。调整响应的随机性。取值范围在0.0
(确定性)到1.0
(最大随机性)之间。建议调整此参数或输出随机性(Top P)中的一项而非同时调整两者。初始可设置为中等温度值(约 0.7),然后根据观察到的输出进行调整。如果响应过于重复或刻板,可提高温度值;如果响应过于混乱或偏离主题,则降低温度值。
更多信息请参考 创建转录 | OpenAI 文档。
常见问题#
关于常见错误或问题及其解决步骤,请参阅常见问题。