我成功地安装了Gcloud for Mac OS (终端使用)。我想出了如何运行正确的命令,将一个60分钟的2人面试MP3文件从语音转换为文本。作业已成功完成("Describe“命令显示100%已完成)。我在Gcloud网站、Mac上的本地文件或通过终端找不到文本转录文件/输出。
已对该命令尝试各种标志,包括--user-out-enabled。没有变化。对每(3)次尝试使用"describe“,它只表示作业已成功完成。
我运行的最后一次尝试:
gcloud ml speech recognize-long-running 'gs://transcription-conversions/myfile.mp3' --async --language-code="en-US" --encoding="LINEAR16" --sample-rate=16000 --user-output-enabled然后,我运行此命令来查看作业是否正常完成。我认为确实是这样的:
gcloud ml speech operations describe
{
"done": true,
"metadata": {
"@type": "type.googleapis.com/google.cloud.speech.v1.LongRunningRecognizeMetadata",
"lastUpdateTime": "2019-04-23T22:48:10.075437Z",
"progressPercent": 100,
"startTime": "2019-04-23T22:45:20.132178Z"
},
"name": "12345"
}但是,我不确定在哪里/如何获得上面显示的12345作业/名称的文本输出。文字记录在哪里?我如何访问它?
发布于 2019-05-21 19:19:29
我重现了这个问题,对于我来说,只有mp3格式才会发生这个问题,你能不能把你的文件转换成flac格式的1,然后不带格式参数运行你的命令?
下面是一个示例:
ffmpeg -i myfile.mp3 -c:a flac myfile.flac
gcloud ml speech recognize-long-running 'gs://transcription-conversions/myfile.flac' --language-code='en-US'发布于 2019-06-07 06:46:03
发布于 2020-10-06 12:45:06
对于google cloud speech to text:
文档建议使用16000 at的.wav文件
16bit 16000Hz mono .wav为我工作过。
我拿起我的原始录音(或从视频中翻录),并使用一些EQ和语音限制效果(使用免费软件Audacty或Adobe Audition),然后以上述格式进行save as -然后将其上传到gc存储,然后在其上运行ml speech。
要访问转录(输出),您需要在命令末尾使用>运算符将其写入文件,如下面的> my-file.txt…(见下文)
顺便说一句,你也可以使用ml speech的alpha版本。它接受更多的标志,以帮助AI进行转录。我的命令看起来像这样:
gcloud alpha ml speech recognize-long-running gs://my-bucket/my-audio-16bit-16k.wav --language-code=en-US --enable-automatic-punctuation --sample-rate=16000 --max-alternatives=1 --interaction-type=dictation --original-media-type=video --recording-device-type=pc --naics-code=541613 > my-transcript.txt
…您可以看到,我将输出写入.txt
下面是有关alpha的文档:https://cloud.google.com/sdk/gcloud/reference/alpha/ml/speech/recognize-long-running
https://stackoverflow.com/questions/55872259
复制相似问题