首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何在Mac OS终端中(或通过gcloud web UI)访问已完成的Gcloud ml语音到文本操作的输出?

如何在Mac OS终端中(或通过gcloud web UI)访问已完成的Gcloud ml语音到文本操作的输出?
EN

Stack Overflow用户
提问于 2019-04-27 01:14:57
回答 3查看 658关注 0票数 2

我成功地安装了Gcloud for Mac OS (终端使用)。我想出了如何运行正确的命令,将一个60分钟的2人面试MP3文件从语音转换为文本。作业已成功完成("Describe“命令显示100%已完成)。我在Gcloud网站、Mac上的本地文件或通过终端找不到文本转录文件/输出。

已对该命令尝试各种标志,包括--user-out-enabled。没有变化。对每(3)次尝试使用"describe“,它只表示作业已成功完成。

我运行的最后一次尝试:

代码语言:javascript
复制
gcloud ml speech recognize-long-running  'gs://transcription-conversions/myfile.mp3' --async --language-code="en-US" --encoding="LINEAR16" --sample-rate=16000 --user-output-enabled

然后,我运行此命令来查看作业是否正常完成。我认为确实是这样的:

代码语言:javascript
复制
gcloud ml speech operations describe  

{
  "done": true,
  "metadata": {
    "@type": "type.googleapis.com/google.cloud.speech.v1.LongRunningRecognizeMetadata",
    "lastUpdateTime": "2019-04-23T22:48:10.075437Z",
    "progressPercent": 100,
    "startTime": "2019-04-23T22:45:20.132178Z"
  },
  "name": "12345"
}

但是,我不确定在哪里/如何获得上面显示的12345作业/名称的文本输出。文字记录在哪里?我如何访问它?

EN

回答 3

Stack Overflow用户

发布于 2019-05-21 19:19:29

我重现了这个问题,对于我来说,只有mp3格式才会发生这个问题,你能不能把你的文件转换成flac格式的1,然后不带格式参数运行你的命令?

下面是一个示例:

代码语言:javascript
复制
ffmpeg -i myfile.mp3 -c:a flac myfile.flac

gcloud ml speech recognize-long-running 'gs://transcription-conversions/myfile.flac' --language-code='en-US'
票数 0
EN

Stack Overflow用户

发布于 2019-06-07 06:46:03

目前MP3格式不是supported,您应该遵循我们的Feature Request

如果转换为支持的编码不理想,您可以使用API尝试MP3转换,但是不能保证quality。这就是为什么你不会收到任何输出,因为目前只有接口将接受MP3编码。

票数 0
EN

Stack Overflow用户

发布于 2020-10-06 12:45:06

对于google cloud speech to text:

文档建议使用16000 at的.wav文件

16bit 16000Hz mono .wav为我工作过。

我拿起我的原始录音(或从视频中翻录),并使用一些EQ和语音限制效果(使用免费软件Audacty或Adobe Audition),然后以上述格式进行save as -然后将其上传到gc存储,然后在其上运行ml speech

要访问转录(输出),您需要在命令末尾使用>运算符将其写入文件,如下面的> my-file.txt…(见下文)

顺便说一句,你也可以使用ml speechalpha版本。它接受更多的标志,以帮助AI进行转录。我的命令看起来像这样:

gcloud alpha ml speech recognize-long-running gs://my-bucket/my-audio-16bit-16k.wav --language-code=en-US --enable-automatic-punctuation --sample-rate=16000 --max-alternatives=1 --interaction-type=dictation --original-media-type=video --recording-device-type=pc --naics-code=541613 > my-transcript.txt

…您可以看到,我将输出写入.txt

下面是有关alpha的文档:https://cloud.google.com/sdk/gcloud/reference/alpha/ml/speech/recognize-long-running

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/55872259

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档