语音转文本
不只语音转文本,还能帮你画重点、让同事朋友间交互讨论的 vocol.ai 跨语系协作平台
newsman 发表了文章 • 2023-07-24 22:56
现在有越来越多的人在使用数字科技辅助学习、工作,我也常常在 PTT 上看到许多网友在问有没有好用的笔记软件、工具可以处理语音转文本的工作,因为他们可能录下了课堂老师讲的内容、工作会议讨论的事项,但事后需要转成文本档整理到自己的笔记或是工作报告中。
最近我就发现了一款好用的语音转文本工具 vocol.ai,辨识正确率很高,产生逐字稿的同时还可以分辨不同的讲者,甚至未来的 AI 趋势在 vocol.ai 里面也直接集成进去了,大家最常叫 ChatGPT 做的「帮我整理这内容的重点跟翻译」直接就在逐字稿产生以后一并生成。
另外,如果你是需要团队合作的案子,vocol.ai 也有团队协作功能,从头到尾一站式就搞定。下面我会详细的介绍 vocol.ai 要怎么用,并且实际示范语音转文本效果以及好用的几个功能。
语音转文本神器:vocol.ai 的 7 大重点
这里先跟大家快速重点一下我觉得 vocol.ai 好用的 7 大功能,先让大家有个概念,原来这 vocol.ai 可以做这些,然后我们再体验它的效果。
免费试用约 200 分钟
先跟大家说,目前 vocol.ai 有提供每个帐号大约 200 V-points 的免费试用额度,通常一分钟的逐字稿转换会花掉 1 到 1.5 V-points(这只是大约计算,通常不会差太多),所以 200 V-points 大概就是 200 分钟左右。
▲你可以在个人页面中看到剩余可用的 V-points
所以你不用担心说看完介绍想要用结果要付费才能用!可以先试用 200 分钟,觉得好用、有帮助的话再继续购买更多的 V-points。
▲ vocol.ai 还有包含企业方案在内的其他方案,后面会提到
语音转逐字稿
直接把录音档、影片档上传到 vocol.ai 的个人平台上,vocol.ai 就会开始帮你分析影片、音乐的内容,然后产生逐字稿,整个流程大概两、三个步骤就能搞定。
▲上传 mp3、mp4、m4a 多种格式都可以支持
通常内容只要不是太复杂的情况下,逐字稿大约可以在 3 ~ 5 分钟之内就产生出来,然后就可以在项目的画面右半部「逐字稿」这一区块看到完整的逐字稿内容。
▲上传完毕后再等一下逐字稿就会出现,等待时间取决影片长度与复杂度
完整呈现声音的内容
就连那种我们很不经意脱口而出的赘词「对」、「就是」、「那个」,或是你卡词的状况都会很完整的节录出来。
▲ vocol.ai 完整地把语音内容转成逐字稿
既然是逐字稿,所以当然就是说了什么就呈现什么,本来就不会去帮你修饰语句,我觉得这样是非常正常而且尽责的逐字稿。
录音的品质会决定逐字稿生成后的结果,有时候我们可能会因为声音素材品质不佳、讲话彼此互相搭到、太过小声….等原因,导致辨识出错误的内容或是用字,但也没关系,点两下逐字稿中想要修改的段落,就可以在跳出的菜单中选择「编辑」进行修改。
▲ 觉得有需要调整的地方也可以自行修改
辨识不同讲者
vocol.ai 在辨识逐字稿的过程中也会分辨哪一句话是谁讲的,然后把不同的句子对应到讲话的人,所以会在逐字稿中看到「讲话者 1」、「讲话者 2」等字样,让我们可以更容易了解谁说了些什么。
▲ 分辨讲者更容易看出是谁在说话
就我目前的测试,至少到第七位讲话者都还可以辨识得出来,而且每一位讲者都会用不同颜色的线条表示,在内容很多的情况下比较好一眼就找到、辨别不同的说话者。
▲ 目前测试至少可以支持 7 名讲者
如果还想要更容易辨识的话,直接把「讲话者」改为真实的对象名称就好了,这样如果有刚参与项目的同事或是朋友之间就在讨论事情,就不用担心不知道是谁在说话了。
▲ 讲者的名称也可以自行调整
多种语言辨识
vocol.ai 可以针对影片、录音档内不同的语音进行辨识,基本的国语、英语和日语就不说了,这几种语言对于 vocol.ai 在处理逐字稿上几乎是没有什么太大的问题。
▲ vocol.ai 辨识英语
甚至对话包含中、英文夹杂的状况也都可以顺利辨识,就像下面这样,在逐字稿里面就会同时显示中文以及英文两种不同的内容。
▲ vocol.ai 辨识中英语夹杂
另外,因为许多台湾人习惯说台语,今天如果录音的场合是大家都习惯说台语的会议、讨论上,其他的语音转文本系统可能很难处理,vocol.ai 就没有问题。
我也简短的测试了一下,是真的可以辨识出来,不过要注意的是,台语的说法跟国语还是会有落差,像是下面这个「补给够」是台语「补嘎搞」的直翻,国语可能就会讲「补足」,会有这类的差别需要注意。
▲ vocol.ai 台语也能辨识
然后来试试看广东话,这是我在网络上找到的一段香港 YouTuber 的街访影片开头,丢到 vocol.ai 去转文本,没想到竟然也可以正确辨识。
▲ vocol.ai 广东话也能辨识
AI 生成重点
在上面的几张截屏中你应该也有看到,vocol.ai 在生成完逐字稿以后,还会透过 AI 语言模型,把逐字稿的内容整理出重点显示在左半边的部分,而且如果内容完整清晰的话,可以分段,并且指出每一段的时间从什么时候开始、什么时候结束。
虽然在上传文件时可以先勾选产生 AI 分析摘要,但我有时我在上传的时候会刻意先不开启 AI 自动产生摘要的功能,就是下面这个开关先不打开。
我会先产出逐字稿,确认好内容再点击「运行智能分析」产出 AI 分析摘要。
这也是我觉得很棒的一点,因为我通常习惯先确认好逐字稿内容,确认没有要修改再做 AI 重点摘要,因为如果我有针对逐字稿进行修改的话,这样做可以确保我的摘要会跟逐字稿内容是同步的,省去我对照内容的时间。
另外,录音的内容如果一次说了好多不同的主题,vocol.ai 也会帮你把不同的主题分门别类的抓出来,你可以从「主题」标签页中看到 vocol.ai 帮你整理的主题项目,点一下任何一个项目,右边的逐字稿就会反黄,方便我们可以快速找到。
团队协作平台
团队协作功能是我觉得 vocol.ai 很棒的一项特色,不仅仅是你可以自己在上面完成工作,你还可以邀请同事一起参与,直接在 vocol.ai 的平台上,针对生成的内容进行讨论,评论。
无论是自己还是被邀请的对象,除了可以浏览逐字稿内容、摘要内容以外,还可以针对有疑虑的地方,直接留下评论,然后在评论区中进行讨论或是交流。
然后我看 vocol.ai 官网的方案内容说明,在未来还会加入新的 Starter 和 Pro 方案,可以使用像是重点标示、权限设置、团队管理、使用分析….等更多项目团队用户专属且工作上必须使用到的功能。
vocol.ai 可以用在哪里?
下面这边我想要实际带大家来体验看看各种不同使用 vocol.ai 的情境,透过情境的方式,我想大家应该更可以体会 vocol.ai 语音转文本有哪些可以发挥的地方。
课堂纪录整理
现在很多人都会在课堂上把老师教的内容记录下来,甚至有些笔记 App 也有提供录音功能,但就是纯录音,也没办法转成文本,后续要做笔记的时候还是要从头开始听,甚至你有想要听的内容,但是你根本不知道这个内容出现在几分几秒,要像是瞎子摸象那样一直在播放器中寻找。
但是利用 vocol.ai,你只需要把影片、录音档上传。
如果内容很多也没关系,上传完以后你可以先做自己的事情,等到逐字稿生成完毕会发送通知给你,蛮贴心的功能,不用在那痴痴的等。
但要特别注意的是,上传单个音档最高限制是 180 分钟!
如果你刚好没有带到录音笔、手机空间不够、快没电的情况下,你也可以直接透过 volco.ai 提供的录音功能录下要转逐字稿的内容。
但因为这是透过内置浏览器来进行录音,所以还是要注意一下浏览器的设置,避免因为没有跟网页有交互时进入休眠状态让录音被迫停止,以我的经验来说,我常用 Google Chrome,所以会习惯去「设置」→「性能」→把信任的网站加入菜单中。此外,我也会同时关闭内存节省模式。
无论是透过 vocol.ai 直接录音或是上传音档,当逐字稿产生完毕后,你就可以从逐字稿中透过搜索的方式,快速找到你想要找的重点,之后再把所有的内容好好整理一下,会比从头重新听过再来整理还要有效率。
想听哪一段的内容直接点击文本就可以直接切换过去,不用在一整段语音中盲目寻找要听的目标内容。
这里也要特别提一下,其实 vocol.ai 也有针对逐字稿、评论讨论的关键字搜索工具,不过我觉得那比较适用有好多段对话的情况,搜索工具会引导你去有包含这个关键字的对话、章节或是讨论串。
但是像我上面那样,课堂上只有老师一个人批哩啪啦在讲的情况,vocol.ai 的关键字搜索反而没那么好用,因为他不会引导你去这个字实际出现的地方,而是把有提到这个字的对话整段抓出来,等于是老师整段讲的话都被标出来了,那就没有意义了,所以像这种情况还是改用浏览器内置的搜索工具比较好。
还是要说一下,逐字稿真的很好用,大家一定要会善用,毕竟在信息的世界,文本是很重要的传播媒介啊。
会议纪录整理
vocol.ai 也很适合拿来做会议记录,做会后的数据整理,搭配 vocol.ai 可以分辨不同讲者的特色,可以在逐字稿中很容易了解到谁说了哪些内容。
而且包含这样一来一回的对话,甚至有时候有抢话的状况,vocol.ai 都还是分辨得很清楚,没有混在一起、搭在一起。
另外像这个情境,就可以使用上面提过的关键字搜索工具,找出哪些对话里面有我们想要了解的关键字内容。
如果可以使用 vocol.ai 的工具还是比较好,毕竟这个可以直接让画面只显示我们搜索的关键字对话,更容易聚焦在结果上。
另外还有一种会议记录,可能就是大家开会的时候随手录下来的,这种当然也可以使用 vocol.ai 来做会后的逐字稿整理。
可是你会发现这里面明明就很多人都有发言,但是在逐字稿中却都只辨识成一个讲者,不像上面那样可以辨识成两个人,还能一来一往很流畅,句子也不会搭在一起。
主要还是因为声音品质的关系。
像这个会议记录的影片文件,因为大家声音都不是非常清晰,有些讲得也很模糊,所以 vocol.ai 在判断上就会有很大难度去准确的辨识,而这个影片的情况还算好,逐字稿中有 8 成的内容都有抓到,只是没有分辨讲者罢了。
毕竟 AI 也不是万能,素材的品质越好,能够提供的内容就越完整,这点大家一定要记得。
用翻译快速看懂国外采访纪录
刚好在这段时间,我们有机会受德国在台协会邀请做一个小访问,主题是关于 9 月要在德国柏林举办的 IFA 展览,而我们也录下了采访的内容,然后透过 vocol.ai 来帮我们做事后的整理。
一样可以透过 AI 生成的重点先了解一下整段访问的内容,然后再针对逐字稿的内容去做整理或是进一步的利用。
这边就要提到 vocol.ai 七月刚上线的翻译功能!
简单来说,这功能是能够让你在生成逐字稿之后进行翻译。完成逐字稿翻译后,点击该语系就能对照原始语系,而且就算你点击特定区段的翻译版本逐字稿,语音也会同步,也能留下评论。
这对想要学习语言的人来说,就像是学习平台一样方便。
除了在平台上跨语系协作,也能下载各种翻译版本逐字稿。支持的格式有 txt 和 srt 这两种。
逐字稿翻译功能甚至支持 20 种以上的语系,但需要注意的是翻译版本无法被编辑喔!
我认为这对于需要开跨国会议的人非常有帮助,例如有时候跟日本客户开会时,他们偏好使用日文,但对于不懂日文的我们,如果需要知道内容细节,就需要口译帮忙,但有时候口译也会省略一些内容,这就会造成信息落差,如果能掌握到所有细节,其实就能避免这种状况。
vocol.ai 也是好用的多人协作平台
上面的案例中,你可以发现我主要是以个人使用的情境在体验 vocol.ai 的功能,谈到 vocol.ai 如何帮助我们更好的处理语音的事情。
但其实 vocol.ai 不仅仅是对自己有帮助,对于团队协作都是有帮助的,这都是借助 vocol.ai 的协作平台功能。
换个立场,今天你不是会议的参与者,但你是团队的一员
你不一定要亲自参与每一场的会议,但是你可以在会议结束以后,让与会的同事透过 vocol.ai 平台的「分享文件」功能把你邀请进 vocol.ai 的协作平台。
收到邀请后会有 Email 的通知,而且可以在媒体库中清楚的辨识哪些是受他人邀请参与的项目,哪些是自己的项目。
直接在平台中留下针对内容的建议
身为受邀者虽然目前还不能编辑逐字稿的内容,但是可以针对逐字稿或是语音的段落给予意见,然后再由项目的拥有者根据大家的回馈进行修改。
可以选择任何一段的逐字稿或是语音段落,然后留下「评论」,这样在同一个项目底下的其他参与者,就可以看到彼此的评论内容。
其他人只要点击讨论区中你所留下的评论,就会被引导到你选起来的对话或是章节,你也不用再跟大家说「请看 XX 分 XX 秒的地方」,把时间跟精力专注在真正要聚焦的内容上吧。
所以无论你是主要参与会议的人、只需要知道会议上讨论了些什么的人,或者你是一个项目管理的角色,你都可以利用 vocol.ai 协作平台的共享逐字稿(包括原始逐字稿跟多语系翻译版本)与 AI 重点整理的功能,查看整场会议的全貌或重点、甚至给予评论。
而且上面说到的这些评论都会即时显示,大家可以花个 10 分钟 20 分钟一起在在线透过 vocol.ai 来完成会议后续的确认工作。
也能直接用 vocol.ai 录制在线会议
此外,vocol.ai 还可以化身为一个机器人加入 Google Meet 或 Microsoft Team 的视频会议中,把会议的内容自动记录下来,再自动丢回 vocol.ai 的平台中分析、产出逐字稿。不过要注意的是,目前使用机器人自动录音有六十分钟限制。
接着你只要从个人后台首页中的「邀请 Google/Team 会议录音机器人」选项的「加入会议」功能操作。
然后粘贴会议的链接,让 vocol.ai 可以向会议送出加入的邀请。
在会议端就会收到有 vocol.ai 机器人要加入会议的通知,允许加入以后,vocol.ai 就会开始对会议的内容进行录音。
当会议结束后,vocol.ai 机器人就会自动把录制的内容丢回系统,你可以在后台中看到 meeting 的文件,这就是刚刚录制的会议内容。
接着后面产生 AI 摘要、逐字稿的功能就跟前面介绍过的一样。
透过这个方式,在团队开会、远程视频会议时,就不用另外录像、取得录像档然后再上传,这些有的没的工作就直接让 vocol.ai 来处理,处理完还能直接生成会议重点摘要与逐字稿,多方便。
vocol.ai 平台:语音转多语系逐字稿,让工作变得更有效率
回归到最原始的需求,我们之所以需要一款好用的语音转文本工具,就是因为现在很多东西都讲求数字化,而数字与我们之间最重要的沟通方式就是文本了。
透过 vocol.ai 的语音转文本功能,我们可以很方便又快速的把落落长的课堂录音、会议记录、采访内容在几分钟内就转成多语系文本,让我们后续可以做更多应用。
vocol.ai 提供了 AI 摘要功能以及分享逐字稿功能,可以加快工作的流程以及协作的顺畅度,利用 AI 摘要先快速了解内容后,在针对逐字稿的细项内容去修正、讨论与调整。
不只语音转文本,还能帮你画重点、让同事朋友间交互讨论的 vocol.ai 跨语系协作平台
newsman 发表了文章 • 2023-07-24 22:56
现在有越来越多的人在使用数字科技辅助学习、工作,我也常常在 PTT 上看到许多网友在问有没有好用的笔记软件、工具可以处理语音转文本的工作,因为他们可能录下了课堂老师讲的内容、工作会议讨论的事项,但事后需要转成文本档整理到自己的笔记或是工作报告中。
最近我就发现了一款好用的语音转文本工具 vocol.ai,辨识正确率很高,产生逐字稿的同时还可以分辨不同的讲者,甚至未来的 AI 趋势在 vocol.ai 里面也直接集成进去了,大家最常叫 ChatGPT 做的「帮我整理这内容的重点跟翻译」直接就在逐字稿产生以后一并生成。
另外,如果你是需要团队合作的案子,vocol.ai 也有团队协作功能,从头到尾一站式就搞定。下面我会详细的介绍 vocol.ai 要怎么用,并且实际示范语音转文本效果以及好用的几个功能。
语音转文本神器:vocol.ai 的 7 大重点
这里先跟大家快速重点一下我觉得 vocol.ai 好用的 7 大功能,先让大家有个概念,原来这 vocol.ai 可以做这些,然后我们再体验它的效果。
免费试用约 200 分钟
先跟大家说,目前 vocol.ai 有提供每个帐号大约 200 V-points 的免费试用额度,通常一分钟的逐字稿转换会花掉 1 到 1.5 V-points(这只是大约计算,通常不会差太多),所以 200 V-points 大概就是 200 分钟左右。
▲你可以在个人页面中看到剩余可用的 V-points
所以你不用担心说看完介绍想要用结果要付费才能用!可以先试用 200 分钟,觉得好用、有帮助的话再继续购买更多的 V-points。
▲ vocol.ai 还有包含企业方案在内的其他方案,后面会提到
语音转逐字稿
直接把录音档、影片档上传到 vocol.ai 的个人平台上,vocol.ai 就会开始帮你分析影片、音乐的内容,然后产生逐字稿,整个流程大概两、三个步骤就能搞定。
▲上传 mp3、mp4、m4a 多种格式都可以支持
通常内容只要不是太复杂的情况下,逐字稿大约可以在 3 ~ 5 分钟之内就产生出来,然后就可以在项目的画面右半部「逐字稿」这一区块看到完整的逐字稿内容。
▲上传完毕后再等一下逐字稿就会出现,等待时间取决影片长度与复杂度
完整呈现声音的内容
就连那种我们很不经意脱口而出的赘词「对」、「就是」、「那个」,或是你卡词的状况都会很完整的节录出来。
▲ vocol.ai 完整地把语音内容转成逐字稿
既然是逐字稿,所以当然就是说了什么就呈现什么,本来就不会去帮你修饰语句,我觉得这样是非常正常而且尽责的逐字稿。
录音的品质会决定逐字稿生成后的结果,有时候我们可能会因为声音素材品质不佳、讲话彼此互相搭到、太过小声….等原因,导致辨识出错误的内容或是用字,但也没关系,点两下逐字稿中想要修改的段落,就可以在跳出的菜单中选择「编辑」进行修改。
▲ 觉得有需要调整的地方也可以自行修改
辨识不同讲者
vocol.ai 在辨识逐字稿的过程中也会分辨哪一句话是谁讲的,然后把不同的句子对应到讲话的人,所以会在逐字稿中看到「讲话者 1」、「讲话者 2」等字样,让我们可以更容易了解谁说了些什么。
▲ 分辨讲者更容易看出是谁在说话
就我目前的测试,至少到第七位讲话者都还可以辨识得出来,而且每一位讲者都会用不同颜色的线条表示,在内容很多的情况下比较好一眼就找到、辨别不同的说话者。
▲ 目前测试至少可以支持 7 名讲者
如果还想要更容易辨识的话,直接把「讲话者」改为真实的对象名称就好了,这样如果有刚参与项目的同事或是朋友之间就在讨论事情,就不用担心不知道是谁在说话了。
▲ 讲者的名称也可以自行调整
多种语言辨识
vocol.ai 可以针对影片、录音档内不同的语音进行辨识,基本的国语、英语和日语就不说了,这几种语言对于 vocol.ai 在处理逐字稿上几乎是没有什么太大的问题。
▲ vocol.ai 辨识英语
甚至对话包含中、英文夹杂的状况也都可以顺利辨识,就像下面这样,在逐字稿里面就会同时显示中文以及英文两种不同的内容。
▲ vocol.ai 辨识中英语夹杂
另外,因为许多台湾人习惯说台语,今天如果录音的场合是大家都习惯说台语的会议、讨论上,其他的语音转文本系统可能很难处理,vocol.ai 就没有问题。
我也简短的测试了一下,是真的可以辨识出来,不过要注意的是,台语的说法跟国语还是会有落差,像是下面这个「补给够」是台语「补嘎搞」的直翻,国语可能就会讲「补足」,会有这类的差别需要注意。
▲ vocol.ai 台语也能辨识
然后来试试看广东话,这是我在网络上找到的一段香港 YouTuber 的街访影片开头,丢到 vocol.ai 去转文本,没想到竟然也可以正确辨识。
▲ vocol.ai 广东话也能辨识
AI 生成重点
在上面的几张截屏中你应该也有看到,vocol.ai 在生成完逐字稿以后,还会透过 AI 语言模型,把逐字稿的内容整理出重点显示在左半边的部分,而且如果内容完整清晰的话,可以分段,并且指出每一段的时间从什么时候开始、什么时候结束。
虽然在上传文件时可以先勾选产生 AI 分析摘要,但我有时我在上传的时候会刻意先不开启 AI 自动产生摘要的功能,就是下面这个开关先不打开。
我会先产出逐字稿,确认好内容再点击「运行智能分析」产出 AI 分析摘要。
这也是我觉得很棒的一点,因为我通常习惯先确认好逐字稿内容,确认没有要修改再做 AI 重点摘要,因为如果我有针对逐字稿进行修改的话,这样做可以确保我的摘要会跟逐字稿内容是同步的,省去我对照内容的时间。
另外,录音的内容如果一次说了好多不同的主题,vocol.ai 也会帮你把不同的主题分门别类的抓出来,你可以从「主题」标签页中看到 vocol.ai 帮你整理的主题项目,点一下任何一个项目,右边的逐字稿就会反黄,方便我们可以快速找到。
团队协作平台
团队协作功能是我觉得 vocol.ai 很棒的一项特色,不仅仅是你可以自己在上面完成工作,你还可以邀请同事一起参与,直接在 vocol.ai 的平台上,针对生成的内容进行讨论,评论。
无论是自己还是被邀请的对象,除了可以浏览逐字稿内容、摘要内容以外,还可以针对有疑虑的地方,直接留下评论,然后在评论区中进行讨论或是交流。
然后我看 vocol.ai 官网的方案内容说明,在未来还会加入新的 Starter 和 Pro 方案,可以使用像是重点标示、权限设置、团队管理、使用分析….等更多项目团队用户专属且工作上必须使用到的功能。
vocol.ai 可以用在哪里?
下面这边我想要实际带大家来体验看看各种不同使用 vocol.ai 的情境,透过情境的方式,我想大家应该更可以体会 vocol.ai 语音转文本有哪些可以发挥的地方。
课堂纪录整理
现在很多人都会在课堂上把老师教的内容记录下来,甚至有些笔记 App 也有提供录音功能,但就是纯录音,也没办法转成文本,后续要做笔记的时候还是要从头开始听,甚至你有想要听的内容,但是你根本不知道这个内容出现在几分几秒,要像是瞎子摸象那样一直在播放器中寻找。
但是利用 vocol.ai,你只需要把影片、录音档上传。
如果内容很多也没关系,上传完以后你可以先做自己的事情,等到逐字稿生成完毕会发送通知给你,蛮贴心的功能,不用在那痴痴的等。
但要特别注意的是,上传单个音档最高限制是 180 分钟!
如果你刚好没有带到录音笔、手机空间不够、快没电的情况下,你也可以直接透过 volco.ai 提供的录音功能录下要转逐字稿的内容。
但因为这是透过内置浏览器来进行录音,所以还是要注意一下浏览器的设置,避免因为没有跟网页有交互时进入休眠状态让录音被迫停止,以我的经验来说,我常用 Google Chrome,所以会习惯去「设置」→「性能」→把信任的网站加入菜单中。此外,我也会同时关闭内存节省模式。
无论是透过 vocol.ai 直接录音或是上传音档,当逐字稿产生完毕后,你就可以从逐字稿中透过搜索的方式,快速找到你想要找的重点,之后再把所有的内容好好整理一下,会比从头重新听过再来整理还要有效率。
想听哪一段的内容直接点击文本就可以直接切换过去,不用在一整段语音中盲目寻找要听的目标内容。
这里也要特别提一下,其实 vocol.ai 也有针对逐字稿、评论讨论的关键字搜索工具,不过我觉得那比较适用有好多段对话的情况,搜索工具会引导你去有包含这个关键字的对话、章节或是讨论串。
但是像我上面那样,课堂上只有老师一个人批哩啪啦在讲的情况,vocol.ai 的关键字搜索反而没那么好用,因为他不会引导你去这个字实际出现的地方,而是把有提到这个字的对话整段抓出来,等于是老师整段讲的话都被标出来了,那就没有意义了,所以像这种情况还是改用浏览器内置的搜索工具比较好。
还是要说一下,逐字稿真的很好用,大家一定要会善用,毕竟在信息的世界,文本是很重要的传播媒介啊。
会议纪录整理
vocol.ai 也很适合拿来做会议记录,做会后的数据整理,搭配 vocol.ai 可以分辨不同讲者的特色,可以在逐字稿中很容易了解到谁说了哪些内容。
而且包含这样一来一回的对话,甚至有时候有抢话的状况,vocol.ai 都还是分辨得很清楚,没有混在一起、搭在一起。
另外像这个情境,就可以使用上面提过的关键字搜索工具,找出哪些对话里面有我们想要了解的关键字内容。
如果可以使用 vocol.ai 的工具还是比较好,毕竟这个可以直接让画面只显示我们搜索的关键字对话,更容易聚焦在结果上。
另外还有一种会议记录,可能就是大家开会的时候随手录下来的,这种当然也可以使用 vocol.ai 来做会后的逐字稿整理。
可是你会发现这里面明明就很多人都有发言,但是在逐字稿中却都只辨识成一个讲者,不像上面那样可以辨识成两个人,还能一来一往很流畅,句子也不会搭在一起。
主要还是因为声音品质的关系。
像这个会议记录的影片文件,因为大家声音都不是非常清晰,有些讲得也很模糊,所以 vocol.ai 在判断上就会有很大难度去准确的辨识,而这个影片的情况还算好,逐字稿中有 8 成的内容都有抓到,只是没有分辨讲者罢了。
毕竟 AI 也不是万能,素材的品质越好,能够提供的内容就越完整,这点大家一定要记得。
用翻译快速看懂国外采访纪录
刚好在这段时间,我们有机会受德国在台协会邀请做一个小访问,主题是关于 9 月要在德国柏林举办的 IFA 展览,而我们也录下了采访的内容,然后透过 vocol.ai 来帮我们做事后的整理。
一样可以透过 AI 生成的重点先了解一下整段访问的内容,然后再针对逐字稿的内容去做整理或是进一步的利用。
这边就要提到 vocol.ai 七月刚上线的翻译功能!
简单来说,这功能是能够让你在生成逐字稿之后进行翻译。完成逐字稿翻译后,点击该语系就能对照原始语系,而且就算你点击特定区段的翻译版本逐字稿,语音也会同步,也能留下评论。
这对想要学习语言的人来说,就像是学习平台一样方便。
除了在平台上跨语系协作,也能下载各种翻译版本逐字稿。支持的格式有 txt 和 srt 这两种。
逐字稿翻译功能甚至支持 20 种以上的语系,但需要注意的是翻译版本无法被编辑喔!
我认为这对于需要开跨国会议的人非常有帮助,例如有时候跟日本客户开会时,他们偏好使用日文,但对于不懂日文的我们,如果需要知道内容细节,就需要口译帮忙,但有时候口译也会省略一些内容,这就会造成信息落差,如果能掌握到所有细节,其实就能避免这种状况。
vocol.ai 也是好用的多人协作平台
上面的案例中,你可以发现我主要是以个人使用的情境在体验 vocol.ai 的功能,谈到 vocol.ai 如何帮助我们更好的处理语音的事情。
但其实 vocol.ai 不仅仅是对自己有帮助,对于团队协作都是有帮助的,这都是借助 vocol.ai 的协作平台功能。
换个立场,今天你不是会议的参与者,但你是团队的一员
你不一定要亲自参与每一场的会议,但是你可以在会议结束以后,让与会的同事透过 vocol.ai 平台的「分享文件」功能把你邀请进 vocol.ai 的协作平台。
收到邀请后会有 Email 的通知,而且可以在媒体库中清楚的辨识哪些是受他人邀请参与的项目,哪些是自己的项目。
直接在平台中留下针对内容的建议
身为受邀者虽然目前还不能编辑逐字稿的内容,但是可以针对逐字稿或是语音的段落给予意见,然后再由项目的拥有者根据大家的回馈进行修改。
可以选择任何一段的逐字稿或是语音段落,然后留下「评论」,这样在同一个项目底下的其他参与者,就可以看到彼此的评论内容。
其他人只要点击讨论区中你所留下的评论,就会被引导到你选起来的对话或是章节,你也不用再跟大家说「请看 XX 分 XX 秒的地方」,把时间跟精力专注在真正要聚焦的内容上吧。
所以无论你是主要参与会议的人、只需要知道会议上讨论了些什么的人,或者你是一个项目管理的角色,你都可以利用 vocol.ai 协作平台的共享逐字稿(包括原始逐字稿跟多语系翻译版本)与 AI 重点整理的功能,查看整场会议的全貌或重点、甚至给予评论。
而且上面说到的这些评论都会即时显示,大家可以花个 10 分钟 20 分钟一起在在线透过 vocol.ai 来完成会议后续的确认工作。
也能直接用 vocol.ai 录制在线会议
此外,vocol.ai 还可以化身为一个机器人加入 Google Meet 或 Microsoft Team 的视频会议中,把会议的内容自动记录下来,再自动丢回 vocol.ai 的平台中分析、产出逐字稿。不过要注意的是,目前使用机器人自动录音有六十分钟限制。
接着你只要从个人后台首页中的「邀请 Google/Team 会议录音机器人」选项的「加入会议」功能操作。
然后粘贴会议的链接,让 vocol.ai 可以向会议送出加入的邀请。
在会议端就会收到有 vocol.ai 机器人要加入会议的通知,允许加入以后,vocol.ai 就会开始对会议的内容进行录音。
当会议结束后,vocol.ai 机器人就会自动把录制的内容丢回系统,你可以在后台中看到 meeting 的文件,这就是刚刚录制的会议内容。
接着后面产生 AI 摘要、逐字稿的功能就跟前面介绍过的一样。
透过这个方式,在团队开会、远程视频会议时,就不用另外录像、取得录像档然后再上传,这些有的没的工作就直接让 vocol.ai 来处理,处理完还能直接生成会议重点摘要与逐字稿,多方便。
vocol.ai 平台:语音转多语系逐字稿,让工作变得更有效率
回归到最原始的需求,我们之所以需要一款好用的语音转文本工具,就是因为现在很多东西都讲求数字化,而数字与我们之间最重要的沟通方式就是文本了。
透过 vocol.ai 的语音转文本功能,我们可以很方便又快速的把落落长的课堂录音、会议记录、采访内容在几分钟内就转成多语系文本,让我们后续可以做更多应用。
vocol.ai 提供了 AI 摘要功能以及分享逐字稿功能,可以加快工作的流程以及协作的顺畅度,利用 AI 摘要先快速了解内容后,在针对逐字稿的细项内容去修正、讨论与调整。
不只语音转文本,还能帮你画重点、让同事朋友间交互讨论的 vocol.ai 跨语系协作平台
newsman 发表了文章 • 2023-07-24 22:56
现在有越来越多的人在使用数字科技辅助学习、工作,我也常常在 PTT 上看到许多网友在问有没有好用的笔记软件、工具可以处理语音转文本的工作,因为他们可能录下了课堂老师讲的内容、工作会议讨论的事项,但事后需要转成文本档整理到自己的笔记或是工作报告中。
最近我就发现了一款好用的语音转文本工具 vocol.ai,辨识正确率很高,产生逐字稿的同时还可以分辨不同的讲者,甚至未来的 AI 趋势在 vocol.ai 里面也直接集成进去了,大家最常叫 ChatGPT 做的「帮我整理这内容的重点跟翻译」直接就在逐字稿产生以后一并生成。
另外,如果你是需要团队合作的案子,vocol.ai 也有团队协作功能,从头到尾一站式就搞定。下面我会详细的介绍 vocol.ai 要怎么用,并且实际示范语音转文本效果以及好用的几个功能。
语音转文本神器:vocol.ai 的 7 大重点
这里先跟大家快速重点一下我觉得 vocol.ai 好用的 7 大功能,先让大家有个概念,原来这 vocol.ai 可以做这些,然后我们再体验它的效果。
免费试用约 200 分钟
先跟大家说,目前 vocol.ai 有提供每个帐号大约 200 V-points 的免费试用额度,通常一分钟的逐字稿转换会花掉 1 到 1.5 V-points(这只是大约计算,通常不会差太多),所以 200 V-points 大概就是 200 分钟左右。
▲你可以在个人页面中看到剩余可用的 V-points
所以你不用担心说看完介绍想要用结果要付费才能用!可以先试用 200 分钟,觉得好用、有帮助的话再继续购买更多的 V-points。
▲ vocol.ai 还有包含企业方案在内的其他方案,后面会提到
语音转逐字稿
直接把录音档、影片档上传到 vocol.ai 的个人平台上,vocol.ai 就会开始帮你分析影片、音乐的内容,然后产生逐字稿,整个流程大概两、三个步骤就能搞定。
▲上传 mp3、mp4、m4a 多种格式都可以支持
通常内容只要不是太复杂的情况下,逐字稿大约可以在 3 ~ 5 分钟之内就产生出来,然后就可以在项目的画面右半部「逐字稿」这一区块看到完整的逐字稿内容。
▲上传完毕后再等一下逐字稿就会出现,等待时间取决影片长度与复杂度
完整呈现声音的内容
就连那种我们很不经意脱口而出的赘词「对」、「就是」、「那个」,或是你卡词的状况都会很完整的节录出来。
▲ vocol.ai 完整地把语音内容转成逐字稿
既然是逐字稿,所以当然就是说了什么就呈现什么,本来就不会去帮你修饰语句,我觉得这样是非常正常而且尽责的逐字稿。
录音的品质会决定逐字稿生成后的结果,有时候我们可能会因为声音素材品质不佳、讲话彼此互相搭到、太过小声….等原因,导致辨识出错误的内容或是用字,但也没关系,点两下逐字稿中想要修改的段落,就可以在跳出的菜单中选择「编辑」进行修改。
▲ 觉得有需要调整的地方也可以自行修改
辨识不同讲者
vocol.ai 在辨识逐字稿的过程中也会分辨哪一句话是谁讲的,然后把不同的句子对应到讲话的人,所以会在逐字稿中看到「讲话者 1」、「讲话者 2」等字样,让我们可以更容易了解谁说了些什么。
▲ 分辨讲者更容易看出是谁在说话
就我目前的测试,至少到第七位讲话者都还可以辨识得出来,而且每一位讲者都会用不同颜色的线条表示,在内容很多的情况下比较好一眼就找到、辨别不同的说话者。
▲ 目前测试至少可以支持 7 名讲者
如果还想要更容易辨识的话,直接把「讲话者」改为真实的对象名称就好了,这样如果有刚参与项目的同事或是朋友之间就在讨论事情,就不用担心不知道是谁在说话了。
▲ 讲者的名称也可以自行调整
多种语言辨识
vocol.ai 可以针对影片、录音档内不同的语音进行辨识,基本的国语、英语和日语就不说了,这几种语言对于 vocol.ai 在处理逐字稿上几乎是没有什么太大的问题。
▲ vocol.ai 辨识英语
甚至对话包含中、英文夹杂的状况也都可以顺利辨识,就像下面这样,在逐字稿里面就会同时显示中文以及英文两种不同的内容。
▲ vocol.ai 辨识中英语夹杂
另外,因为许多台湾人习惯说台语,今天如果录音的场合是大家都习惯说台语的会议、讨论上,其他的语音转文本系统可能很难处理,vocol.ai 就没有问题。
我也简短的测试了一下,是真的可以辨识出来,不过要注意的是,台语的说法跟国语还是会有落差,像是下面这个「补给够」是台语「补嘎搞」的直翻,国语可能就会讲「补足」,会有这类的差别需要注意。
▲ vocol.ai 台语也能辨识
然后来试试看广东话,这是我在网络上找到的一段香港 YouTuber 的街访影片开头,丢到 vocol.ai 去转文本,没想到竟然也可以正确辨识。
▲ vocol.ai 广东话也能辨识
AI 生成重点
在上面的几张截屏中你应该也有看到,vocol.ai 在生成完逐字稿以后,还会透过 AI 语言模型,把逐字稿的内容整理出重点显示在左半边的部分,而且如果内容完整清晰的话,可以分段,并且指出每一段的时间从什么时候开始、什么时候结束。
虽然在上传文件时可以先勾选产生 AI 分析摘要,但我有时我在上传的时候会刻意先不开启 AI 自动产生摘要的功能,就是下面这个开关先不打开。
我会先产出逐字稿,确认好内容再点击「运行智能分析」产出 AI 分析摘要。
这也是我觉得很棒的一点,因为我通常习惯先确认好逐字稿内容,确认没有要修改再做 AI 重点摘要,因为如果我有针对逐字稿进行修改的话,这样做可以确保我的摘要会跟逐字稿内容是同步的,省去我对照内容的时间。
另外,录音的内容如果一次说了好多不同的主题,vocol.ai 也会帮你把不同的主题分门别类的抓出来,你可以从「主题」标签页中看到 vocol.ai 帮你整理的主题项目,点一下任何一个项目,右边的逐字稿就会反黄,方便我们可以快速找到。
团队协作平台
团队协作功能是我觉得 vocol.ai 很棒的一项特色,不仅仅是你可以自己在上面完成工作,你还可以邀请同事一起参与,直接在 vocol.ai 的平台上,针对生成的内容进行讨论,评论。
无论是自己还是被邀请的对象,除了可以浏览逐字稿内容、摘要内容以外,还可以针对有疑虑的地方,直接留下评论,然后在评论区中进行讨论或是交流。
然后我看 vocol.ai 官网的方案内容说明,在未来还会加入新的 Starter 和 Pro 方案,可以使用像是重点标示、权限设置、团队管理、使用分析….等更多项目团队用户专属且工作上必须使用到的功能。
vocol.ai 可以用在哪里?
下面这边我想要实际带大家来体验看看各种不同使用 vocol.ai 的情境,透过情境的方式,我想大家应该更可以体会 vocol.ai 语音转文本有哪些可以发挥的地方。
课堂纪录整理
现在很多人都会在课堂上把老师教的内容记录下来,甚至有些笔记 App 也有提供录音功能,但就是纯录音,也没办法转成文本,后续要做笔记的时候还是要从头开始听,甚至你有想要听的内容,但是你根本不知道这个内容出现在几分几秒,要像是瞎子摸象那样一直在播放器中寻找。
但是利用 vocol.ai,你只需要把影片、录音档上传。
如果内容很多也没关系,上传完以后你可以先做自己的事情,等到逐字稿生成完毕会发送通知给你,蛮贴心的功能,不用在那痴痴的等。
但要特别注意的是,上传单个音档最高限制是 180 分钟!
如果你刚好没有带到录音笔、手机空间不够、快没电的情况下,你也可以直接透过 volco.ai 提供的录音功能录下要转逐字稿的内容。
但因为这是透过内置浏览器来进行录音,所以还是要注意一下浏览器的设置,避免因为没有跟网页有交互时进入休眠状态让录音被迫停止,以我的经验来说,我常用 Google Chrome,所以会习惯去「设置」→「性能」→把信任的网站加入菜单中。此外,我也会同时关闭内存节省模式。
无论是透过 vocol.ai 直接录音或是上传音档,当逐字稿产生完毕后,你就可以从逐字稿中透过搜索的方式,快速找到你想要找的重点,之后再把所有的内容好好整理一下,会比从头重新听过再来整理还要有效率。
想听哪一段的内容直接点击文本就可以直接切换过去,不用在一整段语音中盲目寻找要听的目标内容。
这里也要特别提一下,其实 vocol.ai 也有针对逐字稿、评论讨论的关键字搜索工具,不过我觉得那比较适用有好多段对话的情况,搜索工具会引导你去有包含这个关键字的对话、章节或是讨论串。
但是像我上面那样,课堂上只有老师一个人批哩啪啦在讲的情况,vocol.ai 的关键字搜索反而没那么好用,因为他不会引导你去这个字实际出现的地方,而是把有提到这个字的对话整段抓出来,等于是老师整段讲的话都被标出来了,那就没有意义了,所以像这种情况还是改用浏览器内置的搜索工具比较好。
还是要说一下,逐字稿真的很好用,大家一定要会善用,毕竟在信息的世界,文本是很重要的传播媒介啊。
会议纪录整理
vocol.ai 也很适合拿来做会议记录,做会后的数据整理,搭配 vocol.ai 可以分辨不同讲者的特色,可以在逐字稿中很容易了解到谁说了哪些内容。
而且包含这样一来一回的对话,甚至有时候有抢话的状况,vocol.ai 都还是分辨得很清楚,没有混在一起、搭在一起。
另外像这个情境,就可以使用上面提过的关键字搜索工具,找出哪些对话里面有我们想要了解的关键字内容。
如果可以使用 vocol.ai 的工具还是比较好,毕竟这个可以直接让画面只显示我们搜索的关键字对话,更容易聚焦在结果上。
另外还有一种会议记录,可能就是大家开会的时候随手录下来的,这种当然也可以使用 vocol.ai 来做会后的逐字稿整理。
可是你会发现这里面明明就很多人都有发言,但是在逐字稿中却都只辨识成一个讲者,不像上面那样可以辨识成两个人,还能一来一往很流畅,句子也不会搭在一起。
主要还是因为声音品质的关系。
像这个会议记录的影片文件,因为大家声音都不是非常清晰,有些讲得也很模糊,所以 vocol.ai 在判断上就会有很大难度去准确的辨识,而这个影片的情况还算好,逐字稿中有 8 成的内容都有抓到,只是没有分辨讲者罢了。
毕竟 AI 也不是万能,素材的品质越好,能够提供的内容就越完整,这点大家一定要记得。
用翻译快速看懂国外采访纪录
刚好在这段时间,我们有机会受德国在台协会邀请做一个小访问,主题是关于 9 月要在德国柏林举办的 IFA 展览,而我们也录下了采访的内容,然后透过 vocol.ai 来帮我们做事后的整理。
一样可以透过 AI 生成的重点先了解一下整段访问的内容,然后再针对逐字稿的内容去做整理或是进一步的利用。
这边就要提到 vocol.ai 七月刚上线的翻译功能!
简单来说,这功能是能够让你在生成逐字稿之后进行翻译。完成逐字稿翻译后,点击该语系就能对照原始语系,而且就算你点击特定区段的翻译版本逐字稿,语音也会同步,也能留下评论。
这对想要学习语言的人来说,就像是学习平台一样方便。
除了在平台上跨语系协作,也能下载各种翻译版本逐字稿。支持的格式有 txt 和 srt 这两种。
逐字稿翻译功能甚至支持 20 种以上的语系,但需要注意的是翻译版本无法被编辑喔!
我认为这对于需要开跨国会议的人非常有帮助,例如有时候跟日本客户开会时,他们偏好使用日文,但对于不懂日文的我们,如果需要知道内容细节,就需要口译帮忙,但有时候口译也会省略一些内容,这就会造成信息落差,如果能掌握到所有细节,其实就能避免这种状况。
vocol.ai 也是好用的多人协作平台
上面的案例中,你可以发现我主要是以个人使用的情境在体验 vocol.ai 的功能,谈到 vocol.ai 如何帮助我们更好的处理语音的事情。
但其实 vocol.ai 不仅仅是对自己有帮助,对于团队协作都是有帮助的,这都是借助 vocol.ai 的协作平台功能。
换个立场,今天你不是会议的参与者,但你是团队的一员
你不一定要亲自参与每一场的会议,但是你可以在会议结束以后,让与会的同事透过 vocol.ai 平台的「分享文件」功能把你邀请进 vocol.ai 的协作平台。
收到邀请后会有 Email 的通知,而且可以在媒体库中清楚的辨识哪些是受他人邀请参与的项目,哪些是自己的项目。
直接在平台中留下针对内容的建议
身为受邀者虽然目前还不能编辑逐字稿的内容,但是可以针对逐字稿或是语音的段落给予意见,然后再由项目的拥有者根据大家的回馈进行修改。
可以选择任何一段的逐字稿或是语音段落,然后留下「评论」,这样在同一个项目底下的其他参与者,就可以看到彼此的评论内容。
其他人只要点击讨论区中你所留下的评论,就会被引导到你选起来的对话或是章节,你也不用再跟大家说「请看 XX 分 XX 秒的地方」,把时间跟精力专注在真正要聚焦的内容上吧。
所以无论你是主要参与会议的人、只需要知道会议上讨论了些什么的人,或者你是一个项目管理的角色,你都可以利用 vocol.ai 协作平台的共享逐字稿(包括原始逐字稿跟多语系翻译版本)与 AI 重点整理的功能,查看整场会议的全貌或重点、甚至给予评论。
而且上面说到的这些评论都会即时显示,大家可以花个 10 分钟 20 分钟一起在在线透过 vocol.ai 来完成会议后续的确认工作。
也能直接用 vocol.ai 录制在线会议
此外,vocol.ai 还可以化身为一个机器人加入 Google Meet 或 Microsoft Team 的视频会议中,把会议的内容自动记录下来,再自动丢回 vocol.ai 的平台中分析、产出逐字稿。不过要注意的是,目前使用机器人自动录音有六十分钟限制。
接着你只要从个人后台首页中的「邀请 Google/Team 会议录音机器人」选项的「加入会议」功能操作。
然后粘贴会议的链接,让 vocol.ai 可以向会议送出加入的邀请。
在会议端就会收到有 vocol.ai 机器人要加入会议的通知,允许加入以后,vocol.ai 就会开始对会议的内容进行录音。
当会议结束后,vocol.ai 机器人就会自动把录制的内容丢回系统,你可以在后台中看到 meeting 的文件,这就是刚刚录制的会议内容。
接着后面产生 AI 摘要、逐字稿的功能就跟前面介绍过的一样。
透过这个方式,在团队开会、远程视频会议时,就不用另外录像、取得录像档然后再上传,这些有的没的工作就直接让 vocol.ai 来处理,处理完还能直接生成会议重点摘要与逐字稿,多方便。
vocol.ai 平台:语音转多语系逐字稿,让工作变得更有效率
回归到最原始的需求,我们之所以需要一款好用的语音转文本工具,就是因为现在很多东西都讲求数字化,而数字与我们之间最重要的沟通方式就是文本了。
透过 vocol.ai 的语音转文本功能,我们可以很方便又快速的把落落长的课堂录音、会议记录、采访内容在几分钟内就转成多语系文本,让我们后续可以做更多应用。
vocol.ai 提供了 AI 摘要功能以及分享逐字稿功能,可以加快工作的流程以及协作的顺畅度,利用 AI 摘要先快速了解内容后,在针对逐字稿的细项内容去修正、讨论与调整。