Category 机器翻译

我用AI写了一个MKV字幕提取器

上回说到我是一枚美剧爱好者,但英语水平有点弱,经常网上下了mkv格式的美剧,但没有中文字幕,只适合生肉党,虽有英文或其它语言字幕,但字幕的提取还是有点麻烦,于是我让AI帮我写了一个Python程序,用来批量提取mkv文件里的字幕,这些字幕提取后,可以用这个网址来翻译成中文,导出中文或双语的字幕文件。 程序很简单,就一个界面: 左侧是选择的mkv文件,右侧是每个mkv文件里包含的字幕对应的语种,需要导出哪个语种的srt字幕文件,就勾选对应的语种即可。   程序很简单,可以单选或多选需要提取的mkv视频文件,然后在左侧点击每个mkv文件,在右侧选择需要提取这个mkv文件里的字幕的语种,有些mkv文件可以包含多个语种,一般提取一个语种就行了,然后点击上方的“提取所有选中字幕”按钮,开始提取,提取完毕后会有提示,提取的字幕文件在mkv文件同级,且与该mkv文件同名。   有了srt文件,就可以参考这篇文章,将srt翻译成需要的中文   由于我使用的是windows电脑,我只打包了exe文件,如果有使用苹果电脑的同学需要这个程序,请在评论区留言,我可以再打包一个苹果电脑的app程序。   下载链接 下载解压后如果提示有病毒,不要慌,这不是病毒,这是python程序打包exe文件的通病,可以把杀毒软件临时关闭再解压 另外,该程序需要电脑上安装ffmpeg环境,请在这个链接下载

美剧爱好者福音 Good news for US TV series fans

我是一名美剧爱好者,经常在网上搜刮最新美剧,但有时国内字幕制作组的更新速度跟不上美剧的上新速度,因此经常吃生肉,无奈英语水平不行,还得去网上搜刮英文字幕并机翻,但有时连英文字幕都更新不及时,那就只能干着急了。 我的法宝就是Whisper+沉浸式翻译 Whisper是OpenAI公司的一款开源语音识别大模型,对英文语音的识别相当准确,国外内其实也有很多的这种语音转换平台或工具,但大多要收费,我就注册过剪映的会员,45元一个月,来使用它的语音识别功能,效果还行,但45元还是可以吃两顿饭了,本着能省则省的原则,有免费的,当然要用。 沉浸式翻译,则是一款在线机翻平台,虽然没有自己的核心机翻引擎,但我感觉它应该有个不错的产品经理,还有有一定实力的开发人员,因为他们对用户需求的理解挺到位,你想要的,它都有。 怎么使用呢? 这里还是得提到剪映,原声美剧下下来以后,导入剪映,分离音频 然后导出音频 Whisper是纯命令行的工具,我是使用了Buzz这个带UI的软件来一起使用的 在Buzz里导入刚才剪映导出的MP3文件 简单设置一下参数,或者使用默认的 然后就等待Buzz开始处理 识别所消耗的时间和MP3文件大小,语音的内容有关,识别完毕后,会在MP3文件同级目录下生成一个同名的srt字幕格式文件 然后,把识别生成的srt字幕文件,拖到下面这个宝藏网址里即可:  这是翻译的结果: 然后导出译文或双语字幕即可,是不是很方便。 👍🙌👍🙌👍🙌👍🙌👍🙌👍🙌👍🙌👍

ModernMT介绍以及使用

先放官网地址: ModernMT是一款机器翻译平台,有两个功能使 ModernMT 独一无二: 首先,ModernMT的机器翻译会同时考虑整个文档的内容(或“文档级翻译”,而非单句的翻译)。 其次,ModernMT具有通过实时的人工纠正中学习来不断改进的能力,即Human-In-The-Loop(HITL)。 抛开ModernMT本身机翻质量的好坏不说,单就以上两点,就可以让人眼前一亮了。 传统的机器翻译,不管是基于规则还是基于NMT的,给予相同的一句话,同一款机翻引擎的结果多次翻译也一样,除非引擎的开发者不断训练优化,但ModernMT从一定程度上把这个优化训练的权限给与了使用者,ModernMT可以实现在机翻后,根据译者对这句话的译后编辑情况进行调整。如果ModernMT机翻了一句话,译者对其译文进行修改,在后面翻译类似句段的时候,ModernMT会根据译者译后编辑的情况,调整机翻结果,以适应译者的翻译方式。ModernMT具有从人工校正中学习的功能,能够通过译者提供的MTPE反馈实时改进翻译结果。 ModernMT不仅有网页版,而且提供了CAT的插件,包括Trados,MemoQ和MateCAT。而且针对企业版,ModernMT还提供API,可集成到任何专有或商业软件中。 这是网页版ModernMT机翻界面: Trados插件版本支持Trados 2017,Trados Studio 2019,Trados Studio 2021和最新的Trados Studio 2022. Trados中安装插件后,使用方式如下(Trados Studio 2021),打开“项目设置”,在“翻译记忆库和自动翻译”里,点击ModernMT: 第一次需要填入注册登录后生成的序列号 选择需要使用的TM更新库和参考库(在ModernMT的官网添加)即可,然后就是打开编辑器开始翻译了 当然,ModernMT不是免费的,针对使用者不同的场景,ModernMT提供了企业版和译员版,译员版费用情况如下: 企业版又分为3种价格方案,分比如下: 同时,ModernMT还支持导入用户自己的翻译记忆库(TM),以改进用户的翻译。 这个价格,相对Google NMT甚至DeepL,都不算便宜了,但有其一定亮点,感兴趣的朋友可以试试。

DeepL浏览器插件,网页翻译利器

前段时间谷歌宣布,因为使用率低,停止向中国用户提供翻译服务,这给部分需要访问外语网站的国内用户带来了不少的困扰。 不过,这种解决方法用了一段时间就不行了。 好在机器翻译里,还有一款叫DeepL。 DeepL来自德国的一家机器翻译研究机构,被誉为全世界最精准的机器翻译,相比谷歌翻译来说,它可以将一段文字翻译得更贴近生活,便于我们理解及阅读,甚至是一些方言古诗名言警句,都可以将其几乎没有语病得翻译出来。 对于译文是中文的情况,就个人经验来看,DeepL是继搜狗,谷歌之后的不二选择。 搜狗今年初停掉了API服务,但在其网站还是可以进行文字和文档的免费翻译,而谷歌,已经是彻底无法访问了。DeepL相比其它机翻引擎,如果使用其付费翻译服务,其价格会更贵一些,好在DeepL也免费翻译服务。 而且在前段时间谷歌停掉了国内的机翻服务后,DeepL见势及时推出了DeepL在微软Edge和谷歌Chrome的浏览器插件:DeepL翻译,下面就给大家介绍一下这一插件(不讲DeepL的翻译质量,只说该插件如何获取以及怎么使用)。 DeepL翻译是一款浏览器插件,目前支持微软Edge和谷歌Chrome,后期会支持Mozilla的Firefox和苹果Safari浏览器,在微软Edge应用商店和谷歌Chome应用商店展示分别如下: Microsoft Edge 谷歌Chrome 对于微软Edge用户,请直接访问如下地址: 对于谷歌Chrome用户,则需要梯子才能获取了,下面附上链接: 在各自的应用商店里,点击获取或Add to Chrome按钮即可 Edge Chrome 并在弹出的确认对话框中,点击Add Extension按钮 Edge Chrome 安装完毕后,按照提示,将DeepL的插件按钮显示在浏览器工具栏(此操作可选) Edge Chrome 然后在工具栏点击DeepL图标,弹出DeepL参数设置窗口,将目标语言设置为中文即可(Chrome和Edge操作完全相同) 然后,关掉浏览器,再重新打开,就可以开始使用DeepL翻译了,对于选中网页文字的翻译,DeepL是免费的,如果需要整页翻译,则需要成为DeepL的Pro用户才行。 具体使用参照如下操作即可。 另外,在弹出的翻译结果窗口中,用户还可以点击喇叭按钮听原文或译文的发音,拷贝译文,以及将此翻译结果窗口显示在选中文字的哪个位置。 总的说来,DeepL翻译插件,使用简单,和之前Chrome的谷歌翻译插件用法基本一致,缺点在于不能像谷歌翻译插件进行整页翻译(整页翻译需要付费,有30天免费试用期),但好处是可以按段,甚至多段选中后进行翻译。 之前的谷歌翻译插件,通常只能一句一句选中后进行翻译(以句为单位进行翻译) 选中多段或多个句子,谷歌翻译插件的图标不会弹出

火爆全网的ChatGPT,会给语言行业带来什么?

2022年11月30日,美国人工智能研究实验室OpenAI发布了人工智能技术驱动的自然语言处理工具ChatGPT,在上线短短两个月时间里,就已经超过了一亿用户注册,要知道,火爆一时的短视频客户端Tiktok达到这一用户数,也花费了整整7个月。那么ChatGPT到底是什么? 简单来说ChatGPT就是可以基于用户文本输入自动生成回答的人工智能聊天机器人,既然能自动生成问答,加之目前神经网络机器翻译也呈现蓬勃增长和翻译能力不断提升的趋势,那么,结合ChatGPT和神经网络机器翻译,对于语言行业,会带来什么样的影响呢? 很有意思的是,我以这个为问题,让ChatGPT自己思考并回答一下,他会给语言行业带来什么。 这是我和ChatGPT的对话: 然后我还让ChatGPT把他提供的内容翻译成中文: 感觉其译文和搜狗翻译的中文不相上下: 译文看上去还行,不过据说经过翻译专业人士的评估,ChatGPT的机翻功能,比DeepL和Google翻译还是差那么一大截。当然,机器翻译不是我们本次关注的重点,而且ChatGPT重点也不在于机器翻译,至少目前不是。就像名字中自带的Chat来说,他的作用,更多的是在于理解并思考人们提出的问题,并以人类能理解的方式进行回答。 对于语言行业,ChatGPT自己认为,他会在于客户沟通,开拓市场,进行营销活动中辅佐人们。个人觉得ChatGPT实在是太过于谦逊了。而且这个回答,对于语言工作者来说,还是比较笼统,没有重点。 不同的回答取决于不同的问题,如果再把问题具体一些,就能从他那里得到不同的结果,比如下面: 搜狗翻译成的中文: 把语言行业改成了翻译流程,这样就可以缩小范围,让ChatGPT在一个相对更加具体的问题中去寻找答案,给出结果。这次的回答,感觉更加清晰具体了很多,更加的接地气了。 在这里,译前准备中的术语识别,译中质量保证,译后编辑等工作,这些非常贴近实际的翻译场景,ChatGPT能敏锐的觉察到,而且目前各类机翻引擎虽然层出不穷,但对于翻译熟悉的人来说,很多译文,一眼便能看出有机翻的痕迹,ChatGPT这种“能说会道”的选手,用来做机翻译文润色,把常规机翻的译文,再通过ChatGPT进行一次加工,译文的质量应该会有明显的提升。而且,ChatGPT对于原文,不像传统机器翻译那样,按句子来进行识别和翻译,而是理解整段甚至整篇文章后,得出综合性得回答。这点,有点类似之前介绍过的ModernMT,不知道ChatGPT和ModernMT结合起来,是怎样的一番场景。

谷歌杀入TMS市场?Google Translation Hub 介绍

本站试用了一下Google Translation Hub(以下简称TH),对于谷歌云服务体系不熟悉的人来说,可以说是开始即放弃,和传统我们理解的云翻译平台(国内如tmxmall、译马、数译等,国外如memsource、smartcat、wordbee等)不同的是,谷歌由于提供的云服务众多,因此在配置账号,结算模式等方式时,稍微有些复杂,如果你使用过AWS或国内的阿里云的产品,可能理解起来会稍微容易些。同时由于TH不支持国内用户,因此在选择这个TH服务时,只能使用国外的银行卡,这个又会夯退一大波国内的用户群体。 具体的使用方法说明在TH的介绍页上已经说的比较详细了,感觉是这个功能对海外的用户群体更多的还是属于企业类客户,个人使用上手配置难度比较高,而且术语库,语料库这些功能对于个人用户还是不常用。就价格来说,即使使用基本版,单页0.15美元的价格,要知道谷歌自己的机翻API,可以翻译文档的高级版,也就8美分一页;而支持术语和语料并能MTPE的高级版,更是高到了0.5美元一页,价格不菲,外部文件格式只支持office的docx、pptx和pdf,内部文件只有谷歌文档,支持的文档格式太少,也是一个问题。 不过谷歌既然推出了这个产品,相信还是做过一定的调研的,后期如果要加入更多的功能,以谷歌的技术实力和经济示例,自然不在话下,谷歌到底瞄准的是什么市场,让我们拭目以待吧! 先看看Google Translation Hub的界面 使用的高级版(0.5美元版只能机翻加导出译文,不支持译后编辑)  上传翻译文档界面  机器翻译结果页面  TH的MTPE在线编辑器,目前来看还是很简陋,不过已经支持tag标记了,而且每个句段也有相应的MTQP得分  下文机翻自谷歌Translation Hub官网 Translation Hub 是一种自助式文档翻译服务,适用于将大量文档翻译为多种不同语言的组织。它是一种全代管式解决方案,您无需构建或维护自己的 Web 应用或底层基础架构。完成初始设置后,您便可以开始使用 Translation Hub 以经济实惠的价格获得快速、可扩缩的文档翻译。在后台,Translation Hub 会利用 Google 的 Cloud Translation API 和 AutoML Translation,因此您可以重复使用您使用这些服务创建的所有资产,例如术语库和自定义翻译模型。 Translation Hub 的工作原理是什么? 对于每个翻译请求,Translation Hub 会对文档执行机器翻译,同时保留文档的布局和格式。您可以添加审校步骤,以便主题专家(译者)可以审校和编辑机器翻译内容。 Translation Hub 旨在满足翻译工作流各环节不同角色的需求。例如,管理员可以使用 Google Cloud 控制台设置门户并添加用户。然后,业务用户可以登录门户以申请翻译。如需了解详情,请参阅用户角色和责任以及工作流概览。 优势 以下优势强调了 Translation Hub 如何帮助您提高翻译工作负载的整体效率: 自助翻译 与传统的翻译管理系统相比,Translation Hub 仅在几秒钟内即可提供自动文档翻译。您还可以添加后期编辑步骤,让人工审校者编辑翻译后的文档。通过自动化翻译体验的各个部分,同时集成人工编辑功能,Translation Hub 可提供快速、一致的翻译周转时间。 文档翻译 您可以直接翻译 PDF 和 DOCX 文件等文档。Translation Hub 会保留原始文档的布局和格式,使翻译后的文档与原始文档具有相同的外观和风格。例如,原始文档中的段落分隔符和标题会被保留。 简化用户体验和管理 Translation Hub 是一项全代管式服务,您无需使用 API 即可构建自己的 Web 应用或预配底层基础架构。管理员只需创建门户,然后业务用户即可立即登录并开始申请翻译。业务用户可以使用自己的凭据登录。您无需向他们提供 Google Cloud 凭据。 借助 Cloud 控制台,管理员可以管理谁有权访问哪些门户。对于每个门户,管理员还可以选择用户可以使用哪些翻译资产。 可重复使用的工作负载和持续改进 若要提高未来翻译的质量和效率,您可以使用翻译记忆库。您可以导入现有翻译。翻译记忆库是您拥有的资源,不会与其他任何人共享。 基于页面的简单明确价格 Translation Hub 会根据翻译页面的数量向您收取费用。没有隐藏的额外费用。 示例用例 以下用例介绍了如何在实际场景中使用 Translation Hub 及其功能。 大型文档集和多语言要求 作为以各种语言发布公共安全信息的政府实体,您每年可能会对文档的部分内容进行修订。由于周转时间和潜在的高成本,您可能需要考虑优先选择哪些语言进行翻译,因为您没有足够的预算来支持所有需要的语言。 幸运的是,Translation Hub 可通过基于页面的简单、经济实惠价格,为 100 多种语言提供自助翻译。随着您不断翻译和审校文档,您可以使用翻译记忆库来保存人工审校的翻译,这样您可以在以后的文档中重复使用之前经过人工审核的翻译。然后,专家可以花费更多时间来处理新的和更改的内容,而不是重新检查和编辑之前翻译的内容。 价格层级 Translation Hub 提供基本和高级价格层级,其中高级层级以更高的每页翻译费用提供更多的功能。创建门户时,您可以在门户级别设置价格层级。您无法更改门户的价格层级,但可以随时创建其他门户。价格如下:   工作流概览 下图描述了从新手入门用户到查看最终翻译结果的完整端到端流程。它旨在帮助您了解在翻译作业的每个阶段的负责人员以及具体的职责。 Translation Hub 将职责分为以下角色:管理员、企业用户和译者。每个角色可以在各自的界面 (UI) 中执行特定的操作。如需了解详情,请参阅用户角色和责任。 管理员创建门户并分配可以访问每个门户的企业用户。他们可以选择向门户分配翻译资源,例如术语表、翻译记忆库和自定义翻译模型。 对于后期编辑流程(仅限高级层级),管理员还可以创建译者群组并添加译者。然后,企业用户可以向其中一个译者群组发送后期编辑请求。 企业用户登录门户并翻译文档。如果任何翻译资源分配给门户,则企业用户可以在请求翻译时使用它们。企业用户提交请求后,Translation Hub 会执行机器翻译并返回结果。 企业用户可以比较原始内容和翻译后的内容,然后下载或导出结果。 对于高级层级门户,企业用户可以将翻译后的结果发送给特定的译者群组进行后期编辑(实验性)。 该译者群组中的所有译者都会收到传入请求通知,但只有第一个查看请求的译者可以审校和编辑内容。译者只能编辑翻译后的内容。 后期编辑完成后,企业用户可以下载或导出最终结果。