+关注

手机看

微信扫一扫，随时随地看

基于豆包大模型，字节推AI同声传译工具，比科大讯飞还能打

AI先锋官官方

2024-08-08 20:46发布于北京

+关注

作者｜子川

来源｜AI先锋官

同声传译是ai的一个重大场景。但是呢！传统同声传译工具总是会出现高延时和翻译质量不行等问题。

造成这种情况的罪魁祸首主要原因就是传统同声传译软通常“错误传播”以及“被低延时受限”。

所以就变得不太好用(但凡好用，早就翻译人员的什么事了）。

对此，字节跳动推出CLASI工具。

CLASI 采用了端到端的架构，所以不会出现错误传播的问题，同时还搭载着豆包，从而获得外部知识进行翻译。根据测试，CLASI 已经达到口译人员的水准。

确定翻译比德芙还丝滑吗？（答案：有滴）

下面让我们来看一下视频。

三个小伙伴在聊健身，翻译的非常顺滑。

，

00:00

倍速

3.0X

2.0X

1.5X

1.25X

1.0X

0.75X

0.5X

语言

多音轨

静音播放中，点击恢复音量

你可以刷新试试

视频信息

1.33.6

播放信息上传日志

视频ID

VID

播放流水

Flowid

播放内核

Kernel

显示器信息

Res

帧数

缓冲健康度

网络活动

net

视频分辨率

编码

Codec

mystery

按住画面移动小窗

不仅如此，还可以翻译文言文，这操作就有点意思了。

00:00

倍速

3.0X

2.0X

1.5X

1.25X

1.0X

0.75X

0.5X

语言

多音轨

静音播放中，点击恢复音量

你可以刷新试试

视频信息

1.33.6

播放信息上传日志

视频ID

VID

播放流水

Flowid

播放内核

Kernel

显示器信息

Res

帧数

缓冲健康度

网络活动

net

视频分辨率

编码

Codec

mystery

按住画面移动小窗

还可以翻译绕口令，这翻译居然没有打结。

00:00

倍速

3.0X

2.0X

1.5X

1.25X

1.0X

0.75X

0.5X

语言

多音轨

静音播放中，点击恢复音量

你可以刷新试试

视频信息

1.33.6

播放信息上传日志

视频ID

VID

播放流水

Flowid

播放内核

Kernel

显示器信息

Res

帧数

缓冲健康度

网络活动

net

视频分辨率

编码

Codec

mystery

按住画面移动小窗

从视频的演示效果来看，CLASI不仅做到了实时翻译，速度更是一绝。同时还具备强大的语音理解能力，不仅能翻译文言文，还能翻译绕口令。(这已经比肩很多口译工作者了）

还有一个重要的点，不知道大家发现没？

那就是CLASI还具备上下文记忆功能，能够记住之前的对话，和真的口译人员一样。这可是传统同声传译所不具备的。

在上述已经展现出CLAS的强大，但是我们再用同行的同声传译工具做一下对比。

00:00

倍速

3.0X

2.0X

1.5X

1.25X

1.0X

0.75X

0.5X

语言

多音轨

静音播放中，点击恢复音量

你可以刷新试试

视频信息

1.33.6

播放信息上传日志

视频ID

VID

播放流水

Flowid

播放内核

Kernel

显示器信息

Res

帧数

缓冲健康度

网络活动

net

视频分辨率

编码

Codec

mystery

按住画面移动小窗

00:00

倍速

3.0X

2.0X

1.5X

1.25X

1.0X

0.75X

0.5X

语言

多音轨

静音播放中，点击恢复音量

你可以刷新试试

视频信息

1.33.6

播放信息上传日志

视频ID

VID

播放流水

Flowid

播放内核

Kernel

显示器信息

Res

帧数

缓冲健康度

网络活动

net

视频分辨率

编码

Codec

mystery

按住画面移动小窗

上述视频都是官网的，小编在这里顺便准备了讯飞互传来做一下对比。

为什么不用其他的对比？因为就讯飞互传有免费额度（主打的就是白嫖）。

00:00

倍速

3.0X

2.0X

1.5X

1.25X

1.0X

0.75X

0.5X

语言

多音轨

静音播放中，点击恢复音量

你可以刷新试试

视频信息

1.33.6

播放信息上传日志

视频ID

VID

播放流水

Flowid

播放内核

Kernel

显示器信息

Res

帧数

缓冲健康度

网络活动

net

视频分辨率

编码

Codec

mystery

按住画面移动小窗

无论是官网的视频还是讯飞互传，个人都觉得CLASL会·更胜一筹。

虽然在这次的报告中没有会议部分的演示，但是会议场景翻译作为CLASL的老本行，相信同样也会给我们很大的惊喜。

同时研究人员在中英和英中翻译中，叫了不同专业同传译员，使用翻译有效性为指标。

结果呢！

CLASI系统不仅跑赢了所有商业和开源的SOTA系统，某些时候，它的表现甚至超越了专业的口译人员，要知道人类同传的平均分大概也就80%。

CLASI为何会如此厉害呢？

那就让我们来细看一下CLASI模型的系统架构。

系统框架：

CLASI系统采用基于大型语言模型（LLM）的智能体架构，将同声传译细化为一系列有序的步骤：音频输入、信息检索（可选）、记忆读取、记忆更新和结果输出。这流程都是由智能体自行，不仅优化了翻译速度与准确性的平衡，而且系统设计灵活，可根据需求进行相应的调整，确保信息传递更加效率和翻译的的准确。底层模型是一个经过大量数据训练的条件化编码器模型（Encoder-conditioned LLM），同时也CLASI提供了强大的语言处理能力。

总的来说，CLASI系统的出现使得翻译的质量提升了一个档次，而且在人工评估中，CLASI 的表现优于现有的自动同声传译系统的性能，几乎达到人类同传的水平。这也意味着未来可能口译人员也会失业。

上述内容为研究论文，目前还没有成品，所以是金子还是银子我们就不得而知了，但是至少CLASI的出现也说明了人工智能在同声传译领域取得重大进展。

.END.

往期文章回顾

免责声明：本内容来自腾讯平台创作者，不代表腾讯新闻或腾讯网的观点和立场。