客户端
游戏
无障碍

1

评论

1

2

手机看

微信扫一扫,随时随地看

基于豆包大模型,字节推AI同声传译工具,比科大讯飞还能打

作者子川

来源AI先锋官


同声传译是ai的一个重大场景。但是呢!传统同声传译工具总是会出现高延时和翻译质量不行等问题。

造成这种情况的罪魁祸首主要原因就是传统同声传译软通常“错误传播”以及“被低延时受限”。


所以就变得不太好用(但凡好用,早就翻译人员的什么事了)。


对此,字节跳动推出CLASI工具。 

CLASI 采用了端到端的架构,所以不会出现错误传播的问题,同时还搭载着豆包,从而获得外部知识进行翻译根据测试,CLASI 已经达到口译人员的水准。


确定翻译比德芙还丝滑吗?(答案:有滴)


下面让我们来看一下视频。


三个小伙伴在聊健身,翻译的非常顺滑。

Thumbplayer Poster Plugin Image
播放
下一个
打开循环播放
00:00
/
00:00
倍速
3.0X
2.0X
1.5X
1.25X
1.0X
0.75X
0.5X
语言
多音轨
AirPlay
0
静音播放中,点击 恢复音量
画中画
网页全屏
全屏
error-background
你可以 刷新 试试
视频信息
1.33.6
播放信息 上传日志
视频ID
VID
-
播放流水
Flowid
-
播放内核
Kernel
-
显示器信息
Res
-
帧数
-
缓冲健康度
-
网络活动
net
-
视频分辨率
-
编码
Codec
-
mystery
mystery
-

按住画面移动小窗

X

不仅如此,还可以翻译文言文,这操作就有点意思了。


Thumbplayer Poster Plugin Image
播放
下一个
打开循环播放
00:00
/
00:00
倍速
3.0X
2.0X
1.5X
1.25X
1.0X
0.75X
0.5X
语言
多音轨
AirPlay
0
静音播放中,点击 恢复音量
画中画
网页全屏
全屏
error-background
你可以 刷新 试试
视频信息
1.33.6
播放信息 上传日志
视频ID
VID
-
播放流水
Flowid
-
播放内核
Kernel
-
显示器信息
Res
-
帧数
-
缓冲健康度
-
网络活动
net
-
视频分辨率
-
编码
Codec
-
mystery
mystery
-

按住画面移动小窗

X

还可以翻译绕口令,这翻译居然没有打结。


Thumbplayer Poster Plugin Image
播放
下一个
打开循环播放
00:00
/
00:00
倍速
3.0X
2.0X
1.5X
1.25X
1.0X
0.75X
0.5X
语言
多音轨
AirPlay
0
静音播放中,点击 恢复音量
画中画
网页全屏
全屏
error-background
你可以 刷新 试试
视频信息
1.33.6
播放信息 上传日志
视频ID
VID
-
播放流水
Flowid
-
播放内核
Kernel
-
显示器信息
Res
-
帧数
-
缓冲健康度
-
网络活动
net
-
视频分辨率
-
编码
Codec
-
mystery
mystery
-

按住画面移动小窗

X

从视频的演示效果来看,CLASI不仅做到了实时翻译,速度更是一绝。同时还具备强大的语音理解能力,不仅能翻译文言文,还能翻译绕口令。(这已经比肩很多口译工作者了)


还有一个重要的点,不知道大家发现没?


图片


那就是CLASI还具备上下文记忆功能,能够记住之前的对话,和真的口译人员一样。这可是传统同声传译所不具备的。


在上述已经展现出CLAS的强大,但是我们再用同行的同声传译工具做一下对比。


Thumbplayer Poster Plugin Image
播放
下一个
打开循环播放
00:00
/
00:00
倍速
3.0X
2.0X
1.5X
1.25X
1.0X
0.75X
0.5X
语言
多音轨
AirPlay
0
静音播放中,点击 恢复音量
画中画
网页全屏
全屏
error-background
你可以 刷新 试试
视频信息
1.33.6
播放信息 上传日志
视频ID
VID
-
播放流水
Flowid
-
播放内核
Kernel
-
显示器信息
Res
-
帧数
-
缓冲健康度
-
网络活动
net
-
视频分辨率
-
编码
Codec
-
mystery
mystery
-

按住画面移动小窗

X

Thumbplayer Poster Plugin Image
播放
下一个
打开循环播放
00:00
/
00:00
倍速
3.0X
2.0X
1.5X
1.25X
1.0X
0.75X
0.5X
语言
多音轨
AirPlay
0
静音播放中,点击 恢复音量
画中画
网页全屏
全屏
error-background
你可以 刷新 试试
视频信息
1.33.6
播放信息 上传日志
视频ID
VID
-
播放流水
Flowid
-
播放内核
Kernel
-
显示器信息
Res
-
帧数
-
缓冲健康度
-
网络活动
net
-
视频分辨率
-
编码
Codec
-
mystery
mystery
-

按住画面移动小窗

X

上述视频都是官网的,小编在这里顺便准备了讯飞互传来做一下对比。


为什么不用其他的对比?因为就讯飞互传有免费额度(主打的就是白嫖)。


Thumbplayer Poster Plugin Image
播放
下一个
打开循环播放
00:00
/
00:00
倍速
3.0X
2.0X
1.5X
1.25X
1.0X
0.75X
0.5X
语言
多音轨
AirPlay
0
静音播放中,点击 恢复音量
画中画
网页全屏
全屏
error-background
你可以 刷新 试试
视频信息
1.33.6
播放信息 上传日志
视频ID
VID
-
播放流水
Flowid
-
播放内核
Kernel
-
显示器信息
Res
-
帧数
-
缓冲健康度
-
网络活动
net
-
视频分辨率
-
编码
Codec
-
mystery
mystery
-

按住画面移动小窗

X

无论是官网的视频还是讯飞互传,个人都觉得CLASL会·更胜一筹。


虽然在这次的报告中没有会议部分的演示,但是会议场景翻译作为CLASL的老本行,相信同样也会给我们很大的惊喜。


同时研究人员在中英和英中翻译中,叫了不同专业同传译员,使用翻译有效性为指标。


结果呢!


CLASI系统不仅跑赢了所有商业和开源的SOTA系统,某些时候,它的表现甚至超越了专业的口译人员,要知道人类同传的平均分大概也就80%。


图片

CLASI为何会如此厉害呢?

那就让我们来细看一下CLASI模型的系统架构。


系统框架:


CLASI系统采用基于大型语言模型(LLM)的智能体架构,将同声传译细化为一系列有序的步骤:音频输入、信息检索(可选)、记忆读取、记忆更新和结果输出。这流程都是由智能体自行,不仅优化了翻译速度与准确性的平衡,而且系统设计灵活,可根据需求进行相应的调整,确保信息传递更加效率和翻译的的准确。底层模型是一个经过大量数据训练的条件化编码器模型(Encoder-conditioned LLM),同时也CLASI提供了强大的语言处理能力。


图片

总的来说,CLASI系统的出现使得翻译的质量提升了一个档次,而且在人工评估中,CLASI 的表现优于现有的自动同声传译系统的性能,几乎达到人类同传的水平。这也意味着未来可能口译人员也会失业。


上述内容为研究论文,目前还没有成品,所以是金子还是银子我们就不得而知了,但是至少CLASI的出现也说明了人工智能在同声传译领域取得重大进展。


 .END.
往期文章回顾
免责声明:本内容来自腾讯平台创作者,不代表腾讯新闻或腾讯网的观点和立场。
举报
00:34
8090后泪目!奇迹MU端游复刻,3月15日登录送卓越套装
广告奇迹MU怀旧版
了解详情
评论 0文明上网理性发言,请遵守《新闻评论服务协议》
请先登录后发表评论~
查看全部0条评论
首页
刷新
反馈
顶部