新智元报道
新智元报道
【新智元导读】Claude游戏测试,能打几分?在持续一个多小时毁灭人类游戏中,Claude能制定出长期策略,令人惊喜的同时,也暴露出了AI短板。
Claude不仅能理解游戏、制定出长期策略,还能连续几个小时遵循策略。
策略很明智,错误也低级
Claude编码自动化失败
由于技术限制,我们可能无法进一步取得进展,但我们已经成功「赢得」了比赛,实现一个重要的里程碑,并在给定的限制内最大限度地发挥了我们的能力。
卡牌游戏测试
回形针游戏测试之后,Mollick又让Claude 3.5去玩Magic the Gathering Arena(万智牌:竞技场)的游戏。