机器之心报道
2024年,我们居然进步这么大。
GPT-4 垄断被全面打破 一些 GPT-4 级模型可以在笔记本电脑上运行 由于竞争和优化,大模型服务的价格崩盘 多模态视觉已经变得常见,音频和视频模型开始出现 语音和实时摄像头模式正从科幻小说变成现实 一个提示词做出一个 APP,已经很普遍了 对最佳模型的普遍访问仅持续了短短几个月 AI 「智能体」可能还有点远 评估真的很重要 Apple Intelligence 很糟糕,但 MLX 库很出色 正在崛起的「推理」模型 目前最好的 LLM 来自中国,训练成本不到 600 万美元? 环境影响变好了,但也在变得越来越严重 合成训练数据效果很好 LLM 不知何故变得更难用了 知识分布不均匀 LLM 需要更好的批评
260×68,000 = 17,680,000 个输入 token 17,680,000×0.0375 美元 / 百万 = 0.66 美元 100×68,000 = 6,800,000 个输出 token 6,800,000×0.15 美元 / 百万 = 1.02 美元
llm -m gemini-1.5-flash-8b-latest describe -a IMG_1825.jpeg
一个浅盘,可能是蜂鸟或蝴蝶喂食器,是红色的。盘内可见橙色水果片。喂食器中有两只蝴蝶,一只深棕色/黑色蝴蝶,带有白色/奶油色斑纹。另一只大号棕色蝴蝶,带有浅棕色、米色和黑色斑纹,包括明显的眼斑。较大的棕色蝴蝶似乎正在吃水果。
文档链接:https://lite.datasette.io/?json=https://gist.github.com/simonw/bdc7b894eedcfd54f0a2422ea8feaa80#/data/raw
系统提示背后那个无聊但至关重要的秘密就是用测试驱动开发。你不是先写一个系统提示,然后再想办法测试它,而是先写好测试,然后找到一个能通过这些测试的系统提示。
当 @v0 刚推出时,我们非常担心要用各种预处理和后处理的复杂操作来保护提示。
于是我们彻底转变思路,给了它充分的发挥空间。但很快就发现:没有评估标准、没有模型指导、更没有用户体验的提示,就像拿到一台没说明书的 ASML 机器 —— 就算再先进,也无从下手。
实时观察「泔水」如何成为一个艺术术语。就像「垃圾邮件」成为不受欢迎电子邮件的专有名词一样,「泔水」也将作为人工智能生成的不受欢迎内容的专有名词被载入字典。
「泔水」指的是人工智能生成的未经请求和审查的内容。
社会需要简明扼要的方式来谈论现代人工智能,无论是正面的还是负面的。「忽略那封邮件,它是垃圾邮件 」和「忽略那篇文章,它是泔水」都是有用的教训。
查看原图 1.33M