1.研究发现,AI模型在识别地理信息方面表现出色,准确率比人类高62.6%。
2.然而,AI模型仍然存在偏差问题,如偏向知名城市、跨区域准确率差异以及与发展水平的虚假关联。
3.通过分析不同模型的预测结果,研究人员发现视觉语言模型在解读城市环境时可能存在的区域偏见。
4.尽管思维链推理看似合乎逻辑,但往往无法准确地确定具体位置。
5.未来需关注AI模型的偏差和隐私问题,以确保其在实际应用中的可靠性。
以上内容由腾讯混元大模型生成,仅供参考
新智元报道
新智元报道
【新智元导读】给AI一张全新的照片,它能以相当高的准确率猜出照片在哪个城市拍摄的。在新研究中,表现最好的AI模型,猜出图片所在城市的正确率比人类高62.6%!以后网上晒图可要当心了,AI可能知道你在哪里!
AI轻松击败人类!
论文链接:https://arxiv.org/abs/2502.11163
三大偏差
对视觉语言模型(VLMs)从图像中识别地理信息的能力,早有研究,但对偏差问题缺乏足够的关注。
模型指令与提示词
为了指导视觉语言模型(VLMs)更好地完成地理定位任务,借鉴了GeoGuessr游戏玩家常用的策略。
实验过程
使用FAIRLOCATOR框架,专注于解决两个关键研究问题:
深度评估
广度评估
是否存在数据泄露?
是否存在虚假相关性?
城市景观风格
除了特定特征之外,研究人员还研究了图像的整体风格是如何影响预测结果的。