1.Git-10M数据集是一个包含1000万对图像与文本描述的全球遥感数据集,实现了真正意义上的全球覆盖。
2.该数据集涵盖丰富多样的地理场景,具有多分辨率特性,为模型的分辨率控制能力提供全面支持。
3.数据集来源包括公开数据集和手动收集,经过严格的筛选和增强处理,提升数据质量。
4.为此,Git-10M数据集采用了先进的自动化注释流程,使用GPT-4o模型自动生成高质量的图像文本描述。
5.通过多方面的分析与考量,Git-10M数据集在数据分布、质量和文本描述等方面都展现出卓越的性能。
以上内容由腾讯混元大模型生成,仅供参考
始智AI wisemodel.cn开源社区
Git-10M 是一个包含 1000 万对图像与文本描述 的全球遥感数据集。
数据规模是现有最大的遥感图像-文本数据集的 5 倍(如 RS5M 数据集仅包含 200 万对数据)。
在遥感数据集的评估体系中,多样性是衡量其价值的重要维度。丰富多样的数据能够让模型学习到更广泛的特征与模式,提升模型在复杂真实场景下的适应性与泛化能力。然而,大多数传统遥感数据集在多样性方面存在短板,限制了模型对各类地理环境和场景的全面理解与准确分析。Git-10M数据集在这方面取得了重大突破。
涵盖全球范围内的典型地理场景,如 城市、森林、沙漠、山地、湿地等。
包括不同的地理分布和自然特征,增强了数据的空间覆盖性和内容丰富性。
高分辨率图像(如 0.5m/pixel):用于精细特征的捕捉。
低分辨率图像(如 128m/pixel):适用于大范围场景的宏观生成。
1.4 元数据支持
在遥感数据的实际应用中,仅仅依靠图像本身往往难以满足复杂的分析与建模需求。额外的元数据对于深入挖掘图像价值、提升生成图像的精度起着关键作用。
Git-10M数据集在这一方面表现出色,为用户提供了全面的元数据支持。该数据集中的每张图像,都精准附带了地理位置和分辨率信息。地理位置信息详细到经纬度坐标,能精确指出图像对应的地球表面位置,无论是繁华都市、偏远山区还是广袤海洋,都能实现精准定位。
分辨率信息明确标注了图像每个像素所对应的实际地面尺寸,从高分辨率到低分辨率的详细记录,让使用者对图像的精细程度和覆盖范围一目了然。
Million-AID,在灾害监测与应急响应领域有着丰富的数据积累,其图像对于研究各类自然灾害对地表的影响具有极高价值。
GeoPile,聚焦于地理信息的深度挖掘,提供了大量不同地貌特征的图像数据,为地质研究等方向提供有力支撑。
SSL4EO-S12,在多光谱遥感数据方面表现出色,其图像涵盖多种光谱信息,能助力对地表物体的精细分类和分析。
SkyScript,侧重于对天空与地表综合场景的记录,数据覆盖范围广泛,包含众多复杂地形和环境下的遥感影像。
DIOR,作为经典的目标检测遥感数据集,在目标识别和分类上有大量标注数据,可用于训练和优化相关模型。
RSICB,在图像分类和场景理解方面的数据丰富,为提升模型对不同场景的认知能力提供了有效数据支持。通过整合这些优质公开数据集。
2.2 手动收集
在丰富Git-10M数据集的过程中,手动收集工作发挥了不可或缺的作用。尽管公开数据集已具备一定规模与多样性,但仍存在地理场景覆盖的盲区。
为此,研究团队开展了大量的手动收集工作,其中大部分数据来自从Google Earth手动获取的遥感图像。Google Earth凭借其广泛的全球覆盖范围和高分辨率成像能力,成为了关键的数据来源。
研究团队通过细致筛选与甄别,从海量的卫星影像中提取出特定区域、特定地貌特征的图像,这些图像有效补充了现有公开数据集中未覆盖的地理场景。
在构建高质量的Git-10M数据集时,筛选环节至关重要,直接关系到数据的可用性和研究价值。由于原始数据来源广泛,包含了从公开数据集收集以及手动获取的大量遥感图像,数据质量参差不齐,且存在地理分布不均衡等问题。为了打造出一个优质且具代表性的数据集,必须对原始数据进行严格筛选。
一方面,去除了重复场景(如大面积的海洋图像),以提高地理分布的多样性。
另一方面,手动剔除低质量数据,如受噪声或伪影影响的图像。
经过严格的筛选后,为进一步挖掘数据价值,充分发挥数据在模型训练中的作用,对数据进行增强处理成为重要的一环。Git-10M数据集致力于为科研与应用提供顶级的数据支撑,因此:
对所有图像进行质量增强。
使用预训练的高质量遥感图像增强模型,提升图像视觉效果和整体数据质量。
在构建丰富且全面的Git-10M数据集时,为每一幅图像匹配准确、详细的文本描述是一项关键任务。传统手动注释方式不仅耗时费力,效率低下,而且在大规模数据集上难以保证注释的一致性和全面性。随着人工智能技术的飞速发展,自动化注释成为高效处理海量图像的新途径。为了给数据集中的1000万对图像赋予高质量文本描述,Git-10M数据集采用了先进的自动化注释流程。
使用 GPT-4o 模型自动生成高质量的图像文本描述。
通过场景标签(如“机场”)和元数据(如地理位置和分辨率)优化提示词,提高描述的精准性。
在Git-10M数据集的自动化注释流程中,虽然GPT-4o模型配合优化后的提示词能够高效生成图像文本描述,但为确保最终数据质量万无一失,严格的质量保证机制必不可少。
自动审计:检测 GPT-4o 的超时或错误响应。 手动抽样:定期检查文本描述的语义准确性,并针对问题样本调整提示词后重新生成。
为深入了解Git-10M数据集中文本描述的丰富程度与规模,我们对其进行了全面的文本统计分析。在这个包含海量图像文本对的数据集里,文本描述作为图像信息的重要补充,其质量和数量都直接影响着数据集的价值。
平均每条描述包含 52 个词汇。
数据集中总计超过 1050 万条文本描述 和 55 亿个词汇。
地理分布:图像覆盖全球范围,包括所有大洲的城市、自然景观和农业场景,确保数据的代表性和多样性。 分辨率分布:包括从高分辨率(0.5m/pixel)到低分辨率(128m/pixel)图像的广泛分布,适应不同的生成任务需求。 图像质量评估:使用审美评分模型评估图像增强前后的质量。增强后的图像质量显著提升,适合作为高可靠性的训练数据。 文本丰富性:通过词云和长度分布分析,文本覆盖了多样化的概念和地物,表明其在语义上的广泛性和细致性。
关于wisemodel更多