Grab 利用 GenAI 技术增强了数据发现工具 Hubble 的新功能,解决了在二十多万张表中寻找有价值数据的难题。该公司通过集成大语言模型进行数据集文档生成,减少了数据发现的流程,还搭建了一个 Slack bot,为数据消费者带来有效的数据发现。
Grab 在他们庞大的数据湖、Kafka 数据流、生产数据库和机器学习功能之间管理着许多的分析数据集。一直以来,开发基于数据的新产品团队想要为新用例找到最为合适的数据集都是项挑战。公司发现,合适数据集的搜索总是困难重重,有 18% 的搜索都是在没有查看搜索结果的情况下就放弃了。数据消费者是主要依赖于部落知识,而数据发现往往要花费数天的时间:
Grab 的首席产品经理 Shreyas Parbat 分享了团队对改善数据发现的远景:
考虑到过往历史,我们的愿景非常明确:通过大语言模型为驱动的产品实现整体流程的自动化,消除数据发现环节中的人为因素。我们的目标是将数据发现所需的时间从以天为单位缩短到秒为单位,让人人都能学会数据发现。
Hubble 是建立在 Datahub 平台上的内部的数据发现工具,其背后的团队决定斥巨资提高数据发现流程的效率。他们从 ElasticSearch 表的元数据和数据湖表的文档覆盖率开始着手,后者最初只有 20% 的覆盖率。
工程师通过对用户的采访明白了要如何调整 ElasticSearch。他们隐藏了不相关的表、删除了已废弃的表、增强了按相关度排序的模式和认证表,还添加了相关标签并改善了搜索界面 UI,从而让搜索的点击率提高了 12%。
团队还利用 GPT-4 根据表模式和样本数据生成文档,这套新的解决方案是和 Hubble UI 集成的,让数据生产者能够轻松地创建表格的文档或者定制 GenAI 的文档生成。最终,文档的覆盖率被提升到了 90%,有 95% 的用户认为生成出的文档是有价值的。
利用 GPT-4 生成数据集文档(来源:Grab Engineering Blog)
Hubble 团队的创建的一个 Slack bot 让数据消费者能更便捷地进行数据发现。工程师们决定利用 Glean 并将其集成到 Hubble 之中,便于在 Glean 平台上直接提供数据湖表文档。利用 Glean Apps 构建的 HubbleIQ bot 可以与 Hubble 的搜索功能和 Slack 集成。
加入了 Glean 的 HubbleIQ Slack Bot (来源:Grab 工程博客)
Grab 计划进一步增强 GenAI 的功能,例如用更多的上下文来丰富文档生成器、允许分析师根据 Slack 消息列自动更新文档。团队还希望能落地 Reflexion 从而进一步提高文档生成的质量。
查看英文原文:
Grab Employs LLMs for Conversional Data Discovery with GPT-4, Glean and Slack (https://www.infoq.com/news/2024/11/grab-data-discovery-llm-slack/)
声明:本文为 InfoQ 翻译,未经许可禁止转载。