满足不同角色需求: 领域专家 数据科学家 科研人员、高校教师及学生
The Unsplash Lite Dataset 图片检索数据集精简版
788次浏览 dataju 于 2021-08-17 发布
该内容是由用户自发提供,聚数力平台仅提供平台,让大数据应用过程中的信息实现共享、交易与托管。如该内容涉及到您的隐私或可能侵犯版权,请告知我们及时删除。
数据集概述

https://hyper.ai/datasets/13127

Unsplash 是世界上最大的图片摄影网站之一,由全世界 20 多万摄影师参与贡献了数百万张高清优质的摄影作品。

Unsplash 在 2016 年开放了图片 API,截止目前已经达到了每月百万次调用,以及各种不同的使用场景。Unsplash 数据集于 2020 年八月宣布开放两个照片检索数据集,为更多的学者和科研机构提供研究资料。

Unsplash 数据集包含两个版本:

精简版数据集(下载链接为该版本):可用于商业和非商业使用场景。包含 2.5 万张自然主题的 Unsplash 照片的检索信息,共 2.5 万个关键词。

完整版数据集:仅限于非商业使用场景。包含 200 万张高质量 Unsplash 照片的检索信息,共 500 万个关键词。

本数据集为精简版数据集,压缩包 190M,解压后 550M ,包含四个单独的 TSV 文件(备注:TSV 文件可以在 PostgreSQL 数据库或 Pyhton 环境中加载)分别为:

  • Collections : 82 MB包含 Unsplash 用户创建的照片收藏夹的信息:包括照片的 ID(photo_id)、收藏夹的 ID(collection_id)、收藏夹的标题 (collection_title) 和时间戳 (photo_collected_at) 等数据;
  • Conversions : 349 MB包含用户搜索后选择的图像信息:包括照片时间戳(convert_at)、关键词(keyword)、照片 ID(photo_id)、脱敏后的用户 ID(onymous_user_id)和用户地理位置(conversion_country)等数据;
  • Keywords : 104 MB包含用户搜索的照片 ID(photo_id)、搜索的关键字词(keyword)、关键字与图片的置信值(ai_service_1_confidence)等数据;

  • Photos : 6.5 MB包含照片 ID(photo_id)、url(photo_image_url)、摄影师信息(Photographer_username)、相机信息(exif_camera)、参数(exif_iso)、平台查看总次数(stats_views)、下载总次数(stats_downloads)、拍摄地地理坐标(ai_primary_landmark_name)


数据集详情
暂无
数据集元数据
暂无
概念层次
领域场景: 未指定
领域问题: 未指定
领域应用: 未指定
应用案例: 未指定