满足不同角色需求: 领域专家 数据科学家 科研人员、高校教师及学生
WikiText 英语词库数据
9382次浏览 dataju 于 2017-03-25 发布
该内容是由用户自发提供,聚数力平台仅提供平台,让大数据应用过程中的信息实现共享、交易与托管。如该内容涉及到您的隐私或可能侵犯版权,请告知我们及时删除。
数据集概述

WikiText 英语词库数据(The WikiText Long Term Dependency Language Modeling Dataset)是一个包含1亿个词汇的英文词库数据,这些词汇是从Wikipedia的优质文章和标杆文章中提取得到,包括WikiText-2和WikiText-103两个版本,相比于著名的 Penn Treebank (PTB) 词库中的词汇数量,前者是其2倍,后者是其110倍。每个词汇还同时保留产生该词汇的原始文章,这尤其适合当需要长时依赖(long term dependency)自然语言建模的场景。


数据集详情
原始数据名称: WikiText 英语词库数据
数据介绍: WikiText 英语词库数据(The WikiText Long Term Dependency Language Modeling Dataset)是一个包含1亿个词汇的英文词库数据,这些词汇是从Wikipedia的优质文章和标杆文章中提取得到,包括WikiText-2和WikiText-103两个版本,相比于著名的Penn Treebank (PTB)词库中的词汇数量,前者是其2倍,后者是其110倍。每个词汇还同时保留产生该词汇的原始文章,这尤其适合当需要长时依赖(long term dependency)自然语言建模的场景。
属性数:
记录数:
无缺失值记录数:
数据来源: https://metamind.io/research/the-wikitext-long-term-dependency-language-modeling-dataset
文件类型: 多文件zip压缩包
文件大小: 362.40 Mb
数据集元数据
暂无
概念层次
领域场景: 未指定
领域问题: 未指定
领域应用: 未指定
应用案例: 未指定