该内容是由用户自发提供,聚数力平台仅提供平台,让大数据应用过程中的信息实现共享、交易与托管。如该内容涉及到您的隐私或可能侵犯版权,请告知我们及时删除。
数据集概述
WikiText 英语词库数据(The WikiText Long Term Dependency Language Modeling Dataset)是一个包含1亿个词汇的英文词库数据,这些词汇是从Wikipedia的优质文章和标杆文章中提取得到,包括WikiText-2和WikiText-103两个版本,相比于著名的 Penn Treebank (PTB) 词库中的词汇数量,前者是其2倍,后者是其110倍。每个词汇还同时保留产生该词汇的原始文章,这尤其适合当需要长时依赖(long term dependency)自然语言建模的场景。
数据集详情
原始数据名称: | WikiText 英语词库数据 |
数据介绍: | WikiText 英语词库数据(The WikiText Long Term Dependency Language Modeling Dataset)是一个包含1亿个词汇的英文词库数据,这些词汇是从Wikipedia的优质文章和标杆文章中提取得到,包括WikiText-2和WikiText-103两个版本,相比于著名的Penn Treebank (PTB)词库中的词汇数量,前者是其2倍,后者是其110倍。每个词汇还同时保留产生该词汇的原始文章,这尤其适合当需要长时依赖(long term dependency)自然语言建模的场景。 |
属性数: | |
记录数: | |
无缺失值记录数: | |
数据来源: | https://metamind.io/research/the-wikitext-long-term-dependency-language-modeling-dataset |
文件类型: | 多文件zip压缩包 |
文件大小: | 362.40 Mb |
数据集元数据
暂无
概念层次
领域场景: | 未指定 |
领域问题: | 未指定 |
领域应用: | 未指定 |
应用案例: | 未指定 |