该内容是由用户自发提供,聚数力平台仅提供平台,让大数据应用过程中的信息实现共享、交易与托管。如该内容涉及到您的隐私或可能侵犯版权,请告知我们及时删除。
数据集概述
TED平行语料库是多语言平行语料库,包括多语言并行语料库和单语语料库。从TED会议www.ted.com 提取109种世界语言。 多语言的平行语料库包括 12 种语言超过1.2亿 个对齐句子并进行了句子对齐。 所有的预处理都是自动完成。
数据集详情
原始数据名称: | TED 平行语料库 |
数据介绍: | TED平行语料库是多语言平行语料库,包括多语言并行语料库和单语语料库。从TED会议www.ted.com 提取109种世界语言。 多语言的平行语料库包括 12种语言超过1.2亿对齐句子并进行了句子对齐。 所有的预处理都是自动完成。 |
属性数: | |
记录数: | |
无缺失值记录数: | |
数据来源: | https://github.com/ajinkyakulkarni14/TED-Multilingual-Parallel-Corpus |
文件类型: | |
文件大小: | 3.54 Gb |
数据集元数据
暂无
概念层次
领域场景: | 未指定 |
领域问题: | 未指定 |
领域应用: | 未指定 |
应用案例: | 未指定 |