数据集 -- TED 平行语料库 | 聚数力平台 | 大数据应用要素托管与交易平台

TED 平行语料库

7833次浏览 dataju 于 2017-07-25 发布

该内容是由用户自发提供，聚数力平台仅提供平台，让大数据应用过程中的信息实现共享、交易与托管。如该内容涉及到您的隐私或可能侵犯版权，请告知我们及时删除。

数据集概述

TED平行语料库是多语言平行语料库，包括多语言并行语料库和单语语料库。从TED会议www.ted.com 提取109种世界语言。多语言的平行语料库包括 12 种语言超过1.2亿个对齐句子并进行了句子对齐。所有的预处理都是自动完成。

数据集详情

原始数据名称:	TED 平行语料库
数据介绍:	TED平行语料库是多语言平行语料库，包括多语言并行语料库和单语语料库。从TED会议www.ted.com 提取109种世界语言。多语言的平行语料库包括 12种语言超过1.2亿对齐句子并进行了句子对齐。所有的预处理都是自动完成。
属性数:
记录数:
无缺失值记录数:
数据来源:	https://github.com/ajinkyakulkarni14/TED-Multilingual-Parallel-Corpus
文件类型:
文件大小:	3.54 Gb

数据集元数据

暂无

概念层次