整理了一些网上的免费数据集,分类下载地址如下,希望节约大家找数据的时间。

1.经济金融

1.1.宏观经济

美国劳工部统计局官方发布数据

世界银行 World Development Indicators 数据

世界各国经济发展数据

美国房地产公司 Zillow 公开美国房地产历史数据

几个宏观经济数据集

房屋租赁信息查询次数预测竞赛【Kaggle竞赛】

Zillow 网站房地产价值预测竞赛数据【Kaggle竞赛】

Sberbank 俄罗斯房地产价值预测竞赛数据【Kaggle竞赛】

1.2.金融市场

沪深股票除权除息、配股增发全量数据,截止 2016.12.31

上证主板日线数据,截止 2017.05.05,原始价、前复权价、后复权价,1260支股票

深证主板日线数据,截止 2017.05.05,原始价、前复权价、后复权价,466支股票

深证中小板日线数据,截止 2017.05.05,原始价、前复权价、后复权价,852支股票

深证创业板日线数据,截止 2017.05.05,原始价、前复权价、后复权价,636支股票

上证A股日线数据,1999.12.09 至 2016.06.08,前复权,1095支股票

深证A股日线数据,1999.12.09 至 2016.06.08,前复权,1766支股票

深证创业板日线数据,1999.12.09 至 2016.06.08,前复权,510支股票

MT4平台外汇交易历史数据

Forex平台外汇交易历史数据

纽约股票交易所标准普尔500股票数据

美国股票数据XBRL

美国医疗保险市场数据

几组外汇交易逐笔(Ticks)数据

10 years of Dukascopy Forex Tick Data (2008-2019)

Gas Prices in Brazil 巴西石油价格数据集

美国股票新闻数据【Kaggle数据】

美国医疗保险市场数据【Kaggle数据】

美国金融客户投诉数据【Kaggle数据】

美国股票数据XBRL【Kaggle数据】

纽约股票交易所数据【Kaggle数据】

Homesite 保险定价竞赛数据【Kaggle竞赛】

Winton 股票回报率预测竞赛数据【Kaggle竞赛】

1.3.信用评估

IBRD Statement Of Loans 贷款数据集

Credit Card Fraud 信用卡诈骗数据集

Lending Club 网贷违约数据【Kaggle数据】

贷款违约预测竞赛数据【Kaggle竞赛】

信用卡欺诈数据【Kaggle 数据】

1.4.其它经济金融数据

银行产品推荐竞赛数据【Kaggle竞赛】

预测公寓租金竞赛数据【Kaggle竞赛】

2.交通出行

2.1.自动驾驶

Udacity 自动驾驶数据集

KITTI 自动驾驶数据

Cityscapes 场景标注数据

德国交通标志识别数据

交通信号识别视频数据

CityStreet 城市街景数据集

Comma.ai 自动驾驶视频数据集

GOT-10k 目标跟踪数据集

Streetview 街景数据集

Dataset-UAV-123 视频数据集

VOT2016 目标跟踪数据集

OTB 目标追踪图像数据集

SemanticKITTI 数据集

Lyft Level 5 自动驾驶数据集

Camvid 驾驶标签视频数据集

2.2.共享出行数据

Airbnb 开放数据

Uber 纽约市乘车数据

波士顿 Airbnb 公开数据

T-Drive trajectory data sample【Kaggle竞赛】

Shared Cars Locations 共享汽车位置数据集

l 芝加哥Divvy共享自行车骑行数据

Capital 共享单车骑行数据

Bay Area 共享单车骑行数据

Nice Ride 共享单车骑行数据

美国查塔努加市共享单车骑行数据

花旗银行共享单车骑行数据

2.3.其它交通出行数据

2013年纽约出租车行驶数据

2013年芝加哥出租车行驶数据

纽约出租车管理委员会官方的乘车数据(2009年-2016年)

几个人类运动位置路线GPS数据集(骑行、跑步等)

纽约 Uber 接客数据 【Kaggle数据

英国车祸数据(2005-2015)【Kaagle数据】

芝加哥汽车超速数据【Kaggle数据】

纽约市出租车乘车时间预测竞赛数据【Kaggle竞赛】

运用卫星数据跟踪亚马逊热带雨林中的人类轨迹竞赛【Kaggle竞赛】

3.商业活动

Yelp 点评网站公开数据

Amazon product co-purchasing 商品数据

Open Payments Dataset

Enron Email 安然公司邮件数据

预测公寓租金竞赛数据

广告点击预测竞赛数据

餐厅营业收入预测建模竞赛

网站用户推荐点击预测竞赛数据

Amazon 食品评论数据【Kaggle数据】

Amazon 无锁手机评论数据【Kaggle数据】

美国视频游戏销售和评价数据【Kaggle数据】

Kaggle 各项竞赛情况数据【Kaggle数据】

Bosch 生产流水线降低次品率竞赛数据【Kaggle竞赛】

在线广告实时竞价数据【Kaggle数据】

购物车商品关联竞赛数据【Kaggle竞赛】

Airbnb 新用户的民宿预定预测竞赛数据【Kaggle竞赛】

KKBOX 音乐用户续订预测竞赛【Kaggle竞赛】

Grupo Bimbo 面包店库存和销量预测竞赛【Kaggle竞赛】

Bosch 流水线降低次品率数据【Kaggle竞赛】

根据手机应有使用行为预测用户性别年龄竞赛【Kaggle竞赛】

4.推荐系统

Netflix 电影评价数据

MovieLens 20m 电影推荐数据集

MovieLens 100k 电影推荐数据集

WikiLens

Jester

HetRec2011

Book Crossing

Large Movie Review

Retailrocket 商品评论和推荐数据

1万本畅销书的6百万读者评分数据

用户推荐点击预测竞赛数据【Kaggle竞赛】

Book-Crossing 图书评分数据集

IMDB Large Movie Review Dataset 电影评论数据集

Movie Plots 电影数据集

Goodreads-Books 书籍数据集

5.医疗健康

Data Science Bowl 2017 肺癌识别数据

COVID-19 image dataset collection (volumes folder) March 30th 2020

Parkinson Classification 帕金森鉴别数据集

PDB 蛋白质结构数据集(全球版)

EEG Brain Wave for Confusion 额叶波动的数据集

Sunnybrook Cardiac Data – 2009 年心脏 MR 左心室分割挑战数据

CaP前列腺癌数据集

MURA 骨头X光数据集

人识别物体时大脑核磁共振影像数据

人理解单词时大脑核磁共振影像数据

心脏病心房图像及标注数据

细胞病理识别

FIRE 视网膜眼底病变图像数据

TCGA-LUAD 肺癌CT图像数据

RIDER Lung CT 肺癌CT影像

TCGA-COAD癌症CT影像数据

TCIA-TCGA-OV 癌症CT影像数据

TCIA RIDER NEURO 癌症MRI影像数据

QIN Beast 乳腺癌MRI影像数据

MIMIC-III 临床监护数据

SPIE-AAPM-NCI PROSTATEx竞赛第1部分数据(MRI核磁共振影像识别前列腺癌程度数据)

SPIE-AAPM-NCI PROSTATEx竞赛第2部分数据(MRI核磁共振影像识别前列腺癌程度数据)

RIDER Breast 乳腺癌 MRI 影像数据

Lung Phantom 癌症 CT 影像数据集

TCIA-QIN-LUNG 肺癌 CT 影像数据集

TCGA-ESCA癌症 CT 影像数据集

TCGA-CESC癌症 CT 影像数据集

TCGA-KICH癌症 CT 影像数据集

Chest X-Ray Images

Indiana University - Chest X-Rays

LNDb CT scan dataset (training)

Ocular Disease Intelligent Recognition ODIR-5K

The PatchCamelyon benchmark dataset (PCAM)

object-CXR - Automatic detection of foreign objects on chest X-rays

Breast Ultrasound Images Dataset (Dataset BUSI)

My Complete Genome: 6k Base-Pairs of Phenotype SNPs – Complete Raw Data – DNA 遗传基因序列原始数据

食物营养成分数据 【Kaggle数据】

EGG 大脑电波形状数据【Kaggle数据】

某人基因序列数据【Kaggle数据】

癌症CT影像数据【Kaggle数据】

软组织肉瘤CT图像数据【Kaggle数据】

医疗CT影像、年龄和对比标注数据【Kaggle竞赛】

从 CT 影像中对肺部影像进行分割并识别肺部容积【Kaggle竞赛】

通过Egg脑电图像预测患者癫痫病发作竞赛【Kaggle竞赛】

遗传突变分类竞赛【Kaggle竞赛】

6.社会生活

希拉里邮件门泄露邮件

世界大学排名

芝加哥市2001年以来犯罪记录数据

美国查塔努加市犯罪记录数据(2003年至今)

芝加哥街边咖啡厅季节中的人行道咖啡厅许可数据

芝加哥餐馆卫生检查结果数据

几个城市气象交换站日间天气数据

Reddit 2.5 百万社交新闻数据

Google的机群访问数据

MIT Saliency 眼睛浏览轨迹数据集

Denver Police 丹佛市警局数据集

LA Traffic Collision Data 洛杉矶交通事故数据集

UW Madison Courses Grades UWM 课业情况数据

Waves Measuring 海浪测量数据集

Spanish Rail Tickets 西班牙高铁数据集

Flights & Tickets 航班机票数据集

Electric Motor Temperature 电机温度数据集

Pizza Restaurants 披萨商店数据集

Oakland Street Trees 奥克兰街道树木数据

Women’s Shoes Prices 女性鞋类价格数据集

世界范围显著地震数据(1965-2016)【Kaagle数据】

美国婴儿姓名数据【Kaagle数据】

全世界鲨鱼袭击人类数据【Kaagle数据】

1908年以来空难数据【Kaagle数据】

2016年美国总统大选数据【Kaagle数据】

2013年美国社区统计数据【Kaagle数据】

2014年美国社区统计数据【Kaagle数据】

2015年美国社区统计数据【Kaagle数据】

欧洲足球运动员赛事表现数据【Kaagle数据】

美国环境污染数据【Kaagle数据】

美国H1-B签证申请数Kaggle数据】

IMDB五千部电影数据【Kaggle数据】

2015年航班延误和取消数据【Kaggle数据】

凶杀案报告数据【Kaggle数据】

人力资源分析数据【Kaggle数据】

美国费城犯罪数据【Kaggle数据】

历史棒球数据【Kaggle数据】

美联航 Twitter 用户评论数据【Kaggle数据】

希拉里 vs 特朗普竞选期间 Twitter 数据【Kaggle竞赛】

美国连环凶案数据(1980-2014)【Kaggle竞赛】

广告实时竞价数据【Kaggle竞赛】

美国费城犯罪记录数据【Kaggle竞赛】

Reddit 用户交互记录【Kaggle竞赛】

泰坦尼克灾难数据【Kaggle竞赛】

新闻和网页内容推荐及点击竞赛【Kaggle竞赛】

科比布莱恩特投篮命中率数据【Kaggle竞赛】

根据安检人体扫描成像预测威胁竞赛【Kaggle竞赛】

7.三维重建

3D DeskTop

CMU Monocular MoCap 单眼视图模型数据集

3D Object – 3D 模型数据集

ModelNet 三维点云数据集

Navona 图片数据集

Piazza Bra 图片数据集

Piazza Bra (NEW) 图片数据集

峨眉山金顶寺 – 古建筑图形数据集

武当山紫霄宫 – 古建筑图像数据集

青城山上清宫 – 古建筑图像数据集

五台山龙泉寺 – 古建筑图像数据集

普陀山法雨寺 – 古建筑图像数据集

九华山旃檀寺 – 古建筑图像数据集

清华大学老校门 – 三维重建数据集

清华学堂 – 三维重建数据集

清华生命科学楼 – 三维重建数据集

8.宇宙太空

115 paintings from the Hermitage museum, high-resolution, JPEG

NASA Astronomy Picture of the Day Archive (7800 images, 2011)

2614 Images from Huble Space Telescope

350,000 Raw Images from Spirit and Opportunity Mars Rovers (with Metadata)

100 Images from Hubble Space Telescope

9.地理遥感

RSC11 遥感影像数据集

AID 遥感影像数据集

NWPU 遥感影像数据集

Inria Aerial Image Labeling Dataset 遥感图像数据集

UC Merced Land-Use Data Set 土地利用图像遥感数据集

WHU-RS19遥感影像数据集

SIRI-WHU遥感影像数据集

UCAS-AOD 遥感影像数据集

NWPU VHR-10 地理空间物体检测遥感数据集

Inria Aerial Image Labeling 遥感数据集

RSSCN7遥感图像数据集

10.科研和竞赛

NIPS 2003 属性选择竞赛数据

台湾大学林智仁教授处理为 LibSVM 格式的分类建模数据

Large-scale 分类建模数据

几个UCI 中 large-scale 分类建模数据

Social Computing Data Repository 社交网络数据

Kaggle竞赛数据合辑(部分竞赛数据)

UCI多分类组合出的二分类数据集

UCI经典二分类数据集

机器视觉推理实验数据

BigMM 2015 竞赛验证数据集

KONECT 网络图结构和网络科学数据合辑

Microsoft Malware Classification Challenge

场景图像分类竞赛数据【ChallengerAI 竞赛】

人体骨骼关键点检测竞赛数据【ChallengerAI 竞赛】

图像中文表述竞赛数据【ChallengerAI 竞赛】

英文同声传译竞赛数据【ChallengerAI 竞赛】

中英文本翻译竞赛数据【ChallengerAI 竞赛】

虚拟股票趋势预测【ChallengerAI 竞赛数据】

猫和狗分类识别竞赛数据【Kaggle竞赛】

DSTL 卫星图像识别竞赛数据【Kaggle竞赛】

根据手机应用软件使用行为预测用户性别年龄竞赛数据【Kaggle竞赛】

人脸关键点标定竞赛数据【Kaggle竞赛】

11.拓扑图关系数据

11.1.社交网络

Social Computing Data Repository 社交网络数据

DBLP 数据集

公开的大规模链接数据集合

11.2.知识图谱

DBPedia Ontology 大型多域本体数据集

几个 RDFhdt 结构的图关系数据

IMDB 电影数据仓库

Sci-Hub SQL Database (2020-05-30)

11.3.其它图数据

KONECT 网络图结构数据合集

12.图像数据

12.1.综合图像

Visual Genome 图像数据

Visual7w 图像数据

l 微软 COCO 图像数据(2014年竞赛)

SUFR 图像数据

ImageNet 2014 训练数据

Tiny Images Dataset 图像数据集

80 Million Tiny Images

Downsampled Open Images V4 Dataset

PASCAL Visual Object Classes 2012 图像数据

PASCAL Visual Object Classes 2011 图像数据

PASCAL Visual Object Classes 2010 图像数据

ImageNet 小尺寸图像数据集

Yahoo Flickr 照片和视频数据集

Visual Genome Dataset V1.2 图像及图像内容语义信息的数据集

PASCAL VOC DATASET

微软COCO图像数据集

COCO 2017 Resized to 256x256

Tiny Images Dataset

12.2.人脸图像

IMDB-WIKI 500k+ 人脸图像、年龄性别数据

Labeled Faces in the Wild 人脸数据

Extended Yale Face Database B 人脸数据

Bao Face 人脸数据

DC-IGN 论文人脸数据

300 Face in Wild 图像数据

BioID Face 人脸数据

CMU Frontal Face Images

FDDB_Face Detection Data Set and Benchmark

NIST Mugshot Identification Database

Faces in the Wild 人脸数据

CelebA 名人人脸图像数据

VGG Face 人脸图像数据

Caltech 10k Web Faces 人脸图像数据

LS3D-W 人脸对齐 2D / 3D 数据集

WIDER 人脸数据集

IJB-B NIST 人脸数据集

UDM Faces 人脸数据集

UMD Faces 面部数据集

IMDB-WIKI 人脸数据库

PubFig 人脸数据集

MUCT人脸数据库

FDDB 面部区域数据集

Caltech 10k Web Faces 面部图像数据集

Vggface2: A dataset for recognising faces across pose and age

Illinois DOC labeled faces dataset

Deep Learning Face Attributes in the Wild

Twitch Emotes Images Dataset

CACD 跨年龄人脸识别和检索数据集

CelebA 人脸属性数据集

人脸关键点标定竞赛数据【Kaggle竞赛】

12.3.指纹识别

NIST FIGS 指纹识别数据

NIST Supplemental Fingerprint Card Data (SFCD) 指纹识别数据

NIST Plain and Rolled Images from Paired Fingerprint Cards in 500 pixels per inch 指纹识别数据

NIST Plain and Rolled Images from Paired Fingerprint Cards 1000 pixels per inch 指纹识别数据

12.4.物体分类图像

COIL-20 图像数据

COIL-100 图像数据

Caltech-101 图像数据

Caltech-256 图像数据

CIFAR-10 图像数据

CIFAR-100 图像数据

STL-10 图像数据

LabelMe_12_50k图像数据

NORB v1.0 图像数据

NEC Toy Animal 图像数据

iCubWorld 图像分类数据

Multi-class 图像分类数据

GRAZ 图像分类数据

PASCAL 3D+ 图像数据

Amazon Robotics Challenge 2017 Datasets

T-LESS 无纹理对象检测和 6D 姿态估计数据集

ITODD 工业 3D 物体检测数据集

Great Zebra and Giraffe Count ID Dataset

1000 Fundus images with 39 categories

Cdiscount 商品图像分类竞赛【Kaggle竞赛】

12.5.Web标签图像

HARRISON 社交标签图像

NUS-WIDE 标签图像

Visual Synset 标签图像

Animals With Attributes 标签图像

12.6.视觉文字识别图像

Street View House Number 门牌号图像数据

MNIST 手写数字识别图像数据

MediaTeam Document 文档影印和内容数据

Text Recognition 文字图像数据

NIST Handprinted Forms and Characters 手写英文字符数据

NIST Structured Forms Reference Set of Binary Images (SFRS) 图像数据

NIST Structured Forms Reference Set of Binary Images (SFRS) II 图像数据

MLT 图片文字识别数据集

3D MNIST 数字识别图像数据【Kaggle数据】

12.7.特定一类事物图像

著名的猫图像标注数据

Caltech-UCSD Birds200 鸟类图像数据

Stanford Car 汽车图像数据

MIT Cars 汽车图像数据

Stanford Cars 汽车图像数据

Food-101 美食图像数据

17_Category_Flower 图像数据

102_Category_Flower 图像数据

UCI Folio Leaf 图像数据

Labeled Fishes in the Wild 鱼类图像

美国 Yelp 点评网站酒店照片

CMU-Oxford Sculpture 塑像雕像图像

Oxford-IIIT Pet 宠物图像数据

Stanford Dogs Dataset 数据集

辛普森一家卡通形象图像【Kaggle竞赛】

Fashion-MNIST 时尚服饰图像数据

合成的 3D 手势识别数据集

Bald Classification Dataset 秃头头像数据集

TWDNE 二次元头像数据集

Danbooru2018 动漫人物数据集

Leaf counting 数据集

xBD 自然灾害图像数据集

MIT CBCL 身份鉴定数据库

Nature Conservancy Fisheries Monitoring 过度捕捞监控图像数据【Kaggle数据】

12.8.场景图像

Street Scences 图像数据

Places2 场景图像数据

UCF Google Street View 图像数据

SUN 场景图像数据

The Celebrity in Places 图像数据

Places-Extra69 图像分类数据集

Place365-Standard 图像分类数据集

Flickr1024 图像场景数据集

LSUN 大规模图像数据集

ADE20K 场景解析数据集

SynthText 自然场景图像数据集

2014 Stereo 双目立体匹配数据集

12.9.目标检测

Stanford Drone Dataset

UCF-QNRF 大规模人群计数数据集

VERI-Wild 监控图片数据集

Unsupervised Vehicle Appearance 车辆检测数据集

Vehicle ReId 车辆检测数据集

Boats 船只影像数据集

BoxCars21k 车辆检测数据集

Reld HDR 低分辨率车牌数据集

ROSV 交通摄像头图片数据集

MVTec-AD 工业检测数据集

BoxCars116k 车辆检测数据集

CORe50 连续目标识别数据集

NORB – 3D 物体图像识别数据集

RSOD-Dataset 物体检测数据集

12.10.材质纹理图像

CURET 纹理材质图像数据

ETHZ Synthesizability 纹理图像数据

KTH-TIPS 纹理材质图像数据

Describable Textures 纹理图像数据

12.11.姿态动作图像

HMDB_a large human motion database

Human Actions and Scenes Dataset

Buffy Stickmen V3 人体轮廓识别图像数据

Human Pose Evaluator 人体轮廓识别图像数据

Buffy pose 人类姿势图像数据

VGG Human Pose Estimation 姿势图像标注数据

MPII Human Shape人体轮廓数据

Biwi Kinect Head Pose 头部姿势数据

上半身人像数据 INRIA Person 数据集

HICO-DET 人物检测和动作识别数据集

MADS 人体动作数据集

MPII 人体姿势估计数据集

LSP (Leeds Sports Pose) 人体姿态估计数据集

FLIC 影视人体检测数据集

MPII Human Pose Dataset

CMU Hand 手势数据集

12.12.图像分割

BSDS500 轮廓检测与语义分割数据集

HICO 图像语义分割数据集

iMaterialist Fashion 服饰分割数据集

HAKE-HICO 语义分割数据集

SBD 语义边界数据集

12.13.超分辨率图像

Sun-Hays 80 Dataset 超分辨率图像数据集

Set5,Set14 低复杂度单图像超分辨率数据集

Urban100 超分辨率重建数据集

RIGA dataset (Retinal fundus images for glaucoma analysis)

Kaggle Diabetic Retinopathy Detection Training Dataset

12.14.其它图像

Visual Question Answering V1.0 图像数据

Visual Question Answering V2.0 图像数据

MIT Saliency 眼睛浏览轨迹数据集

The Unsplash Lite Dataset 图片检索数据集精简版

13.视频数据

13.1.综合视频

DAVIS_Densely Annotated Video Segmentation 数据

13.2.目标检测视频

UCSD Pedestrian 行人视频数据

Caltech Pedestrian 行人视频数据

ETH 行人视频数据

INRIA 行人视频数据

TudBrussels 行人视频数据

Daimler 行人视频数据

ALOV++ 物体追踪视频数据

根据视频再次识别人身份的数据集

高速公路车辆视频数据

NYU Depth V2 视频序列数据集

13.3.姿态动作视频

Microsoft Research Action 人类动作视频数据

UCF50 Action Recognition 动作识别数据

UCF101 Action Recognition 动作识别数据

UT-Interaction 人类动作视频数据

UCF iPhone 运动中传感器数据

UCF YouTube 人类动作视频数据

UCF Sport 人类动作视频数据

UCF-ARG 人类动作视频数据

HMDB 人类动作视频

HOLLYWOOD2 人类行为动作视频数据

Recognition of human actions 动作视频数据

Motion Capture 动作捕捉视频数据

SBU Kinect Interaction 肢体动作视频数据

Daimler 行人视频数据

Youtube face 人脸视频数据

PoseTrack 多人视频姿态估计数据集

PASCAL3D+ 3D 物体检测和姿态识别数据集

Kinetics400 Dataset: The Kinetics Human Action Video Dataset

Kinetics700 Dataset: The Kinetics Human Action Video Dataset

UCSD Pedestrian 行人视频数据集

13.4.密集人群检测视频

Crowd Counting 高密度人群图像

Crowd Segmentation 高密度人群视频数据

Tracking in High Density Crowds 高密度人群视频

13.5.其它视频

Fire Detection 视频数据

YouTube 视频文字数据集

Highway Traffic Videos 公路拥堵视频数据集

14.音频数据

14.1.综合音频

Google Audioset 音频数据【数据太大仅有介绍】

14.2.语音识别

Sinhala TTS 英语语音识别

TIMIT 美式英语语音识别数据

LibriSpeech ASR corpus 语音数据

Room Impulse Response and Noise 语音数据

ALFFA 非洲语音数据

THUYG-20 维吾尔语语音数据

AMI Corpus 语音识别

Common Voice 中文语音数据集

Common Voice 英文语音数据集

THCHS30 中文语音数据集

TIMIT 方言录音数据集

TED-LIUM 英语语音识别训练语料库

14.3.音乐歌曲

Million Song 歌曲音频数据

The Last.fm 广播音频数据

MusicNet 数据集

LMD-full MIDI 数据集

Million Song Dataset 百万流行乐数据集

Last.fm Dataset 歌曲数据集

15.自然语言处理

15.1.自然语言语料

RCV1英语新闻数据

20news 英语新闻数据

JRC Names各国语言专有实体名称

Multi-Domain Sentiment V2.0

LETOR 信息检索数据

美国假新闻数据【Kaggle数据】

NIPS会议文章信息数据(1987-2016)【Kaggle数据】

2016年美国总统选举辩论数据【Kaggle数据】

WikiLinks 跨文档指代语料

WikiText 英语语义词库数据

Stanford Sentiment Treebank 词汇数据

英语语言模型单词预测竞赛数据

中文经典典籍语料

几个网上采集的自然语言语料中文姓名语料

81万互联网词汇词库

Wikilinks 跨文档语料扩展版

几个聊天机器人语料

TED 平行语料库

Sogou 语料库

几个认知语言学数据

纽约时报新闻语料_New York Times 新闻语料

500万企业名称语料

某电商平台6万个商品数据

NLPCC2016 新闻数据集

SogouCS 新闻数据集

THUCNews 新闻数据集

Jester 笑话评分数据集

Amazon Reviews – Full 评论数据集

Yelp reviews – Full 用户评论数据集

Yelp reviews – Polarity 用户评论数据集

AclImdb_v1 大型电影评论数据集

BookCorpus 大型书籍文本数据集

Legal Case Reports DataSet 法律案件数据集

icwb2-data 中文分词数据集

Amazon Fine Food Reviews 食品评论数据集

Couplet-Dataset 对联数据集

1 Billion Word Language Model Benchmark R13 Output 基准语料库

Sogou News 新闻数据集

AG News 新闻文章数据集

希拉里 vs 特朗普竞选期间 Twitter 数据【Kaggle竞赛】

NIPS 2015年会议论文数据集【Kaggle竞赛】

15.2.机器翻译

European Parliament Proceedings Parallel Corpus 机器翻译数据

WMT 2011 News Crawl 机器翻译数据

WMT 2015 French/English parallel texts 法语/英语平行文本数据集

OpenMantra 漫画机器翻译评估数据集

15.3.智能问答

WikiAnswers 问题复述数据集

Question-Answer 问答数据集

30M Factoid Question-Answer Corpus

The Children’s Book Test 问答数据集

Yahoo! Answers 问答数据集

CMU 真实问答对数据集

Maluuba NewsQA 机器阅读理解数据集

SQuAD 斯坦福问答数据集

MSMARCO 机器阅读理解数据集

First Quora Release Question Pairs 问答数据

Yale Youtube Vedio Text斯坦福问答数据【Kaggle数据】

15.4.情绪识别

用户对美国航空公司的Twitter评论情绪数据

Sentiment Analysis 中文情感分析