Classification Datasets

Summary Table

  Description
Number of Classes *

Number of Attributes

Training
Set **

Test
Set **
Files
      Categ. Contin. Ignore
Instances
Instances
nam
dat
tst
inf
inf2
zip
agaricus_lepiota Mushroom Data
2 (52%)
22
 
 
8124 (2480)
 
y
y
 
y
y
y
australian_credit Australian Credit Data
2 (56%)
8
6
 
690
 
y
y
 
y
 
y
bcst96 Webpage Classification
2 (54%)
 
13430
 
1186
509
y
y
y
 
 
y
breast-cancer Breast Cancer Data
2 (66%)
9
 
1
699 (16)
 
y
y
 
y
 
y
cancer Cancer Data
3 (40%)
 
100
 
100
 
y
y
 
 
 
y
chess Chess Endgame
2 (95%)
7
 
 
647
 
y
y
 
 
 
y
colonTumor Colon Tumour
2 (65%)
 
2000
 
62
 
y
y
 
 
 
y
contact_lenses Contact Lenses
3 (88%)
5
 
 
108
 
y
y
 
 
 
y
crx Credit Card Applications
2 (56%)
9
6
 
690 (37)
200 (12)
y
y
y
 
 
y
degrees Degree Classification
2 (77%)
5
 
 
26
 
y
y
 
 
 
y
diabetes Diabetes Data
2 (65%)
 
8
 
768
 
y
y
 
y
 
y
ecoli E-coli
8 (43%)
 
7
1
336
 
y
y
 
y
 
y
games Sporting Preferences
2 (58%)
4
 
 
12
 
y
y
 
 
 
y
genetics Genetics
3 (52%)
60
 
 
3190
 
y
y
 
 
 
y
glass Types of glass
6 (36%)
 
9
1
214
 
y
y
 
y
y
y
golf Decision whether to play
2 (64%)
2
2
 
14
 
y
y
 
 
 
y
hepatitis Hepatitis Data
2 (79%)
13
6
 
155 (75)
 
y
y
 
y
 
y
hypo Hypothyroid Data
5 (92%)
22
7
 
2514 (2514)
1258 (1258)
y
y
y
 
 
y
iris Iris Data
3 (33%)
 
4
 
150
 
y
y
 
y
 
y
labor-ne Labour Negotiations
2 (65%)
8
8
 
40 (39)
17 (17)
y
y
y
 
 
y
lens24 Contact Lenses (reduced version)
3 (63%)
4
 
 
24
 
y
y
 
 
 
y
leukaemia Leukaemia
2 (71%)
 
7129
 
38
34
y
y
y
 
 
y
monk1 Monk's Problem 1
2 (50%)
6
 
 
124
432
y
y
y
 
 
y
monk2 Monk's Problem 2
2 (62%)
6
 
 
169
432
y
y
y
 
 
y
monk3 Monk's Problem 3
2 (51%)
6
 
 
122
432
y
y
y
 
 
y
pendigits Handwriting Recognition
10 (11%)
 
16
 
1200 (1200)
400 (400)
y
y
y
 
 
y
pima-indians Pima Indians Data
2 (65%)
 
8
 
768
 
y
y
 
y
 
y
play Play Data
4 (53%)
3
2
 
30
 
y
y
 
 
 
y
segmentation Segmentation
7 (all equal%)
 
19
 
210
2100
y
y
y
y
 
y
sick-euthyroid Sick Euthyroid
2 (91%)
18
7
 
3163 (3161)
 
y
y
 
 
 
y
soybean Soybean Data
19 (13%)
35
 
 
683 (121)
 
y
y
 
 
 
y
vote Voting Records
2 (61%)
16
 
 
300
135
y
y
y
 
 
y
wake_vortex Air Traffic Control Data
2 (50%)
3
1
53
1714
 
y
y
 
 
 
y
wake_vortex_full Air Traffic Control Data (full)
2 (50%)
19
32
6
1714 (3)
 
y
y
 
 
 
y
yeast Yeast
10 (31%)
 
8
 
1484
 
y
y
 
y
 
y
zoo Zoo Data
7 (41%)
16
 
1
101
 
y
y
 
y
 
y
Number of datasets: 36

* with % size of majority class in training set given in parentheses
** with number of instances having at least one missing value in parentheses (if non-zero)