UNumbers36: OCR dataset с черно-белыми цифрами
Набор данных с черно-белыми изображениями цифр UNumbers36 v1.0.0, включает нормализованные шаблоны цифр (всего 164 578 цифр), приведенные к ограничивающей области размерами 36 на 36 px при соблюдении пропорций. Если высота символа больше или равна ширине, то значение 36 px получает высота, а ширина изменяется пропорционально. В противном случае ширина получает значение 36 px, а высота изменяется пропорционально. Благодаря этому можно подать на вход нейросети вектор длиной 36 на 36, итого 1296 значений 0 или 1.
Следует учитывать, что символы не только приведены к одному размеру, но и были прорежены. Символы, которые на 90% похожи на символ в базе данных, не добавлялись. Благодаря этому размер базы удалось уменьшить примерно в 2 раза. Таким образом база охватывает гораздо больше указанного количества символов. Символ, более 90% похожий на шаблон, считается распознанным.
Размер базы данных 160 МБ (в архиве 10,1 МБ). Базу можно использовать для машинного обучения, а также непосредственно для распознавания цифр.
База содержит символы следующих классов:
Символы распределены по файлам с названиями высота-ширина.txt. Файлы в свою очередь распределены по папкам, имеющими названия в виде кода стиля символа (0 — обычный, 1 — полужирный, 2 — курсив, 3 — полужирный курсив, 7 — машинно-рукописный, рукописный или авторский шрифт).
Каждая строка внутри файла имеет следующий формат:
{0}|{1}|{2}|{3}|{4}|{5}|{6}|{7}|{8}
Всего 9 элементов через символ вертикальной черты:
{0} — высота символа в пикселях;
{1} — ширина символа в пикселях;
{2} — число единичек, описывающих символ;
{3} — распределение единичек по симметрии (четыре числа через +);
{4} — описание символа или символов через /. Формат:
Класс=Код_символа+Код_символа/Класс=Код_символа+Код_символа
Класс — одно из значений: num, en, ru, sym1, sym2, sym3. Код_символа указывается в кодировке UTF-8 (буквы всегда в нижнем регистре). Так как некоторые буквы одинаковы в разных наборах, то элемент может содержать несколько значений через символ /. Например, буква О есть в русском и английском алфавитах, кроме того она похожа на число 0. Символ может состоять из двух символов, например, гласная русская буква с ударением, поэтому через символ + допустимы сразу два кода;
{5} — регистр (0 — нет, 1 — прописная, 2 — строчная). Поле может содержать сразу несколько значений через символ /;
{6} — стиль символа (0 — обычный, 1 — полужирный, 2 — курсив, 3 — полужирный курсив). Поле может содержать сразу несколько значений через символ /;
{7} — начертание символа (0 — обычный печатный шрифт, 7 — машинно-рукописный, рукописный или авторский шрифт). Поле может содержать сразу несколько значений через символ /;
{8} — черно-белое представление символа в виде строки. Число 0 означает фон, а 1 — часть символа. Все строки двумерной матрицы вытянуты в одну строку друг за другом.
Пример строки (цифра 0):
36|27|490|119+126+119+126|num=48|0|0|0|000000000111111111110000000000000111111111111111110000000000111111111111111110000000011111111100011111111000000011111100000001111111000000011111100000001111111000000111111100000000111111110000111111000000000001111110011111111000000000001111111011111111000000000001111111011111100000000000001111111011111100000000000000111111011111100000000000000111111011111100000000000000111111011111100000000000000111111111111100000000000000111111111111100000000000000111111111111100000000000000111111111111100000000000000111111111111100000000000000111111111111100000000000000111111011111100000000000000111111011111100000000000000111111011111100000000000000111111011111100000000000000111111011111100000000000001111111011111111000000000001111111011111111000000000001111111000111111000000000001111110000111111100000000111111110000011111100000001111111000000011111100000001111111000000011111111100011111111000000000111111111111111110000000000111111111111111110000000000000111111111110000000
Статистика по файлам и папкам:
##############################################################
Папка 0 — обычный стиль шрифта (жирность от 100 до 500)
##############################################################
1-36.txt - 0
2-36.txt - 0
3-36.txt - 0
4-36.txt - 0
5-36.txt - 0
6-36.txt - 0
7-36.txt - 0
8-36.txt - 0
9-36.txt - 0
10-36.txt - 0
11-36.txt - 0
12-36.txt - 0
13-36.txt - 0
14-36.txt - 0
15-36.txt - 0
16-36.txt - 0
17-36.txt - 0
18-36.txt - 0
19-36.txt - 0
20-36.txt - 0
21-36.txt - 0
22-36.txt - 0
23-36.txt - 0
24-36.txt - 0
25-36.txt - 0
26-36.txt - 0
27-36.txt - 3
28-36.txt - 2
29-36.txt - 5
30-36.txt - 13
31-36.txt - 10
32-36.txt - 45
33-36.txt - 54
34-36.txt - 35
35-36.txt - 13
36-2.txt - 0
36-3.txt - 1
36-4.txt - 1
36-5.txt - 1
36-6.txt - 1
36-7.txt - 2
36-8.txt - 5
36-9.txt - 16
36-10.txt - 18
36-11.txt - 28
36-12.txt - 69
36-13.txt - 51
36-14.txt - 100
36-15.txt - 92
36-16.txt - 134
36-17.txt - 237
36-18.txt - 756
36-19.txt - 438
36-20.txt - 1257
36-21.txt - 1669
36-22.txt - 2659
36-23.txt - 3617
36-24.txt - 6372
36-25.txt - 2575
36-26.txt - 3676
36-27.txt - 3094
36-28.txt - 1543
36-29.txt - 1165
36-30.txt - 801
36-31.txt - 633
36-32.txt - 533
36-33.txt - 297
36-34.txt - 198
36-35.txt - 95
36-36.txt - 282
Всего - 32 596 символов
##############################################################
Папка 1 — полужирный стиль шрифта (жирность от 600 до 900)
##############################################################
1-36.txt - 0
2-36.txt - 0
3-36.txt - 0
4-36.txt - 0
5-36.txt - 0
6-36.txt - 0
7-36.txt - 0
8-36.txt - 0
9-36.txt - 0
10-36.txt - 0
11-36.txt - 0
12-36.txt - 0
13-36.txt - 0
14-36.txt - 0
15-36.txt - 0
16-36.txt - 0
17-36.txt - 0
18-36.txt - 0
19-36.txt - 0
20-36.txt - 0
21-36.txt - 0
22-36.txt - 0
23-36.txt - 0
24-36.txt - 0
25-36.txt - 0
26-36.txt - 0
27-36.txt - 1
28-36.txt - 1
29-36.txt - 7
30-36.txt - 18
31-36.txt - 12
32-36.txt - 52
33-36.txt - 55
34-36.txt - 27
35-36.txt - 17
36-2.txt - 0
36-3.txt - 0
36-4.txt - 0
36-5.txt - 0
36-6.txt - 0
36-7.txt - 0
36-8.txt - 0
36-9.txt - 2
36-10.txt - 6
36-11.txt - 3
36-12.txt - 4
36-13.txt - 9
36-14.txt - 15
36-15.txt - 18
36-16.txt - 31
36-17.txt - 77
36-18.txt - 109
36-19.txt - 49
36-20.txt - 217
36-21.txt - 345
36-22.txt - 480
36-23.txt - 653
36-24.txt - 1328
36-25.txt - 678
36-26.txt - 1229
36-27.txt - 1320
36-28.txt - 1096
36-29.txt - 963
36-30.txt - 872
36-31.txt - 520
36-32.txt - 507
36-33.txt - 291
36-34.txt - 248
36-35.txt - 133
36-36.txt - 293
Всего - 11 686 символов
##############################################################
Папка 2 — курсив (жирность от 100 до 500)
##############################################################
1-36.txt - 0
2-36.txt - 0
3-36.txt - 0
4-36.txt - 0
5-36.txt - 0
6-36.txt - 0
7-36.txt - 0
8-36.txt - 0
9-36.txt - 0
10-36.txt - 0
11-36.txt - 0
12-36.txt - 0
13-36.txt - 0
14-36.txt - 0
15-36.txt - 0
16-36.txt - 0
17-36.txt - 0
18-36.txt - 0
19-36.txt - 0
20-36.txt - 0
21-36.txt - 0
22-36.txt - 0
23-36.txt - 0
24-36.txt - 0
25-36.txt - 0
26-36.txt - 0
27-36.txt - 1
28-36.txt - 1
29-36.txt - 0
30-36.txt - 7
31-36.txt - 2
32-36.txt - 12
33-36.txt - 14
34-36.txt - 15
35-36.txt - 12
36-2.txt - 0
36-3.txt - 0
36-4.txt - 0
36-5.txt - 0
36-6.txt - 0
36-7.txt - 0
36-8.txt - 0
36-9.txt - 0
36-10.txt - 0
36-11.txt - 1
36-12.txt - 30
36-13.txt - 92
36-14.txt - 191
36-15.txt - 214
36-16.txt - 186
36-17.txt - 155
36-18.txt - 247
36-19.txt - 98
36-20.txt - 287
36-21.txt - 323
36-22.txt - 499
36-23.txt - 946
36-24.txt - 2314
36-25.txt - 1746
36-26.txt - 2892
36-27.txt - 3196
36-28.txt - 2184
36-29.txt - 1898
36-30.txt - 1684
36-31.txt - 797
36-32.txt - 645
36-33.txt - 276
36-34.txt - 107
36-35.txt - 39
36-36.txt - 164
Всего - 21 275 символов
##############################################################
Папка 3 — полужирный курсив (жирность от 600 до 900)
##############################################################
1-36.txt - 0
2-36.txt - 0
3-36.txt - 0
4-36.txt - 0
5-36.txt - 0
6-36.txt - 0
7-36.txt - 0
8-36.txt - 0
9-36.txt - 0
10-36.txt - 0
11-36.txt - 0
12-36.txt - 0
13-36.txt - 0
14-36.txt - 0
15-36.txt - 0
16-36.txt - 0
17-36.txt - 0
18-36.txt - 0
19-36.txt - 0
20-36.txt - 0
21-36.txt - 0
22-36.txt - 0
23-36.txt - 0
24-36.txt - 0
25-36.txt - 0
26-36.txt - 2
27-36.txt - 1
28-36.txt - 4
29-36.txt - 9
30-36.txt - 22
31-36.txt - 18
32-36.txt - 46
33-36.txt - 29
34-36.txt - 24
35-36.txt - 11
36-2.txt - 0
36-3.txt - 0
36-4.txt - 0
36-5.txt - 0
36-6.txt - 0
36-7.txt - 0
36-8.txt - 0
36-9.txt - 0
36-10.txt - 0
36-11.txt - 0
36-12.txt - 0
36-13.txt - 0
36-14.txt - 0
36-15.txt - 3
36-16.txt - 26
36-17.txt - 56
36-18.txt - 100
36-19.txt - 41
36-20.txt - 113
36-21.txt - 128
36-22.txt - 153
36-23.txt - 236
36-24.txt - 543
36-25.txt - 349
36-26.txt - 738
36-27.txt - 984
36-28.txt - 825
36-29.txt - 788
36-30.txt - 894
36-31.txt - 578
36-32.txt - 678
36-33.txt - 457
36-34.txt - 299
36-35.txt - 111
36-36.txt - 323
Всего - 8 589 символов
##############################################################
Папка 7 — машинно-рукописный, рукописный или авторский шрифт
##############################################################
1-36.txt - 0
2-36.txt - 0
3-36.txt - 0
4-36.txt - 0
5-36.txt - 0
6-36.txt - 0
7-36.txt - 0
8-36.txt - 0
9-36.txt - 0
10-36.txt - 0
11-36.txt - 0
12-36.txt - 0
13-36.txt - 0
14-36.txt - 0
15-36.txt - 0
16-36.txt - 1
17-36.txt - 14
18-36.txt - 84
19-36.txt - 29
20-36.txt - 23
21-36.txt - 1
22-36.txt - 158
23-36.txt - 18
24-36.txt - 108
25-36.txt - 28
26-36.txt - 528
27-36.txt - 250
28-36.txt - 62
29-36.txt - 1296
30-36.txt - 119
31-36.txt - 658
32-36.txt - 373
33-36.txt - 3036
34-36.txt - 750
35-36.txt - 1728
36-2.txt - 0
36-3.txt - 0
36-4.txt - 0
36-5.txt - 0
36-6.txt - 11
36-7.txt - 7
36-8.txt - 221
36-9.txt - 242
36-10.txt - 20
36-11.txt - 818
36-12.txt - 73
36-13.txt - 346
36-14.txt - 60
36-15.txt - 1012
36-16.txt - 155
36-17.txt - 537
36-18.txt - 2706
36-19.txt - 158
36-20.txt - 1513
36-21.txt - 673
36-22.txt - 6525
36-23.txt - 951
36-24.txt - 3757
36-25.txt - 784
36-26.txt - 10436
36-27.txt - 4484
36-28.txt - 1350
36-29.txt - 11772
36-30.txt - 1708
36-31.txt - 4010
36-32.txt - 1502
36-33.txt - 9689
36-34.txt - 1335
36-35.txt - 3036
36-36.txt - 11277
Всего - 90 432 символов
Как заказать?
Стоимость лицензии на использование базы данных UNumbers36 с нормализованными черно-белыми цифрами — 25 000 руб.
Можно приобрести лицензию только на одну папку из набора (например, папку с обычным начертанием символов) за 7 000 руб.
Лицензия действует на одно программное обеспечение. Срок действия не ограничен. Базу можно изменять (добавлять или удалять символы, корректировать описание и т. д.), но продавать базу третьим лицам без моего согласия нельзя.
Можно также приобрести лицензию на программу просмотра и фильтрации символов из набора (см. фото выше) за 10 000 руб. (программа включает графическую библиотеку для Python, которая является надстройкой над библиотеками PILLOW и InageMagick).
Обратите внимание, после оплаты вы получаете лицензию на использование набора, а не эксклюзивные права на него. Иными словами, набор вам не будет продан, вам будут проданы неэксклюзивные права (лицензия) на использование набора!
Заказать набор