OCR dataset USymbols36 с черно-белыми изображениями символов
Набор данных с черно-белыми изображениями символов USymbols36, включает нормализованные шаблоны символов (всего 1 169 673 символов), приведенные к ограничивающей области размерами 36 на 36 px при соблюдении пропорций. Если высота символа больше или равна ширине, то значение 36 px получает высота, а ширина изменяется пропорционально. В противном случае ширина получает значение 36 px, а высота изменяется пропорционально. Благодаря этому можно подать на вход нейросети вектор длиной 36 на 36, итого 1296 значений 0 или 1.
Следует учитывать, что символы не только приведены к одному размеру, но и были прорежены. Символы, которые на 90% похожи на символ в базе данных, не добавлялись. Благодаря этому размер базы удалось уменьшить примерно в 2 раза. Таким образом база охватывает гораздо больше указанного миллиона символов. Символ похожий на более 90% считается распознанным.
База содержит символы следующих классов:
num — цифры от 0 до 9;
en — английские буквы;
ru — русские буквы;
sym1 — символы, входящие в кодировку ASCII (точка, запятая, скобки и т. д.);
sym2 — дополнительные символы, часто используемые в печатных текстах, например, длинное тире или символ рубля;
sym3 — различные графические символы.
Символы распределены по файлам с названиями высота-ширина.txt. Файлы в свою очередь распределены по папкам, имеющими названия в виде кода стиля символа (0 — обычный, 1 — полужирный, 2 — курсив, 3 — полужирный курсив, 7 — машинно-рукописный, рукописный или авторский шрифт).
Размер базы данных 1,14 ГБ (в архиве 76 МБ). Базу можно использовать для машинного обучения, а также непосредственно для распознавания символов.
Каждая строка внутри файла имеет следующий формат:
{0}|{1}|{2}|{3}|{4}|{5}|{6}|{7}|{8}
Всего 9 элементов через символ вертикальной черты:
{0} — высота символа в пикселях (от 1 до 50 px);
{1} — ширина символа в пикселях;
{2} — число единичек, описывающих символ;
{3} — распределение единичек по симметрии (четыре числа через +);
{4} — описание символа или символов через /. Формат:
Класс=Код_символа+Код_символа/Класс=Код_символа+Код_символа
Класс — одно из значений: num, en, ru, sym1, sym2, sym3 (описание классов см. выше). Код_символа указывается в кодировке UTF-8 (буквы всегда в нижнем регистре). Так как некоторые буквы одинаковы в разных наборах, то элемент может содержать несколько значений через символ /. Например, буква О есть в русском и английском алфавитах, кроме того она похожа на число 0. Символ может состоять из двух символов, например, гласная русская буква с ударением, поэтому через символ + допустимы сразу два кода;
{5} — регистр (0 — нет, 1 — прописная, 2 — строчная). Поле может содержать сразу несколько значений через символ /;
{6} — стиль символа (0 — обычный, 1 — полужирный, 2 — курсив, 3 — полужирный курсив). Поле может содержать сразу несколько значений через символ /;
{7} — начертание символа (0 — обычный печатный шрифт, 7 — машинно-рукописный, рукописный или авторский шрифт). Поле может содержать сразу несколько значений через символ /;
{8} — черно-белое представление символа в виде строки. Число 0 означает фон, а 1 — часть символа. Все строки двумерной матрицы вытянуты в одну строку друг за другом.
Пример строки (буква Р):
36|20|275|75+90+75+35|en=112/ru=1088|1|0|0|111111111111111110001111111111111111100011111111111111111000111000000000011111111110000000000111111111100000000001111111111000000000011111111110000000000000011111100000000000000111111000000000000001111110000000000000011111100000000000000111111000000000000001111110000000000000011111100000000000000111111000000000000001111110000000000111111111100000000001111111111000000000011111111110000000000111111111111111111111111000111111111111111110001111111111111111100011100000000000000000111000000000000000001110000000000000000011100000000000000000111000000000000000001110000000000000000011100000000000000000111000000000000000001110000000000000000011100000000000000000111000000000000000001110000000000000000011100000000000000000
Статистика по файлам и папкам:
##############################################################
Папка 0 — обычный стиль шрифта (жирность от 100 до 500)
##############################################################
1-36.txt - 1
2-36.txt - 5
3-36.txt - 20
4-36.txt - 42
5-36.txt - 63
6-36.txt - 149
7-36.txt - 168
8-36.txt - 351
9-36.txt - 319
10-36.txt - 245
11-36.txt - 273
12-36.txt - 435
13-36.txt - 189
14-36.txt - 457
15-36.txt - 409
16-36.txt - 509
17-36.txt - 526
18-36.txt - 1268
19-36.txt - 343
20-36.txt - 1152
21-36.txt - 1248
22-36.txt - 1700
23-36.txt - 1999
24-36.txt - 3604
25-36.txt - 2231
26-36.txt - 4190
27-36.txt - 5031
28-36.txt - 3667
29-36.txt - 4654
30-36.txt - 6573
31-36.txt - 4486
32-36.txt - 7725
33-36.txt - 8172
34-36.txt - 8670
35-36.txt - 6791
36-2.txt - 7
36-3.txt - 26
36-4.txt - 70
36-5.txt - 136
36-6.txt - 396
36-7.txt - 510
36-8.txt - 1138
36-9.txt - 1744
36-10.txt - 1984
36-11.txt - 2468
36-12.txt - 3248
36-13.txt - 1543
36-14.txt - 2369
36-15.txt - 2455
36-16.txt - 3071
36-17.txt - 3389
36-18.txt - 6904
36-19.txt - 3375
36-20.txt - 8628
36-21.txt - 9617
36-22.txt - 12169
36-23.txt - 14293
36-24.txt - 22673
36-25.txt - 10375
36-26.txt - 18268
36-27.txt - 20295
36-28.txt - 14732
36-29.txt - 13943
36-30.txt - 16130
36-31.txt - 12568
36-32.txt - 16312
36-33.txt - 12652
36-34.txt - 11413
36-35.txt - 7649
36-36.txt - 25731
Всего - 359 946 символов
##############################################################
Папка 1 — полужирный стиль шрифта (жирность от 600 до 900)
##############################################################
1-36.txt - 0
2-36.txt - 0
3-36.txt - 0
4-36.txt - 1
5-36.txt - 12
6-36.txt - 32
7-36.txt - 42
8-36.txt - 82
9-36.txt - 103
10-36.txt - 101
11-36.txt - 110
12-36.txt - 175
13-36.txt - 94
14-36.txt - 233
15-36.txt - 228
16-36.txt - 340
17-36.txt - 285
18-36.txt - 626
19-36.txt - 169
20-36.txt - 763
21-36.txt - 953
22-36.txt - 1306
23-36.txt - 1588
24-36.txt - 2454
25-36.txt - 1351
26-36.txt - 2247
27-36.txt - 2515
28-36.txt - 2082
29-36.txt - 2250
30-36.txt - 3419
31-36.txt - 2516
32-36.txt - 4165
33-36.txt - 3939
34-36.txt - 4362
35-36.txt - 3283
36-2.txt - 0
36-3.txt - 1
36-4.txt - 9
36-5.txt - 19
36-6.txt - 23
36-7.txt - 25
36-8.txt - 97
36-9.txt - 236
36-10.txt - 355
36-11.txt - 656
36-12.txt - 1123
36-13.txt - 759
36-14.txt - 1103
36-15.txt - 1057
36-16.txt - 1225
36-17.txt - 1290
36-18.txt - 2024
36-19.txt - 1068
36-20.txt - 2793
36-21.txt - 2937
36-22.txt - 3501
36-23.txt - 4099
36-24.txt - 6517
36-25.txt - 3555
36-26.txt - 5990
36-27.txt - 6933
36-28.txt - 5738
36-29.txt - 5735
36-30.txt - 6590
36-31.txt - 4978
36-32.txt - 6922
36-33.txt - 5721
36-34.txt - 5514
36-35.txt - 3552
36-36.txt - 10733
Всего - 144 704 символов
##############################################################
Папка 2 — курсив (жирность от 100 до 500)
##############################################################
1-36.txt - 0
2-36.txt - 3
3-36.txt - 12
4-36.txt - 32
5-36.txt - 70
6-36.txt - 107
7-36.txt - 127
8-36.txt - 193
9-36.txt - 171
10-36.txt - 154
11-36.txt - 167
12-36.txt - 275
13-36.txt - 107
14-36.txt - 221
15-36.txt - 194
16-36.txt - 283
17-36.txt - 343
18-36.txt - 693
19-36.txt - 242
20-36.txt - 825
21-36.txt - 1177
22-36.txt - 1647
23-36.txt - 2655
24-36.txt - 4854
25-36.txt - 2817
26-36.txt - 4639
27-36.txt - 5709
28-36.txt - 4161
29-36.txt - 4541
30-36.txt - 6183
31-36.txt - 4793
32-36.txt - 7806
33-36.txt - 8212
34-36.txt - 9272
35-36.txt - 7930
36-2.txt - 0
36-3.txt - 0
36-4.txt - 2
36-5.txt - 7
36-6.txt - 14
36-7.txt - 44
36-8.txt - 153
36-9.txt - 332
36-10.txt - 486
36-11.txt - 850
36-12.txt - 1785
36-13.txt - 1671
36-14.txt - 3201
36-15.txt - 3516
36-16.txt - 3476
36-17.txt - 3151
36-18.txt - 4389
36-19.txt - 1875
36-20.txt - 4428
36-21.txt - 4421
36-22.txt - 5680
36-23.txt - 7751
36-24.txt - 13260
36-25.txt - 8538
36-26.txt - 14434
36-27.txt - 17756
36-28.txt - 13349
36-29.txt - 13389
36-30.txt - 16277
36-31.txt - 12298
36-32.txt - 16653
36-33.txt - 14216
36-34.txt - 13242
36-35.txt - 9521
36-36.txt - 26995
Всего - 317 775 символов
##############################################################
Папка 3 — полужирный курсив (жирность от 600 до 900)
##############################################################
1-36.txt - 0
2-36.txt - 0
3-36.txt - 0
4-36.txt - 2
5-36.txt - 16
6-36.txt - 25
7-36.txt - 36
8-36.txt - 66
9-36.txt - 81
10-36.txt - 98
11-36.txt - 82
12-36.txt - 128
13-36.txt - 45
14-36.txt - 162
15-36.txt - 190
16-36.txt - 259
17-36.txt - 246
18-36.txt - 519
19-36.txt - 197
20-36.txt - 775
21-36.txt - 1115
22-36.txt - 1433
23-36.txt - 1580
24-36.txt - 2493
25-36.txt - 1312
26-36.txt - 2276
27-36.txt - 2559
28-36.txt - 2010
29-36.txt - 2346
30-36.txt - 3562
31-36.txt - 3194
32-36.txt - 5003
33-36.txt - 4725
34-36.txt - 4648
35-36.txt - 3273
36-2.txt - 0
36-3.txt - 0
36-4.txt - 0
36-5.txt - 4
36-6.txt - 5
36-7.txt - 7
36-8.txt - 11
36-9.txt - 17
36-10.txt - 33
36-11.txt - 89
36-12.txt - 251
36-13.txt - 312
36-14.txt - 661
36-15.txt - 930
36-16.txt - 1401
36-17.txt - 1560
36-18.txt - 2201
36-19.txt - 897
36-20.txt - 1928
36-21.txt - 1696
36-22.txt - 1965
36-23.txt - 2512
36-24.txt - 4687
36-25.txt - 3159
36-26.txt - 5394
36-27.txt - 6674
36-28.txt - 5337
36-29.txt - 5436
36-30.txt - 6724
36-31.txt - 4807
36-32.txt - 6595
36-33.txt - 5652
36-34.txt - 5224
36-35.txt - 3569
36-36.txt - 11342
Всего - 135 536 символов
##############################################################
Папка 7 — машинно-рукописный, рукописный или авторский шрифт
##############################################################
1-36.txt - 0
2-36.txt - 0
3-36.txt - 0
4-36.txt - 0
5-36.txt - 0
6-36.txt - 0
7-36.txt - 0
8-36.txt - 0
9-36.txt - 0
10-36.txt - 8
11-36.txt - 15
12-36.txt - 21
13-36.txt - 40
14-36.txt - 73
15-36.txt - 190
16-36.txt - 466
17-36.txt - 634
18-36.txt - 1180
19-36.txt - 917
20-36.txt - 1813
21-36.txt - 2067
22-36.txt - 2736
23-36.txt - 2633
24-36.txt - 3310
25-36.txt - 2553
26-36.txt - 3692
27-36.txt - 3816
28-36.txt - 3082
29-36.txt - 4533
30-36.txt - 4291
31-36.txt - 4005
32-36.txt - 4480
33-36.txt - 6837
34-36.txt - 4399
35-36.txt - 5047
36-2.txt - 0
36-3.txt - 0
36-4.txt - 4
36-5.txt - 6
36-6.txt - 21
36-7.txt - 36
36-8.txt - 293
36-9.txt - 347
36-10.txt - 145
36-11.txt - 1041
36-12.txt - 400
36-13.txt - 619
36-14.txt - 511
36-15.txt - 1589
36-16.txt - 876
36-17.txt - 1395
36-18.txt - 4035
36-19.txt - 1161
36-20.txt - 3226
36-21.txt - 2520
36-22.txt - 8372
36-23.txt - 3066
36-24.txt - 7588
36-25.txt - 3524
36-26.txt - 14358
36-27.txt - 8871
36-28.txt - 4988
36-29.txt - 15529
36-30.txt - 6580
36-31.txt - 7508
36-32.txt - 6002
36-33.txt - 13829
36-34.txt - 5554
36-35.txt - 6820
36-36.txt - 18060
Всего - 211 712 символов
Скачать примеры
Как заказать?
Стоимость лицензии на использование базы данных USymbols36 с черно-белыми представлениями символов 100 000 руб.
Можно приобрести лицензию только на одну папку из набора (например, папку с обычным начертанием символов) за 25 000 руб.
Лицензия действует на одно программное обеспечение. Срок действия не ограничен. Базу можно изменять (добавлять или удалять символы, корректировать описание и т. д.), но продавать базу третьим лицам без моего согласия нельзя.
Можно также приобрести лицензию на программу просмотра и фильтрации символов из набора (см. фото выше) за 10 000 руб. (программа включает графическую библиотеку для Python, которая является надстройкой над библиотеками PILLOW и InageMagick).
Обратите внимание, после оплаты вы получаете лицензию на использование набора, а не эксклюзивные права на него. Иными словами, набор вам не будет продан, вам будут проданы неэксклюзивные права (лицензия) на использование набора!
Заказать набор