Главная » 2025 » Ноябрь » 19 » UNumbers36: OCR dataset с черно-белыми цифрами
22:53
UNumbers36: OCR dataset с черно-белыми цифрами

UNumbers36: OCR dataset с черно-белыми цифрами

Набор данных с черно-белыми изображениями цифр UNumbers36 v1.0.0, включает нормализованные шаблоны цифр (всего 164 578 цифр), приведенные к ограничивающей области размерами 36 на 36 px при соблюдении пропорций. Если высота символа больше или равна ширине, то значение 36 px получает высота, а ширина изменяется пропорционально. В противном случае ширина получает значение 36 px, а высота изменяется пропорционально. Благодаря этому можно подать на вход нейросети вектор длиной 36 на 36, итого 1296 значений 0 или 1.

Следует учитывать, что символы не только приведены к одному размеру, но и были прорежены. Символы, которые на 90% похожи на символ в базе данных, не добавлялись. Благодаря этому размер базы удалось уменьшить примерно в 2 раза. Таким образом база охватывает гораздо больше указанного количества символов. Символ, более 90% похожий на шаблон, считается распознанным.

Размер базы данных 160 МБ (в архиве 10,1 МБ). Базу можно использовать для машинного обучения, а также непосредственно для распознавания цифр.

База содержит символы следующих классов:

  • num — цифры от 0 до 9;

Символы распределены по файлам с названиями высота-ширина.txt. Файлы в свою очередь распределены по папкам, имеющими названия в виде кода стиля символа (0 — обычный, 1 — полужирный, 2 — курсив, 3 —  полужирный курсив, 7 — машинно-рукописный, рукописный или авторский шрифт).

Каждая строка внутри файла имеет следующий формат:

{0}|{1}|{2}|{3}|{4}|{5}|{6}|{7}|{8}

Всего 9 элементов через символ вертикальной черты:

  • {0} — высота символа в пикселях;
  • {1} — ширина символа в пикселях;
  • {2} — число единичек, описывающих символ;
  • {3} — распределение единичек по симметрии (четыре числа через +);
  • {4} — описание символа или символов через /. Формат:
Класс=Код_символа+Код_символа/Класс=Код_символа+Код_символа

Класс — одно из значений: num, en, ru, sym1, sym2, sym3. Код_символа указывается в кодировке UTF-8 (буквы всегда в нижнем регистре). Так как некоторые буквы одинаковы в разных наборах, то элемент может содержать несколько значений через символ /. Например, буква О есть в русском и английском алфавитах, кроме того она похожа на число 0. Символ может состоять из двух символов, например, гласная русская буква с ударением, поэтому через символ + допустимы сразу два кода;

  • {5} — регистр (0 — нет, 1 — прописная, 2 — строчная). Поле может содержать сразу несколько значений через символ /;
  • {6} — стиль символа (0 — обычный, 1 — полужирный, 2 — курсив, 3 —  полужирный курсив). Поле может содержать сразу несколько значений через символ /;
  • {7} — начертание символа (0 — обычный печатный шрифт, 7 — машинно-рукописный, рукописный или авторский шрифт). Поле может содержать сразу несколько значений через символ /;
  • {8} — черно-белое представление символа в виде строки. Число 0 означает фон, а 1 — часть символа. Все строки двумерной матрицы вытянуты в одну строку друг за другом.

Пример строки (цифра 0):

36|27|490|119+126+119+126|num=48|0|0|0|000000000111111111110000000000000111111111111111110000000000111111111111111110000000011111111100011111111000000011111100000001111111000000011111100000001111111000000111111100000000111111110000111111000000000001111110011111111000000000001111111011111111000000000001111111011111100000000000001111111011111100000000000000111111011111100000000000000111111011111100000000000000111111011111100000000000000111111111111100000000000000111111111111100000000000000111111111111100000000000000111111111111100000000000000111111111111100000000000000111111111111100000000000000111111011111100000000000000111111011111100000000000000111111011111100000000000000111111011111100000000000000111111011111100000000000001111111011111111000000000001111111011111111000000000001111111000111111000000000001111110000111111100000000111111110000011111100000001111111000000011111100000001111111000000011111111100011111111000000000111111111111111110000000000111111111111111110000000000000111111111110000000

Статистика по файлам и папкам:

##############################################################
Папка 0 — обычный стиль шрифта (жирность от 100 до 500)
##############################################################

1-36.txt - 0
2-36.txt - 0
3-36.txt - 0
4-36.txt - 0
5-36.txt - 0
6-36.txt - 0
7-36.txt - 0
8-36.txt - 0
9-36.txt - 0
10-36.txt - 0
11-36.txt - 0
12-36.txt - 0
13-36.txt - 0
14-36.txt - 0
15-36.txt - 0
16-36.txt - 0
17-36.txt - 0
18-36.txt - 0
19-36.txt - 0
20-36.txt - 0
21-36.txt - 0
22-36.txt - 0
23-36.txt - 0
24-36.txt - 0
25-36.txt - 0
26-36.txt - 0
27-36.txt - 3
28-36.txt - 2
29-36.txt - 5
30-36.txt - 13
31-36.txt - 10
32-36.txt - 45
33-36.txt - 54
34-36.txt - 35
35-36.txt - 13
36-2.txt - 0
36-3.txt - 1
36-4.txt - 1
36-5.txt - 1
36-6.txt - 1
36-7.txt - 2
36-8.txt - 5
36-9.txt - 16
36-10.txt - 18
36-11.txt - 28
36-12.txt - 69
36-13.txt - 51
36-14.txt - 100
36-15.txt - 92
36-16.txt - 134
36-17.txt - 237
36-18.txt - 756
36-19.txt - 438
36-20.txt - 1257
36-21.txt - 1669
36-22.txt - 2659
36-23.txt - 3617
36-24.txt - 6372
36-25.txt - 2575
36-26.txt - 3676
36-27.txt - 3094
36-28.txt - 1543
36-29.txt - 1165
36-30.txt - 801
36-31.txt - 633
36-32.txt - 533
36-33.txt - 297
36-34.txt - 198
36-35.txt - 95
36-36.txt - 282

Всего - 32 596 символов

##############################################################
Папка 1 — полужирный стиль шрифта (жирность от 600 до 900)
##############################################################

1-36.txt - 0
2-36.txt - 0
3-36.txt - 0
4-36.txt - 0
5-36.txt - 0
6-36.txt - 0
7-36.txt - 0
8-36.txt - 0
9-36.txt - 0
10-36.txt - 0
11-36.txt - 0
12-36.txt - 0
13-36.txt - 0
14-36.txt - 0
15-36.txt - 0
16-36.txt - 0
17-36.txt - 0
18-36.txt - 0
19-36.txt - 0
20-36.txt - 0
21-36.txt - 0
22-36.txt - 0
23-36.txt - 0
24-36.txt - 0
25-36.txt - 0
26-36.txt - 0
27-36.txt - 1
28-36.txt - 1
29-36.txt - 7
30-36.txt - 18
31-36.txt - 12
32-36.txt - 52
33-36.txt - 55
34-36.txt - 27
35-36.txt - 17
36-2.txt - 0
36-3.txt - 0
36-4.txt - 0
36-5.txt - 0
36-6.txt - 0
36-7.txt - 0
36-8.txt - 0
36-9.txt - 2
36-10.txt - 6
36-11.txt - 3
36-12.txt - 4
36-13.txt - 9
36-14.txt - 15
36-15.txt - 18
36-16.txt - 31
36-17.txt - 77
36-18.txt - 109
36-19.txt - 49
36-20.txt - 217
36-21.txt - 345
36-22.txt - 480
36-23.txt - 653
36-24.txt - 1328
36-25.txt - 678
36-26.txt - 1229
36-27.txt - 1320
36-28.txt - 1096
36-29.txt - 963
36-30.txt - 872
36-31.txt - 520
36-32.txt - 507
36-33.txt - 291
36-34.txt - 248
36-35.txt - 133
36-36.txt - 293

Всего - 11 686 символов

##############################################################
Папка 2 — курсив (жирность от 100 до 500)
##############################################################

1-36.txt - 0
2-36.txt - 0
3-36.txt - 0
4-36.txt - 0
5-36.txt - 0
6-36.txt - 0
7-36.txt - 0
8-36.txt - 0
9-36.txt - 0
10-36.txt - 0
11-36.txt - 0
12-36.txt - 0
13-36.txt - 0
14-36.txt - 0
15-36.txt - 0
16-36.txt - 0
17-36.txt - 0
18-36.txt - 0
19-36.txt - 0
20-36.txt - 0
21-36.txt - 0
22-36.txt - 0
23-36.txt - 0
24-36.txt - 0
25-36.txt - 0
26-36.txt - 0
27-36.txt - 1
28-36.txt - 1
29-36.txt - 0
30-36.txt - 7
31-36.txt - 2
32-36.txt - 12
33-36.txt - 14
34-36.txt - 15
35-36.txt - 12
36-2.txt - 0
36-3.txt - 0
36-4.txt - 0
36-5.txt - 0
36-6.txt - 0
36-7.txt - 0
36-8.txt - 0
36-9.txt - 0
36-10.txt - 0
36-11.txt - 1
36-12.txt - 30
36-13.txt - 92
36-14.txt - 191
36-15.txt - 214
36-16.txt - 186
36-17.txt - 155
36-18.txt - 247
36-19.txt - 98
36-20.txt - 287
36-21.txt - 323
36-22.txt - 499
36-23.txt - 946
36-24.txt - 2314
36-25.txt - 1746
36-26.txt - 2892
36-27.txt - 3196
36-28.txt - 2184
36-29.txt - 1898
36-30.txt - 1684
36-31.txt - 797
36-32.txt - 645
36-33.txt - 276
36-34.txt - 107
36-35.txt - 39
36-36.txt - 164

Всего - 21 275 символов

##############################################################
Папка 3 — полужирный курсив (жирность от 600 до 900)
##############################################################

1-36.txt - 0
2-36.txt - 0
3-36.txt - 0
4-36.txt - 0
5-36.txt - 0
6-36.txt - 0
7-36.txt - 0
8-36.txt - 0
9-36.txt - 0
10-36.txt - 0
11-36.txt - 0
12-36.txt - 0
13-36.txt - 0
14-36.txt - 0
15-36.txt - 0
16-36.txt - 0
17-36.txt - 0
18-36.txt - 0
19-36.txt - 0
20-36.txt - 0
21-36.txt - 0
22-36.txt - 0
23-36.txt - 0
24-36.txt - 0
25-36.txt - 0
26-36.txt - 2
27-36.txt - 1
28-36.txt - 4
29-36.txt - 9
30-36.txt - 22
31-36.txt - 18
32-36.txt - 46
33-36.txt - 29
34-36.txt - 24
35-36.txt - 11
36-2.txt - 0
36-3.txt - 0
36-4.txt - 0
36-5.txt - 0
36-6.txt - 0
36-7.txt - 0
36-8.txt - 0
36-9.txt - 0
36-10.txt - 0
36-11.txt - 0
36-12.txt - 0
36-13.txt - 0
36-14.txt - 0
36-15.txt - 3
36-16.txt - 26
36-17.txt - 56
36-18.txt - 100
36-19.txt - 41
36-20.txt - 113
36-21.txt - 128
36-22.txt - 153
36-23.txt - 236
36-24.txt - 543
36-25.txt - 349
36-26.txt - 738
36-27.txt - 984
36-28.txt - 825
36-29.txt - 788
36-30.txt - 894
36-31.txt - 578
36-32.txt - 678
36-33.txt - 457
36-34.txt - 299
36-35.txt - 111
36-36.txt - 323

Всего - 8 589 символов

##############################################################
Папка 7 — машинно-рукописный, рукописный или авторский шрифт
##############################################################

1-36.txt - 0
2-36.txt - 0
3-36.txt - 0
4-36.txt - 0
5-36.txt - 0
6-36.txt - 0
7-36.txt - 0
8-36.txt - 0
9-36.txt - 0
10-36.txt - 0
11-36.txt - 0
12-36.txt - 0
13-36.txt - 0
14-36.txt - 0
15-36.txt - 0
16-36.txt - 1
17-36.txt - 14
18-36.txt - 84
19-36.txt - 29
20-36.txt - 23
21-36.txt - 1
22-36.txt - 158
23-36.txt - 18
24-36.txt - 108
25-36.txt - 28
26-36.txt - 528
27-36.txt - 250
28-36.txt - 62
29-36.txt - 1296
30-36.txt - 119
31-36.txt - 658
32-36.txt - 373
33-36.txt - 3036
34-36.txt - 750
35-36.txt - 1728
36-2.txt - 0
36-3.txt - 0
36-4.txt - 0
36-5.txt - 0
36-6.txt - 11
36-7.txt - 7
36-8.txt - 221
36-9.txt - 242
36-10.txt - 20
36-11.txt - 818
36-12.txt - 73
36-13.txt - 346
36-14.txt - 60
36-15.txt - 1012
36-16.txt - 155
36-17.txt - 537
36-18.txt - 2706
36-19.txt - 158
36-20.txt - 1513
36-21.txt - 673
36-22.txt - 6525
36-23.txt - 951
36-24.txt - 3757
36-25.txt - 784
36-26.txt - 10436
36-27.txt - 4484
36-28.txt - 1350
36-29.txt - 11772
36-30.txt - 1708
36-31.txt - 4010
36-32.txt - 1502
36-33.txt - 9689
36-34.txt - 1335
36-35.txt - 3036
36-36.txt - 11277

Всего - 90 432 символов

Как заказать?

Стоимость лицензии на использование базы данных UNumbers36 с нормализованными черно-белыми цифрами —  25 000 руб.

Можно приобрести лицензию только на одну папку из набора (например, папку с обычным начертанием символов) за 7 000 руб.

Лицензия действует на одно программное обеспечение. Срок действия не ограничен. Базу можно изменять (добавлять или удалять символы, корректировать описание и т. д.), но продавать базу третьим лицам без моего согласия нельзя.

Можно также приобрести лицензию на программу просмотра и фильтрации символов из набора (см. фото выше) за 10 000 руб. (программа включает графическую библиотеку для Python, которая является надстройкой над библиотеками PILLOW и InageMagick).

Обратите внимание, после оплаты вы получаете лицензию на использование набора, а не эксклюзивные права на него. Иными словами, набор вам не будет продан, вам будут проданы неэксклюзивные права (лицензия) на использование набора!

Заказать набор

Категория: OCR | Просмотров: 7 | Добавил: unicross | Теги: цифры, OCR, OCR dataset | Рейтинг: 0.0/0
Всего комментариев: 0
Добавлять комментарии могут только зарегистрированные пользователи.
[ Регистрация | Вход ]
Категории раздела
Списки слов [10]
Списки слов и словари
OCR [4]
Оптическое распознавание символов
UImage [18]
Графическая библиотека для Python
Программы [4]
Полезные программы
Прочее [3]
Другие темы
Календарь
«  Ноябрь 2025  »
Пн Вт Ср Чт Пт Сб Вс
     12
3456789
10111213141516
17181920212223
24252627282930
Архив записей