Главная » 2025 » Ноябрь » 19 » База черно-белых символов для распознавания
22:16
База черно-белых символов для распознавания

База черно-белых символов для распознавания

База данных с изображениями черно-белых символов из 250-ти шрифтов. Символы распределены по файлам с названиями высота-ширина.txt. Файлы в свою очередь распределены по папкам, имеющими названия в виде высоты символа. Всего 50 папок (высота символа от 1 до 50 px) и 3182 файла. Размер базы данных 843 МБ (в архиве 78 МБ). Базу можно использовать для машинного обучения, а также непосредственно для распознавания символов.

База содержит символы следующих классов:

  • num — цифры от 0 до 9;
  • en — английские буквы;
  • ru — русские буквы;
  • sym1 — символы, входящие в кодировку ASCII (точка, запятая, скобки и т. д.);
  • sym2 — дополнительные символы, часто используемые в печатных текстах, например, длинное тире или символ рубля;
  • sym3 — различные графические символы.

Каждая строка внутри файла имеет следующий формат:

{0}|{1}|{2}|{3}|{4}|{5}|{6}|{7}|{8}

Всего 9 элементов через символ вертикальной черты:

  • {0} — высота символа в пикселях (от 1 до 50 px);
  • {1} — ширина символа в пикселях;
  • {2} — число единичек, описывающих символ;
  • {3} — распределение единичек по симметрии (четыре числа через +);
  • {4} — описание символа или символов через /. Формат:
Класс=Код_символа+Код_символа/Класс=Код_символа+Код_символа

Класс — одно из значений: num, en, ru, sym1, sym2, sym3 (описание классов см. выше). Код_символа указывается в кодировке UTF-8 (буквы всегда в нижнем регистре). Так как некоторые буквы одинаковы в разных наборах, то элемент может содержать несколько значений через символ /. Например, буква О есть в русском и английском алфавитах, кроме того она похожа на число 0. Символ может состоять из двух символов, например, гласная русская буква с ударением, поэтому через символ + допустимы сразу два кода;

  • {5} — регистр (0 — нет, 1 — прописная, 2 — строчная). Поле может содержать сразу несколько значений через символ /;
  • {6} — стиль символа (0 — обычный, 1 — полужирный, 2 — курсив, 3 —  полужирный курсив). Поле может содержать сразу несколько значений через символ /;
  • {7} — начертание символа (0 — обычный печатный шрифт, 7 — машинно-рукописный, рукописный или авторский шрифт). Поле может содержать сразу несколько значений через символ /;
  • {8} — черно-белое представление символа в виде строки. Число 0 означает фон, а 1 — часть символа. Все строки двумерной матрицы вытянуты в одну строку друг за другом.

Пример строки (буква Р):

12|10|84|26+23+26+9|en=112/ru=1088|1|1|0|111111111011111111111111001111111100011111110001111111001111111111111111111111101111000000111100000011110000001111000000

Двумерная матрица выглядит так:

1111111110
1111111111
1111001111
1111000111
1111000111
1111001111
1111111111
1111111110
1111000000
1111000000
1111000000
1111000000

Скачать примеры

Как заказать?

Стоимость лицензии на использование базы данных с черно-белыми представлениями символов 25 000 руб

Обратите внимание, после оплаты вы получаете лицензию на использование набора, а не эксклюзивные права на него. Иными словами, набор вам не будет продан, вам будут проданы неэксклюзивные права (лицензия) на использование набора!

Заказать набор

Категория: OCR | Просмотров: 7 | Добавил: unicross | Теги: OCR dataset OCR | Рейтинг: 0.0/0
Всего комментариев: 0
Добавлять комментарии могут только зарегистрированные пользователи.
[ Регистрация | Вход ]
Категории раздела
Списки слов [10]
Списки слов и словари
OCR [4]
Оптическое распознавание символов
UImage [18]
Графическая библиотека для Python
Программы [4]
Полезные программы
Прочее [3]
Другие темы
Календарь
«  Ноябрь 2025  »
Пн Вт Ср Чт Пт Сб Вс
     12
3456789
10111213141516
17181920212223
24252627282930
Архив записей