База черно-белых символов для распознавания
База данных с изображениями черно-белых символов из 250-ти шрифтов. Символы распределены по файлам с названиями высота-ширина.txt. Файлы в свою очередь распределены по папкам, имеющими названия в виде высоты символа. Всего 50 папок (высота символа от 1 до 50 px) и 3182 файла. Размер базы данных 843 МБ (в архиве 78 МБ). Базу можно использовать для машинного обучения, а также непосредственно для распознавания символов.
База содержит символы следующих классов:
num — цифры от 0 до 9;
en — английские буквы;
ru — русские буквы;
sym1 — символы, входящие в кодировку ASCII (точка, запятая, скобки и т. д.);
sym2 — дополнительные символы, часто используемые в печатных текстах, например, длинное тире или символ рубля;
sym3 — различные графические символы.
Каждая строка внутри файла имеет следующий формат:
{0}|{1}|{2}|{3}|{4}|{5}|{6}|{7}|{8}
Всего 9 элементов через символ вертикальной черты:
{0} — высота символа в пикселях (от 1 до 50 px);
{1} — ширина символа в пикселях;
{2} — число единичек, описывающих символ;
{3} — распределение единичек по симметрии (четыре числа через +);
{4} — описание символа или символов через /. Формат:
Класс=Код_символа+Код_символа/Класс=Код_символа+Код_символа
Класс — одно из значений: num, en, ru, sym1, sym2, sym3 (описание классов см. выше). Код_символа указывается в кодировке UTF-8 (буквы всегда в нижнем регистре). Так как некоторые буквы одинаковы в разных наборах, то элемент может содержать несколько значений через символ /. Например, буква О есть в русском и английском алфавитах, кроме того она похожа на число 0. Символ может состоять из двух символов, например, гласная русская буква с ударением, поэтому через символ + допустимы сразу два кода;
{5} — регистр (0 — нет, 1 — прописная, 2 — строчная). Поле может содержать сразу несколько значений через символ /;
{6} — стиль символа (0 — обычный, 1 — полужирный, 2 — курсив, 3 — полужирный курсив). Поле может содержать сразу несколько значений через символ /;
{7} — начертание символа (0 — обычный печатный шрифт, 7 — машинно-рукописный, рукописный или авторский шрифт). Поле может содержать сразу несколько значений через символ /;
{8} — черно-белое представление символа в виде строки. Число 0 означает фон, а 1 — часть символа. Все строки двумерной матрицы вытянуты в одну строку друг за другом.
Пример строки (буква Р):
12|10|84|26+23+26+9|en=112/ru=1088|1|1|0|111111111011111111111111001111111100011111110001111111001111111111111111111111101111000000111100000011110000001111000000
Двумерная матрица выглядит так:
1111111110
1111111111
1111001111
1111000111
1111000111
1111001111
1111111111
1111111110
1111000000
1111000000
1111000000
1111000000
Скачать примеры
Как заказать?
Стоимость лицензии на использование базы данных с черно-белыми представлениями символов 25 000 руб
Обратите внимание, после оплаты вы получаете лицензию на использование набора, а не эксклюзивные права на него. Иными словами, набор вам не будет продан, вам будут проданы неэксклюзивные права (лицензия) на использование набора!
Заказать набор