Наборы данных с изображениями шрифтов (для машинного обучения, распознавания символов)
Наборы данных с изображениями 250 шрифтов предназначены для машинного обучения в целях дальнейшего оптического распознавания символов (OCR, optical character recognition). Набор содержит несколько изображений в формате PNG с оттисками символов шрифта на белом фоне. Каждый символ находится в ячейке размерами 100x100 пикселей (где-то посередине ячейки). Местоположение каждого символа в наборе задается индексами, относительно левого верхнего угла изображения. Благодаря этому можно программно считать оттиск символа из изображения.
Каждый шрифт располагается в отдельной папке.
Внутри папки со шрифтом находятся вложенные папки с названиями стилей шрифта, например, normal, bold, italic и т. д.
Внутри папок со стилями можно найти изображения символов шрифта в формате PNG с названиями в виде чисел. Числа в названиях изображений означают высоту строки со шрифтом (обратите внимание, не высота символа, а высота строки). Для большинства шрифтов имеются оттиски символов высотой от 10 до 50 пикселей с шагом в 1 пиксель. Для хорошо различимых шрифтов оттиски могут иметь высоту в 8 и 9 пикселей. Для слишком жирных или машинно-рукописных символов высота может начинаться с 16, 20 и даже с 30 пикселей. Для слишком мелких шрифтов высота может быть увеличена до 60 пикселей.
Не следует рассчитывать, что:
- размеры всех изображений в наборе одинаковые. Это не так! Гарантируется лишь местоположение символа в ячейке размером 100x100 пикселей относительно левого верхнего угла изображения и наличие всех указанных классов символов;
- символ расположен в центре ячейки. Это не так! Выравнивание по центру ячейки производится по высоте строки с символом, а не по высоте символа!
- изображения в оттенках серого. Это не так! Изображение является полноцветным без альфа-канала, поэтому может содержать разные цвета. В основном для шрифта указан черный цвет, но некоторые символы отображаются каким-то своим цветом, например, желтым цветом. Гарантируется лишь, что символ расположен на чисто белом фоне, все не белые пиксели являются частью символа;
- все символы принадлежат одному шрифту. Это не так! Некоторые символы не входят в состав шрифта, поэтому они могут отображаться альтернативным шрифтом или ячейка будет пустой.
Классы символов в наборах
Наборы могут содержать символы следующих классов:
num — цифры от 0 до 9;
en-1 — английские буквы в верхнем регистре;
en-2 — английские буквы в нижнем регистре;
ru-1 — русские буквы в верхнем регистре;
ru-2 — русские буквы в нижнем регистре;
sym1 — символы, входящие в кодировку ASCII (точка, запятая, скобки и т. д.);
sym2 — дополнительные символы, часто используемые в печатных текстах, например, длинное тире или символ рубля;
sym3 — различные графические символы.
Ячейки с символами выделены красными рамками 90x90 для наглядности, в исходном изображении рамок нет.
OCR dataset Main
Набор данных с изображениями шрифтов Main, включает шрифты с поддержкой кириллицы, которые входят в стандартный набор поставки в Windows. Кроме того, добавлены некоторые очень популярные шрифты, например, Open Sans, Montserrat и Roboto. Набор включает символы всех классов, кроме sym3. Представлено максимальное количество начертаний и стилей символов.
В набор входят изображения следующих шрифтов;
Arial
B52
Calibri
Cambria
Candara
Comic Sans MS
Consolas
Constantia
Corbel
Courier New
David
Dotum
Franklin Gothic
Gabriola
Georgia
Impact
Lucida Console
Lucida Sans Unicode
Microsoft Sans Serif
Montserrat
Open Sans
Palatino Linotype
Roboto
Segoe Print
Segoe Script
Segoe UI
Tahoma
Times New Roman
Trebuchet MS
Verdana
Если символ не поддерживается шрифтом, то он отображается другим шрифтом. Чаще всего это относится к символам из набора sym2, например, к символу рубля, который может отображаться шрифтом Montserrat или Roboto.
OCR dataset Main2
Набор данных с изображениями шрифтов Main2, включает дополнительные шрифты с поддержкой кириллицы. Набор включает символы всех классов, кроме sym3. Представлены в основном начертания normal, bold и italic, при условии, что шрифт поддерживает все эти стили. Для популярных шрифтов, например для шрифта Noto Sans, представлено максимальное количество начертаний и стилей символов.
OCR dataset ASCII
Набор данных с изображениями шрифтов ASCII, включает дополнительные шрифты с символами из кодировки ASCII. Набор включает символы следующих классов: num, en-1, en-2 и sym1. Представлено в основном начертание normal.
OCR dataset Numbers
Набор данных с изображениями шрифтов Numbers, включает дополнительные шрифты с цифрами (чаще всего с машинно-рукописными). Набор включает символы только класса num. Представлено в основном начертание normal.
OCR dataset Symbols
Набор данных с изображениями шрифтов Symbols, включает символы только класса sym3. Представлено в основном начертание normal.
Ячейки с символами выделены красными рамками 90x90 для наглядности, в исходном изображении рамок нет.
OCR dataset English Script
Набор данных с изображениями шрифтов English Script, включает дополнительные шрифты с английскими буквами (чаще всего с машинно-рукописными). Набор включает символы только классов en-1 и en-2. Представлено в основном начертание normal.
OCR dataset Russian Script
Набор данных с изображениями шрифтов Russian Script, включает дополнительные шрифты с русскими буквами (чаще всего с машинно-рукописными). Набор включает символы только классов ru-1 и ru-2, а также 4 символа: вопрос, восклицательный знак и круглые скобки. Представлено в основном начертание normal.
Скачать примеры
Как заказать набор?
Стоимость одного набора 1000 руб., все наборы (около 250 шрифтов) — 5000 руб.
Обратите внимание, после оплаты вы получаете лицензию на использование набора, а не эксклюзивные права на него. Иными словами, набор вам не будет продан, вам будут проданы неэксклюзивные права (лицензия) на использование набора!
Заказать набор