Обзор пользовательского
интерфейса DreamDocs OCR

Добро пожаловать на страницу документации DreamDocs OCR, где Вы можете изучить основы работы.
Основные функции
DreamDocs OCR предназначен для преобразования большого количества документов. Это серверное решение для OCR и PDF конвертации позволяет быстро, точно и автоматически преобразовывать отсканированные и электронные документы в PDF или другие форматы для поиска, долгосрочного хранения, совместной работы или дополнительной обработки. Полностью масштабируемый в соответствии с потребностями вашего учреждения, DreamDocs OCR легко интегрируется в любой документооборот.

Оптическое распознавание текста (OCR)

Программа OCR может конвертировать отсканированные документы в редактируемые форматы Word, Excel, PDF и изображения. Вы также можете использовать ее для конвертирования из PDF в Word, Excel, текст и другие форматы. Программа поддерживает широкий спектр форматов файлов, таких как JPEG, TIFF, Word, Excel, OpenDocument Text (ODT), PowerPoint, HTML и многие другие.

OCR на основе искусственного интеллекта обеспечивает быстрые и точные результаты на русском и английском языках.

Распознавание штрихкодов

Распознает одномерные и двумерные штрихкоды, такие как UPC-A, UPC-E, EAN 8/13, Code 128 (A, B), Code 39 (буквенные и цифровые), Code 93, Codabar и MSI (матрица 2 из 5). Функциональность распознавания штрихкодов основана на технологии искусственного интеллекта для повышения точности и скорости.

Масштабируемость при больших объемах

Преобразование больших объемов документов за короткий промежуток времени.

Интеграция в существующие системы

Легко подключается к цифровым архивам или корпоративным системам управления контентом через XML-билеты, API на базе COM и API веб-служб, включая REST API

Простой в использовании интерфейс

Конвертирует документы одним нажатием кнопки.

Высокопроизводительный механизм распознавания символов

Выполняет распознавание текста "на лету" для достижения высокой точности и скорости.

Установка программного обеспечения DreamDocs OCR
Вход в сервис
Вход в сервис

Для входа в портал запустите браузер и наберите в адресной строке URL- адрес портала, который Вам предоставит администратор системы.
Как правило, это строка вида:

http://reestrpo.aprbot.com:9900/

Например, Открываем страницу загрузки файла http://reestrpo.aprbot.com:9900/upload/ и указываем необходимую информацию:
Указываем ключ доступа key = doca-win1

Далее использование согласно Документации, содержащей описание функциональных характеристик программного обеспечения DreamDocs OCR.
Подключение к сервису по Secure Shell
Подключение к серверу происходит по паролю. В терминале (cmd/powershell в случае Windows) требуется ввести команду
ssh buriy@reestrpo.aprbot.com
После неё будет запрашиваться пароль, требуется вставить A9F-B7C-F33-2AD-19F. Возможно, перед запросом пароля будет выведено подобное сообщение:

The authenticity of host 'reestrpo.aprbot.com (84.201.174.71)' can't be established.
ED25519 key fingerprint is SHA256:aujXCV+zp2GbknAWPF3k1KuQo+5O97aEGasSnIVrxL8.
This key is not known by any other names
Are you sure you want to continue connecting (yes/no/[fingerprint])?


В этом случае требуется ввести yes.

Если всё было сделано правильно, покажется подобный вывод:


Welcome to Ubuntu 20.04.3 LTS (GNU/Linux 5.4.0-96-generic x86_64)

* Documentation: https://help.ubuntu.com
* Management: https://landscape.canonical.com
* Support: https://ubuntu.com/advantage
Last login: ... from ...
buriy@aprbotdemo:~$


Теперь мы находимся в домашней папке пользователя buriy, которая содержит директории aprbot и bin:

buriy@aprbotdemo:~$ pwd
/home/buriy

buriy@aprbotdemo:~$ ls
aprbot bin

Структура файлов AprBot
Корневая папка содержит две директории:

  • aprbot — содержит описываемые далее подпрограммы doca, docanorm, docaml, dreamocr и ресурсы data. В корне многих проектов встречаются файлы с одними и теми же названиями:
    – LICENSE — файл лицензии;
    – poetry.lock, pyproject.toml, requirements.txt — файлы с информацией о зависимостях проекта;
    – Makefile — команды проекта;
    – README.md — как правило, самая базовая документация
    – logs — файлы протоколирования;
    – build — скомпилированная версия основного подмодуля
    – compile_*.py — скрипты для компиляции проекта
    – INSTALL — особые инструкции по установке
    – notebooks — блокноты тестирования
    – pycache — байт-код некоторых функций
  • bin — скрипты для запуска различных служб из aprbot

data

data — папка с основными ресурсами подпрограмм, включающая разделы:

db — база данных;

files — файлы, на которые ссылается база данных;

lock — файлы блокировок;

models — обученные модели;

vendor — словари, отображения





docrender

DocRender — маленькая программа для рендеринга (рисования) документов, представленных в .json, в pdf и html документы. Включает директории:

docrender — собственно основная программная логика;

meta — вспомогательные утилиты;

test_docs — документы для тестирования;

testing — модульные и интеграционные тесты





dreamocr.data

Выделенная в отдельный проект коллекция ресурсов программы AprBotOCR (DreamOCR). Включает каталоги:

configs — глобальные конфигурационные файлы под разные спецификации;

examples — примеры и указания к оформлению различных конфигурационных файлов, настроек проекта;

key — файлы ключей к внешним ресурсам, в том числе ocr-серверам AprBot;

models — файлы моделей и их метаданные





dreamocr

AprBotOCR (DreamOCR) — программа для распознавания текста и графических объектов на изображениях и pdf-документах, а также их обработки.


Структура каталога dreamocr:



data — ссылка на dreamocr.data;

dreamocr — модуль с основной логикой; включает:

cfg.py — файл обработки конфигурационных файлов модуля;

constants — глобальные конфигурации модуля и окружения;

env.py — хранилище переменных окружения;

utils — утилиты обработки pdf-документов, логгирования, работы с файловой системой и изображениями;

tools — высокоуровневые функции обработки документов;

types — основные используемые классы;

jdoc — изолированный модуль с используемыми классами документов;

cython_packs — оптимизированные функции;

text_layer — логика генерации и обработки текстового слоя;

models — логика работы с моделями распознавания графических объектов;

preprocessing — логика предобработки изображений и pdf-документов;

docrender — ссылка на основной модуль DocRender;

pdf_pipeline — модуль, консолидирующий логику остальных модулей, главный конвейер проекта;

ocr.py — файл, предоставляющий доступ к главной функции проекта и CLI-интерфейс её использования;

api — API-функции для взаимодействия с удалёнными ресурсами;


dev — функционал, ещё не внедрённый в основную логику;

documentation — техническая документация (для разработчиков);

backend — серверная часть программы;

build — скомпилированная версия модуля dreamocr с аналогичной структурой;

meta — вспомогательные утилиты для взаимодействия с проектом и подготовки его к компиляции;

hotfolder, hotfolder.yaml — менеджер обработки документов и его конфигурационные файлы;

run_conda_linux.sh, run_conda_windows.bat, run_watch_linux.sh, run_watch_windows.bat — скрипты запуска окружения проекта и менеджера обработки документов для разных операционных систем;

test_docs — документы для тестирования;

examples, notebooks — примеры использования программы (для разработчиков);

testing — модульные, интеграционные, функциональные тесты;

README.md — файл с описанием команд основного модуля и менеджера обработки документов



doca

doca — программа аннотирования документов.


Структура каталога doca:



docs — файлы документации;

backend — программно-аппаратная часть сервиса;

frontend — часть сервиса, ответственная за пользовательский интерфейс;

reboot.sh — скрипт перезапуска;

public — скомпилированный frontend

static — ресурсы public

pc — изолированный frontend для использования на независимом компьютере





docanorm

docanorm — программа поиска и нормализации сущностей документа. Состоит из модуля search, ответственного за поиск, и norm, ответственного за нормализацию




docaml

docaml — средства анализа документов. Содержимое каталога:


backend — логика сервиса, включающая:

– **train_*.sh** — файлы для запуска обучения

dreamocr_light, ocr.py — упрощенную версию dreamocr

processing — основной модуль обработки текстовой информации документов

doca — программа doca

conf — данные конфигурации

– прочие файлы и каталоги напрямую связаны с тренировкой моделей


utils — утилиты для работы с документами

block_user.py, fix.sh, pdfdump.py — вспомогательные скрипты

bin — вспомогательные команды

Информация для эксплуатации программного обеспечения DreamDocs OCR
Системные требования для эксплуатации DreamDocs OCR
Поддерживаемые браузеры

AprBot лучше всего работает с новейшими версиями современных браузеров. Ниже приведен список минимальных рекомендуемых версий браузеров, используемых для работы с ApRbot. Работа с ApRbot на более старых версиях браузеров не гарантируется.

Браузеры настольных ПК:

  • Internet Explorer 11 для Windows 7, 8.1, 10
  • Edge 89.0.774.68 для Windows 10
  • Safari 14.0 для Mac OS 11.2.3
  • Chrome для Mac 11.2.3 и Windows 10
  • Firefox 87.0
  • Яндекс браузер

Мобильные браузеры:


  • Браузер по умолчанию в Android
  • Chrome для iOS
  • Safari для iOS

Сейчас ApRbot доступен на следующих языках:

  • Английский
  • Русский
Описание функциональных характеристик программного обеспечения DreamDocs OCR
1. Страница загрузки файла
Открываем страницу загрузки файла http://reestrpo.aprbot.com:9900/upload/ и указываем необходимую информацию:
1.1. Указываем ключ доступа key = doca-win1

1.2. Загружаем файл

1.3. Получаем upload_id файла, который необходимо сохранить для дальнейшего использования в формате:

{

"upload_id": 757106,

"upload_hash": "6784e6d3a2d797c3e0d4be1bc7b64fb047045eef"

}

2. Страница настройки конфигурации распознавания и запуска распознавания
http://reestrpo.aprbot.com:9900/recognize/

Указываем ключ, key = doca-win1

upload_id = id файла, который мы получили на предыдущем шаге

params = {

'ocr' : 'dreamocr'

}
получаем task_id, который сохраняем для дальнейшего использования

{
"task_id": 770015,
"file_hash": "6784e6d3a2d797c3e0d4be1bc7b64fb047045eef",
"status": 10,
"modified": "2022-10-20T17:28:59.196Z"
}
3. Страница получения результатов распознавания
http://reestrpo.aprbot.com:9900/status/

пишешь ключ, даёшь task id,
Получаем статус и ссылки на файлы : .pdf с текстовым слоем и .json
Значение поля Status:
40 – готов
30 – ошибка
10 или 20 – загружается

Теперь по адресу
http://reestrpo.aprbot.com:9900/files/pdf/67/6784e6d3a2_f3220e4b51.pdf
Можно получит файл pdf