December 6, 2019
Распознавание таблиц и текста в колонках (лайфхаки в FineReader — 2)
Как распознавать таблицы
- Выделите таблицу областью «Таблица».
- Нажмите правой кнопкой «Анализ структуры таблицы» или через меню: «Область» — «Анализ структуры таблицы». Вы увидите, как программа сама распознает таблицу (спойлер: часто очень плохо).
- Вставьте недостающие и уберите лишние границы. Это избавит вас от необходимости после распознавания добавлять недостающие и удалять лишние строки, переносить в них текст и т.п.
- Передать в файл/сохранить страницы — перед этим программа предложит распознать, жмите «Да».
Текст в 2-3 колонках
По умолчанию FineReader распознает весь текст так, будто он оформлен одной колонкой. Вручную разделять колонки, как на примерах, придется долго.
Выделите 3 отдельные зоны как область «Текст». Удобнее для вас, но не критично, если граница между зонами будет проходить по концу абзаца, не разрывая предложение, как на первой паре изображений.
Зоны текста и таблицы
Выделение зоны текста, правильный подбор языков, доработка внутренностей таблицы тратят несколько минут на обработку pdf — но порой экономят полчаса-час на том, что НЕ придется исправлять криво распознанные тексты. В этом видео:
- выделение областей «Текст», «Изображение», «Таблица»;
- направление текста — обычное, повернутое влево (для распознания вертикальных подписей у графиков и т.п.);
- корректировка «не тот язык!» благодаря предпросмотру в соседнем поле;
- корректировка таблицы, где пришлось разделить текст на ячейки, чтобы он не шел одним абзацем + объединение ячеек в одну для вертикальной подписи справа (хотя можно было все выделить как «Текст», но тогда не получится разделить текст на ячейки/абзацы).
Расскажите, что вам еще хотелось бы узнать? Насколько понятным (избыточным, недостаточным) был этот материал?
Пишите @SvetKorLT (Светлана Коршунова) из команды текстов и аналитики Центра