December 6, 2019

Распознавание таблиц и текста в колонках (лайфхаки в FineReader — 2)

Как распознавать таблицы

  1. Выделите таблицу областью «Таблица».
  2. Нажмите правой кнопкой «Анализ структуры таблицы» или через меню: «Область» — «Анализ структуры таблицы». Вы увидите, как программа сама распознает таблицу (спойлер: часто очень плохо).
  3. Вставьте недостающие и уберите лишние границы. Это избавит вас от необходимости после распознавания добавлять недостающие и удалять лишние строки, переносить в них текст и т.п.
  4. Передать в файл/сохранить страницы — перед этим программа предложит распознать, жмите «Да».
Выбор таблицы - анализ структуры - ручное допиливание структуры - готово к распознанию (gif)

 

Текст в 2-3 колонках

По умолчанию FineReader распознает весь текст так, будто он оформлен одной колонкой. Вручную разделять колонки, как на примерах, придется долго.

Выделите 3 отдельные зоны как область «Текст». Удобнее для вас, но не критично, если граница между зонами будет проходить по концу абзаца, не разрывая предложение, как на первой паре изображений.

Пример выделения областей текста в колонках
Пример выделения областей текста в колонках

Зоны текста и таблицы

Выделение зоны текста, правильный подбор языков, доработка внутренностей таблицы тратят несколько минут на обработку pdf — но порой экономят полчаса-час на том, что НЕ придется исправлять криво распознанные тексты. В этом видео:

  • выделение областей «Текст», «Изображение», «Таблица»;
  • направление текста — обычное, повернутое влево (для распознания вертикальных подписей у графиков и т.п.);
  • корректировка «не тот язык!» благодаря предпросмотру в соседнем поле;
  • корректировка таблицы, где пришлось разделить текст на ячейки, чтобы он не шел одним абзацем + объединение ячеек в одну для вертикальной подписи справа (хотя можно было все выделить как «Текст», но тогда не получится разделить текст на ячейки/абзацы).
Выделение областей текста (длительность 3:43)

Расскажите, что вам еще хотелось бы узнать? Насколько понятным (избыточным, недостаточным) был этот материал?
Пишите @SvetKorLT (Светлана Коршунова) из команды текстов и аналитики Центра