dap: (Default)
dap ([personal profile] dap) wrote2011-02-09 10:13 pm

Распознавание текста: cuneiform + yagf

Появилась необходимость распознать и перевести pdf. Попробовал онлайн-сервисы: оказалось, что pdf защищённая. Поскольку идея залить в интернеты надцать картинок меня не порадовала, посовещался с гуглом и обратился к репозиторию: sudo aptitude install --without-recommends cuneiform yagf aspell aspell-ru

По рекомендациям тянет библиотеки для сканирования. CuneiForm — свободно распространяемая открытая система оптического распознавания текстов. YAGF — графическая оболочка для cuneiform. Распознавание вполне качественное, на один раз сгодится — на уровне файнридера 5летней давности.

Минусы:

- pdf импортировать не умеет в принципе;

- скопированные фрагменты распознало ужасно, пришлось принтскринить, увеличив масштаб;

- не распознало таблицу.

Плюсы:

+ оно работает!

+ проще распознать в нём, чем набирать вручную.

Мусор: sudo aptitude purge libgnome-bluetooth7 libgnome2-perl libgnome2-vfs-perl libgnomecups1.0-1 libgnome2-canvas-perl libgnomeprintui2.2-common libgnomeprint2.2-data libgnomescan-common libgnome-keyring1.0-cil libgnome-mag2 libgnome-pilot2 libgnomevfs2-extra gnome-search-tool gnome-session