OCR

Систематизация архива е-книг (Q)

А вот, я извиняюсь, вопрос.

Есть большой архив электрической литературы, который возник по той простой причине, что нужные книжки почему-то оказываются в многогигабайтных архивах в торрентах, а не отдельными файлами (либо даже можно тянуть пофайлово, но названия файлов такие, что не разобраться без поллитры).

Форматы обычные для таких помоек: pdf (зачастую графический, а не текстовый), djvu, немножко офиса, немножко постскрипта. Все rar/zip-ы развернуты, время на это потратил уже. Десятки тысяч текстов, включая туда и все выпуски журнала "Мурзилка" (условно, Мурзилки как раз нет), первые сотни гигабайт на диске.

Хочется: распознать из каждой книжки первые 2-3 килобайта текста с каким-то качеством (можно - с плохим). Только автоматически, не открывая каждую в Файнридере. Распознавать целиком - слишком долго и не нужно, думаю что 99.9% этого надо просто стереть (или похранить, что то же самое).

Может быть есть какие-то средства automation оного FineReader (или каких-то других разумных OCR)? Куда копать?

(получив первые страницы текста, я уже знаю что с этим делать разумного: тематику постараюсь распознать, поисковый индекс по этому сделаю).

Subscribe to OCR