Videoforum - форум о видео и не только! - Извлечение изображений и текста из файлов fb2, doc, djvu, epub, pdf

В этой статье я покажу, как при помощи бесплатного софта извлекать без пережатия, в исходном качестве, изображения из различных типов файлов.
Файлы fb2.
В контейнере fb2 изображения хранятся, как они есть, в формате изображений, не смешиваясь с остальным содержимым файла. Например, если в момент формирования fb2-книги для иллюстрации было взято изображение в формате jpg, то внутри fb2 оно так и находится в jpg. Задача – извлечь изображение, не разжимая его и уж тем более не пережимая.
Все известные читалки не имеют очень нужной функции извлечения изображений. Просмотрев массу программ, я убедился, что только одна из них выполняет задачу извлечения на отлично. Это – бесплатный FictionBook.Editor. Последний релиз – v2.6.7.build.14.Nov.
Дальше начинается фантастика. Официальный сайт фикса [Для просмотра данной ссылки нужно зарегистрироваться] Официальное хранилище [Для просмотра данной ссылки нужно зарегистрироваться] Но последний релиз, лежащий там, – 2.6.6. Релиз 2.6.7 был одно время на грибном сайте. Потом что-то произошло, и он исчез. Гарантированно оригинальный релиз 2.6.7 я залил сюда:
[Для просмотра данной ссылки нужно зарегистрироваться]
Не поддавайся на провокацию! Некоторые еноты-полоскуны будут тебе промывать мозги, что, типа, инсталлятор 2.6.7 будет тебе гнать рекламу, и надо бы установить ещё и их хряка, чтобы реклама не шла. Всё это – стопроцентная клевета. Софтина 2.6.7 абсолютно чистая. Вот если ты установишь хряка, вот тогда к тебе и полезут крысы.
Установили. Открываем в FictionBook Editor файл fb2. Существуют три способа извлечения изображений из fb2.
Способ № 1 – поштучно. Жмём "Вид" – "Описание документа". Тянем сухарь вниз, пока не замаячит "Бинарные файлы". Справа от каждого названия изображения находятся три маленькие кнопочки. Крайняя левая, та, что с дискетой, – это и есть сохранить.
Способ № 2 – все сразу. Жмём "Скрипты" – "Иллюстрации" – "Сохранить вложения на диск". Сохранение в этом способе будет произведено непременно в ту папку, где находится исходный fb2. Назначить другую папку для сохранения невозможно.
Способ № 3 – экспериментальный. Идём сюда [Для просмотра данной ссылки нужно зарегистрироваться] Скачиваем Fb2Any. При инсталляции есть смысл установить только типы rtf и txt. В контекстном меню к fb2 появится "Convert to *.rtf…". Изображения эта прога гарантированно не пережимает. Но если исходный файл длинный, то она может преобразовать не весь файл, а некоторую его часть, начиная от начала. Скакни в конец полученного rtf файла. Если он заканчивается тем же, чем и fb2, то тебе повезло. Если обрывается на середине – дыши глубже.
Некоторые однокликовые побыстрейщики рекомендуют для извлечения из fb2 очень не бесплатную софтину STDU Extractor от [Для просмотра данной ссылки нужно зарегистрироваться] Так вот она мало того, что шаровары, так ещё и всегда пережимает.
Как извлекать текст из fb2 – написал в статье "Конвертирование fb2 в формат Word" [Для просмотра данной ссылки нужно зарегистрироваться]
========
Файлы Word (doc, docx, rtf). Если в Ворде командами "Вставка" – "Рисунок" – "Из файла" или им аналогичными мы вставляем файлы изображений jpg и png, то они будут введены в вордовский файл, как они есть. Если мы вставляем файлы bmp, pcx, tiff, gif, то они будут сжаты в безпотерьный png. Программисты Билла здесь хорошо продумали, никаких пережатий с потерями не происходит.
Наверняка существуют какие-то извлекалки для вордовских файлов, но мы не будем заводить вшей. Если ты работаешь на OpenOffice, то жмёшь: "Файл" – "Сохранить как", и сохраняешь в "Типе файла" "HTML". Будут извлечены без пережатия все изображения, находящиеся в файле. Если ты работаешь на Word XP и выше, то жмёшь: "Файл" – "Сохранить как", и сохраняешь в "Типе файла" "Веб-страница (*.htm, *.html,). Появится подпапка, в которую будут извлечены без пережатия все изображения, находящиеся в файле. Word к изображениям ещё добавит их маленькие превью в формате jpg. Эти превью в корзину.
========
Файлы djvu.
В файлах djvu изображения хранятся в своём собственном формате сжатия. "Извлечь" из djvu файл изображения невозможно в принципе. Можно лишь разжать его и сохранить, как файл рисунка. Гарантированно точно это делает программа WinDjView. Также эта программа извлекает текст из djvu, если он там есть. Сайт [Для просмотра данной ссылки нужно зарегистрироваться]
Для сохранения изображения щёлкаем по странице правой кнопкой мыши, далее "Экспорт страницы". Будет сохранена одна страница.
А если нужно сохранить все страницы сразу? Никогда не используй STDU Viewer от [Для просмотра данной ссылки нужно зарегистрироваться] Он вносит искажения в цветовую гамму! Вот тестовый пример – красочная книжка "100 загадок":
[Для просмотра данной ссылки нужно зарегистрироваться]
Искажения заметишь на первой же странице.
Настало время представить ИМХО самый лучший бесплатный боснийский просмотровщик Ирфан [Для просмотра данной ссылки нужно зарегистрироваться] Устанавливаешь его самого, пакет плагинов и русский. Этот Ирфан ещё скажет решающее слово, когда будем говорить о pdf.
Открываешь в Ирфане файл djvu. Жмёшь "Сервис" – "Многостраничные изображения" – "Извлечь все страницы". Выбираешь какой-либо безпотерьный формат со сжатием. Выбор невелик: PNG или Jpeg2000 (Jp2) Lossless. Сжатие в Jp2 Ирфан делает через сторонний плагин от Луры. Будет ныть и требовать номерок. Если кое-что то очень что кое-что, то пиши в Л.С. Замечу, что на сегодняшний день Лура Jp2 Lossless выдаёт самый меньший объём конечного файла, чем все остальные подпрограммы Jp2 Lossless.
Для собственно рисунков Jpeg2000 Lossless даёт объём процентов на 30-40 меньше, чем PNG. Но вот для страниц, где рисунки перемежаются текстом, или только для текста, PNG на максимальном уровне сжатия 9 даёт объём процентов на 30 меньше, чем Jpeg2000 Lossless. Так что рекомендую для сохранения страниц использовать PNG.
=====
Файлы epub.
Эти файлы представляют по своей сути архив. Устанавливаешь 7-zip [Для просмотра данной ссылки нужно зарегистрироваться]
Правый клик по файлу – "Распаковать здесь". И понеслась.
Текст извлекаем, как описано в статье "Конвертирование fb2 в формат Word".
=====
Файлы pdf.
Для экспериментов предлагаю книгу "Наш бронепоезд":
[Для просмотра данной ссылки нужно зарегистрироваться]
С pdf мороки будет чуть побольше. Изображения, находящиеся в pdf, разделяются на два типа. Первый тип – это изображения в формате собственно изображения, чаще всего в jpeg. Такие изображения нужно просто извлечь в их родном формате изображения, не разжимая и не пережимая. Второй тип – это изображения, сжатые средствами контейнера pdf. Назовём такие изображения изображениями "X". "Извлечь" изображения "X" невозможно, их нужно разжимать до bmp.
Хороший извлекатель должен обладать четырьмя достоинствами:
1. Изображения, хранящиеся в формате изображения, просто извлекать, не разжимая и не пережимая.
2. Изображения "X" разжимать до bmp и далее ни во что не пережимать.
3. Извлекать все изображения из любых, в том числе и из защищённых от копирования, файлов pdf.
4. Быть простым и бесплатным, не иметь не относящихся к процессу извлечения наворотов.
Вначале отбросим несколько объективно порочных софтинок, которыми восторгается значительная часть буржуазной нивочтоневникальской публики.
FM PDF Image Extractor Free от [Для просмотра данной ссылки нужно зарегистрироваться] Даже если задано "Format" – "Original", то программа пережимает извлекаемое изображение! Вот так подло, втихаря.
STDU Extractor от [Для просмотра данной ссылки нужно зарегистрироваться] Тоже пережимает.
Free PDF Image Extractor от [Для просмотра данной ссылки нужно зарегистрироваться] Не всегда извлекает изображения "X". Хотя некоторые может и извлечь. При извлечении изображений "X" и несжатых изображений зачем-то сжимает их в формат png. Само по себе это не ухудшает качество, png – безпотерьный формат. Но сжимает в png данная прога с не самым большим коэффициентом сжатия, так что это сжатие – бесполезный труд, потом их всё равно придётся пережимать.
PdfWiz от [Для просмотра данной ссылки нужно зарегистрироваться] Во-первых, шаровары. Во-вторых, не извлекает изображения из защищённых от копирования pdf.
Теперь две действительно жреческие программы, которыми мы и будем пользоваться.
1. Экстрактор от Вини (Пуха?) [Для просмотра данной ссылки нужно зарегистрироваться]
Извлекает все изображения, а также текст и шрифты, если они внедрены. Правда, если pdf защищён от копирования, то вместо текста получишь ересь.
Недостаток – всегда извлекает из всего pdf. Задать диапазон страниц невозможно.
2. Экстрактор от Площади [Для просмотра данной ссылки нужно зарегистрироваться]
Извлекает только изображения. Можно задавать диапазон страниц.
Исполняемые файлы этих обоих софтин можно куда-нибудь скопировать, и после срубания виндузятника на корню просто их запускать, без инсталляции.
Кстати, извлекатель текста от Площади [Для просмотра данной ссылки нужно зарегистрироваться] извлекает текст и из защищённых от копирования pdf.
Текст из pdf нужно извлекать так, чтобы знак абзаца вставлялся только там, где заканчивается абзац, а не после конца каждой строки. Я исследовал десятка два извлекателей текста. Все они всаживают разрыв абзаца после каждой строки! И таки нашёл единственный извлекатель, который вставляет знак абзаца только после окончания абзаца. Это – Лот [Для просмотра данной ссылки нужно зарегистрироваться]
У Лота есть два недостатка. Во-первых, не извлекает из защищённых файлов. Во-вторых, если в слове с дефисом дефис оказывается последним знаком в строке, то Лот принимает его за перенос и удаляет. Например, кое-где превратится в коегде.
Замечу, что от того же Лота программа pdf2word.exe вставляет знак абзаца после конца каждой строки. Следовательно, никуда не годится.
Есть ещё досовская программа xpdf, которая вставляет знак абзаца только в конце абзаца. Геморроя с ней выше крыши, и рассматривать её не будем.
=====
Если изображения нужно извлечь только ради них самих, то на этом можно поставить точку.
Зачастую требуется преобразовать какой-либо файл в вордовский формат. С простеньким fb2 проблем нет. Проблемы возникают с pdf. Существует много конвертеров pdf в Ворд, некоторые из них заявлены, как бесплатные. На каком-то этапе все они начинают вымогать.
Существует действительно бесплатный конвертер, который, к тому же, преобразует лучше платных аналогов. Это – Колибри [Для просмотра данной ссылки нужно зарегистрироваться] Однако и он норовит всадить знак абзаца после каждой строки.
Если в файле пять, или даже десять страниц, то можно извлечь текст Лотом, изображения Вини-Пухом, и отредактировать вручную. А если страниц сто? Попробовав то и сё, я убедился, что лучше всего преобразовывает pdf в Ворд Файнрайдер. Открываешь в нём напрямую pdf, и вперёд. Но. Если pdf защищён от копирования, то Файнрайдер его сплюнет. Вот тут-то всплывает Ирфан.
Тонкости процесса. В Ирфане жмём "Сервис" – "Настройки программы" – "Plugins" – "PDF". Ставим птицу у "Use (new) "PDF.DLL" Plugin". Задаём разрешение (DPI) 600. Для некоторых pdf такое разрешение может оказаться слишком большим, и Ирфан срыгнёт. Тогда задаём 400. Это уже всегда потянет. Сохраняем последовательность страниц в PNG, как описано в разделе про djvu. Скармливаем полученные PNG Файнрайдеру.
В любом случае при прогоне через Файнрайдер изображения будут пережаты. Поэтому надо будет их пере-вставить вручную, используя те изображения, которые извлёк Вини.