Videoforum - форум о видео и не только!

Videoforum - форум о видео и не только! (http://videoforums.ru/index.php)
-   Кодеки и кодеры, кодирование и конвертация. (http://videoforums.ru/forumdisplay.php?f=58)
-   -   Извлечение изображений и текста из файлов fb2, doc, djvu, epub, pdf (http://videoforums.ru/showthread.php?t=6723)

Жрец Нефтиды 06.11.2016 06:13

Извлечение изображений и текста из файлов fb2, doc, djvu, epub, pdf
 
В этой статье я покажу, как при помощи бесплатного софта извлекать без пережатия, в исходном качестве, изображения из различных типов файлов.
Файлы fb2.
В контейнере fb2 изображения хранятся, как они есть, в формате изображений, не смешиваясь с остальным содержимым файла. Например, если в момент формирования fb2-книги для иллюстрации было взято изображение в формате jpg, то внутри fb2 оно так и находится в jpg. Задача – извлечь изображение, не разжимая его и уж тем более не пережимая.
Все известные читалки не имеют очень нужной функции извлечения изображений. Просмотрев массу программ, я убедился, что только одна из них выполняет задачу извлечения на отлично. Это – бесплатный FictionBook.Editor. Последний релиз – v2.6.7.build.14.Nov.
Дальше начинается фантастика. Официальный сайт фикса [Для просмотра данной ссылки нужно зарегистрироваться] Официальное хранилище [Для просмотра данной ссылки нужно зарегистрироваться] Но последний релиз, лежащий там, – 2.6.6. Релиз 2.6.7 был одно время на грибном сайте. Потом что-то произошло, и он исчез. Гарантированно оригинальный релиз 2.6.7 я залил сюда:
[Для просмотра данной ссылки нужно зарегистрироваться]
Не поддавайся на провокацию! Некоторые еноты-полоскуны будут тебе промывать мозги, что, типа, инсталлятор 2.6.7 будет тебе гнать рекламу, и надо бы установить ещё и их хряка, чтобы реклама не шла. Всё это – стопроцентная клевета. Софтина 2.6.7 абсолютно чистая. Вот если ты установишь хряка, вот тогда к тебе и полезут крысы.
Установили. Открываем в FictionBook Editor файл fb2. Существуют три способа извлечения изображений из fb2.
Способ № 1 – поштучно. Жмём "Вид" – "Описание документа". Тянем сухарь вниз, пока не замаячит "Бинарные файлы". Справа от каждого названия изображения находятся три маленькие кнопочки. Крайняя левая, та, что с дискетой, – это и есть сохранить.
Способ № 2 – все сразу. Жмём "Скрипты" – "Иллюстрации" – "Сохранить вложения на диск". Сохранение в этом способе будет произведено непременно в ту папку, где находится исходный fb2. Назначить другую папку для сохранения невозможно.
Способ № 3 – экспериментальный. Идём сюда [Для просмотра данной ссылки нужно зарегистрироваться] Скачиваем Fb2Any. При инсталляции есть смысл установить только типы rtf и txt. В контекстном меню к fb2 появится "Convert to *.rtf…". Изображения эта прога гарантированно не пережимает. Но если исходный файл длинный, то она может преобразовать не весь файл, а некоторую его часть, начиная от начала. Скакни в конец полученного rtf файла. Если он заканчивается тем же, чем и fb2, то тебе повезло. Если обрывается на середине – дыши глубже.
Некоторые однокликовые побыстрейщики рекомендуют для извлечения из fb2 очень не бесплатную софтину STDU Extractor от [Для просмотра данной ссылки нужно зарегистрироваться] Так вот она мало того, что шаровары, так ещё и всегда пережимает.
Как извлекать текст из fb2 – написал в статье "Конвертирование fb2 в формат Word" [Для просмотра данной ссылки нужно зарегистрироваться]
========
Файлы Word (doc, docx, rtf). Если в Ворде командами "Вставка" – "Рисунок" – "Из файла" или им аналогичными мы вставляем файлы изображений jpg и png, то они будут введены в вордовский файл, как они есть. Если мы вставляем файлы bmp, pcx, tiff, gif, то они будут сжаты в безпотерьный png. Программисты Билла здесь хорошо продумали, никаких пережатий с потерями не происходит.
Наверняка существуют какие-то извлекалки для вордовских файлов, но мы не будем заводить вшей. Если ты работаешь на OpenOffice, то жмёшь: "Файл" – "Сохранить как", и сохраняешь в "Типе файла" "HTML". Будут извлечены без пережатия все изображения, находящиеся в файле. Если ты работаешь на Word XP и выше, то жмёшь: "Файл" – "Сохранить как", и сохраняешь в "Типе файла" "Веб-страница (*.htm, *.html,). Появится подпапка, в которую будут извлечены без пережатия все изображения, находящиеся в файле. Word к изображениям ещё добавит их маленькие превью в формате jpg. Эти превью в корзину.
========
Файлы djvu.
В файлах djvu изображения хранятся в своём собственном формате сжатия. "Извлечь" из djvu файл изображения невозможно в принципе. Можно лишь разжать его и сохранить, как файл рисунка. Гарантированно точно это делает программа WinDjView. Также эта программа извлекает текст из djvu, если он там есть. Сайт [Для просмотра данной ссылки нужно зарегистрироваться]
Для сохранения изображения щёлкаем по странице правой кнопкой мыши, далее "Экспорт страницы". Будет сохранена одна страница.
А если нужно сохранить все страницы сразу? Никогда не используй STDU Viewer от [Для просмотра данной ссылки нужно зарегистрироваться] Он вносит искажения в цветовую гамму! Вот тестовый пример – красочная книжка "100 загадок":
[Для просмотра данной ссылки нужно зарегистрироваться]
Искажения заметишь на первой же странице.
Настало время представить ИМХО самый лучший бесплатный боснийский просмотровщик Ирфан [Для просмотра данной ссылки нужно зарегистрироваться] Устанавливаешь его самого, пакет плагинов и русский. Этот Ирфан ещё скажет решающее слово, когда будем говорить о pdf.
Открываешь в Ирфане файл djvu. Жмёшь "Сервис" – "Многостраничные изображения" – "Извлечь все страницы". Выбираешь какой-либо безпотерьный формат со сжатием. Выбор невелик: PNG или Jpeg2000 (Jp2) Lossless. Сжатие в Jp2 Ирфан делает через сторонний плагин от Луры. Будет ныть и требовать номерок. Если кое-что то очень что кое-что, то пиши в Л.С. Замечу, что на сегодняшний день Лура Jp2 Lossless выдаёт самый меньший объём конечного файла, чем все остальные подпрограммы Jp2 Lossless.
Для собственно рисунков Jpeg2000 Lossless даёт объём процентов на 30-40 меньше, чем PNG. Но вот для страниц, где рисунки перемежаются текстом, или только для текста, PNG на максимальном уровне сжатия 9 даёт объём процентов на 30 меньше, чем Jpeg2000 Lossless. Так что рекомендую для сохранения страниц использовать PNG.
=====
Файлы epub.
Эти файлы представляют по своей сути архив. Устанавливаешь 7-zip [Для просмотра данной ссылки нужно зарегистрироваться]
Правый клик по файлу – "Распаковать здесь". И понеслась.
Текст извлекаем, как описано в статье "Конвертирование fb2 в формат Word".
=====
Файлы pdf.
Для экспериментов предлагаю книгу "Наш бронепоезд":
[Для просмотра данной ссылки нужно зарегистрироваться]
С pdf мороки будет чуть побольше. Изображения, находящиеся в pdf, разделяются на два типа. Первый тип – это изображения в формате собственно изображения, чаще всего в jpeg. Такие изображения нужно просто извлечь в их родном формате изображения, не разжимая и не пережимая. Второй тип – это изображения, сжатые средствами контейнера pdf. Назовём такие изображения изображениями "X". "Извлечь" изображения "X" невозможно, их нужно разжимать до bmp.
Хороший извлекатель должен обладать четырьмя достоинствами:
1. Изображения, хранящиеся в формате изображения, просто извлекать, не разжимая и не пережимая.
2. Изображения "X" разжимать до bmp и далее ни во что не пережимать.
3. Извлекать все изображения из любых, в том числе и из защищённых от копирования, файлов pdf.
4. Быть простым и бесплатным, не иметь не относящихся к процессу извлечения наворотов.
Вначале отбросим несколько объективно порочных софтинок, которыми восторгается значительная часть буржуазной нивочтоневникальской публики.
FM PDF Image Extractor Free от [Для просмотра данной ссылки нужно зарегистрироваться] Даже если задано "Format" – "Original", то программа пережимает извлекаемое изображение! Вот так подло, втихаря.
STDU Extractor от [Для просмотра данной ссылки нужно зарегистрироваться] Тоже пережимает.
Free PDF Image Extractor от [Для просмотра данной ссылки нужно зарегистрироваться] Не всегда извлекает изображения "X". Хотя некоторые может и извлечь. При извлечении изображений "X" и несжатых изображений зачем-то сжимает их в формат png. Само по себе это не ухудшает качество, png – безпотерьный формат. Но сжимает в png данная прога с не самым большим коэффициентом сжатия, так что это сжатие – бесполезный труд, потом их всё равно придётся пережимать.
PdfWiz от [Для просмотра данной ссылки нужно зарегистрироваться] Во-первых, шаровары. Во-вторых, не извлекает изображения из защищённых от копирования pdf.
Теперь две действительно жреческие программы, которыми мы и будем пользоваться.
1. Экстрактор от Вини (Пуха?) [Для просмотра данной ссылки нужно зарегистрироваться]
Извлекает все изображения, а также текст и шрифты, если они внедрены. Правда, если pdf защищён от копирования, то вместо текста получишь ересь.
Недостаток – всегда извлекает из всего pdf. Задать диапазон страниц невозможно.
2. Экстрактор от Площади [Для просмотра данной ссылки нужно зарегистрироваться]
Извлекает только изображения. Можно задавать диапазон страниц.
Исполняемые файлы этих обоих софтин можно куда-нибудь скопировать, и после срубания виндузятника на корню просто их запускать, без инсталляции.
Кстати, извлекатель текста от Площади [Для просмотра данной ссылки нужно зарегистрироваться] извлекает текст и из защищённых от копирования pdf.
Текст из pdf нужно извлекать так, чтобы знак абзаца вставлялся только там, где заканчивается абзац, а не после конца каждой строки. Я исследовал десятка два извлекателей текста. Все они всаживают разрыв абзаца после каждой строки! И таки нашёл единственный извлекатель, который вставляет знак абзаца только после окончания абзаца. Это – Лот [Для просмотра данной ссылки нужно зарегистрироваться]
У Лота есть два недостатка. Во-первых, не извлекает из защищённых файлов. Во-вторых, если в слове с дефисом дефис оказывается последним знаком в строке, то Лот принимает его за перенос и удаляет. Например, кое-где превратится в коегде.
Замечу, что от того же Лота программа pdf2word.exe вставляет знак абзаца после конца каждой строки. Следовательно, никуда не годится.
Есть ещё досовская программа xpdf, которая вставляет знак абзаца только в конце абзаца. Геморроя с ней выше крыши, и рассматривать её не будем.
=====
Если изображения нужно извлечь только ради них самих, то на этом можно поставить точку.
Зачастую требуется преобразовать какой-либо файл в вордовский формат. С простеньким fb2 проблем нет. Проблемы возникают с pdf. Существует много конвертеров pdf в Ворд, некоторые из них заявлены, как бесплатные. На каком-то этапе все они начинают вымогать.
Существует действительно бесплатный конвертер, который, к тому же, преобразует лучше платных аналогов. Это – Колибри [Для просмотра данной ссылки нужно зарегистрироваться] Однако и он норовит всадить знак абзаца после каждой строки.
Если в файле пять, или даже десять страниц, то можно извлечь текст Лотом, изображения Вини-Пухом, и отредактировать вручную. А если страниц сто? Попробовав то и сё, я убедился, что лучше всего преобразовывает pdf в Ворд Файнрайдер. Открываешь в нём напрямую pdf, и вперёд. Но. Если pdf защищён от копирования, то Файнрайдер его сплюнет. Вот тут-то всплывает Ирфан.
Тонкости процесса. В Ирфане жмём "Сервис" – "Настройки программы" – "Plugins" – "PDF". Ставим птицу у "Use (new) "PDF.DLL" Plugin". Задаём разрешение (DPI) 600. Для некоторых pdf такое разрешение может оказаться слишком большим, и Ирфан срыгнёт. Тогда задаём 400. Это уже всегда потянет. Сохраняем последовательность страниц в PNG, как описано в разделе про djvu. Скармливаем полученные PNG Файнрайдеру.
В любом случае при прогоне через Файнрайдер изображения будут пережаты. Поэтому надо будет их пере-вставить вручную, используя те изображения, которые извлёк Вини.

Prtava 06.11.2016 12:03

Цитата:

Сообщение от Жрец Нефтиды (Сообщение 69299)
изображения из различных типов файлов.
Файлы fb2.

намного проще клавиша PrtScr и открывай в любом редакторе изображений и делай с ним что хочешь.
Ну извлечение изображений - это может кому и надо, но зачем извлекать откуда то текст.

rococo795 06.11.2016 14:45

Prtava,

что не понятного.... реальной живой работы нет в этом плане, вот Жрец и тренирует мозги, чтоб не заржавели )))))))
да я вообще удивлён, как это он стоко времени - без статей и постов...!!!

Prtava 06.11.2016 21:08

А что надо обязательно извлекать текст, просто взять и почитать нельзя? На десятке быстро и бесплатно, без рысканий по сети, например этим
[Для просмотра данной ссылки нужно зарегистрироваться]
ну а с PDF десятка работает по умолчанию средствами самой системы, а также имеет функцию "печать в PDF"
[Для просмотра данной ссылки нужно зарегистрироваться]

Alfa2908 10.11.2016 19:47

Цитата:

Сообщение от Prtava (Сообщение 69307)
ну а с PDF десятка работает по умолчанию средствами самой системы

Если под термином работать понимается возможность прочитать и распечатать, то это конечно круто и достаточно, но если серьезно, то бывает фрагменты документов из сети нужно вставить в свои, и в другом формате, виде, с редакцией, и т. д., то без нормальной проги с PDF файлом не так и просто справиться, меня всегда выручал файнридер, причем приходилось иметь несколько версий сразу, одни документы лучше распознаются одной версией. другие было лучше более старыми, а в целом все равно это канитель с ручной правкой, какие только хваленые не пробовал, только заверения и обещания, а на практике швах.

Prtava 11.11.2016 14:06

Цитата:

Сообщение от Alfa2908 (Сообщение 69344)
меня всегда выручал файнридер

В отличие от действительно качественных продуктов Adobe - Photoshop, Premiere, AfterEffects, Audition, очень рекомендуется не иметь в любой винде две огромных дыры в безопасности, причем почему то для тривиальных целей имеющих гигпбайтные обновы - flash player и finereader. Недаром все нормальные браузеры уже как полгода отказались от adobeflash и именно не-за нового html5, а из-за неисправляемой годами дыры в безопасности.

Цитата:

Сообщение от Alfa2908 (Сообщение 69344)
то бывает фрагменты документов из сети нужно вставить в свои, и в другом формате

А что нельзя просто создать новый необходимый текстовый документ в нужном формате путем копи-пасте в него. В десятке например можно любой формат исходного документа редактировать только средствами системы.
А весь этот жреческий мазохизм с видео/аудио, а теперь и текст с картинками, применим только к реликтам типа ХР.

Alfa2908 11.11.2016 16:17

Цитата:

Сообщение от Prtava (Сообщение 69355)
А что нельзя просто создать новый необходимый текстовый документ

Не каждый текстовый документ можно создать самому, к примеру расчет траектории полета зонда, расчет движения планет и положение их на определенное число будущего, расчет астрологической карты на определенный день в будущем, и т. д., если у Вас нет потребности в определенной информации, не означает, что такой необходимости нет у других, думаю это понять не так уж и трудно.

Prtava 11.11.2016 17:47

Alfa2908,
А в каком расширении все эти ваши "...расчет траектории полета зонда, расчет движения планет и положение их на определенное число будущего, расчет астрологической карты на определенный день в будущем..."? Если это файлы математических спец прог, то в них и надо заниматься редактированием или инкрементными их обновлениями. А если это обычные файлы rtf, pdf, ms/open/libre office расширения, то нет никаких проблем работы с ними в виндах начиная с 8.1.
Ну а книжные файлы fb2, djvu и пр - не представляю, зачем скачав книгу преобразовывать ее в другой текстовый формат вместо чтения.
Согласен - можно выдрать понравившуюся/нужную картинку, но опять же простейшими системными средствами, тот же PrtScr ни насколько не ухудшит качество оригинала.

Alfa2908 11.11.2016 19:41

Цитата:

Сообщение от Prtava (Сообщение 69367)
тот же PrtScr ни насколько не ухудшит качество оригинала.

Я раньше так и делал, но это не удобно, часто информация бывает ведущей, а некоторые данные надо вводить свои, потом редакция и т. д, после PrtScr все равно Файнридер ворд и т. п., проще сразу файнридер, помечаешь и в ворд, а там уж с редакцией проблем нет.
Ну а по астрологии программы нужные есть, но очень много нужной ценной информации идет в pdf, ее иногда надо использовать у себя, а она полна спец символов и Т. д, самому с листа все можно сделать, но это время на порядок больше, и труда и канители на столько же, вобщем иногда бывает надо, и получается по разному, когда все легко перепаковывается, когда чуть ли не половину правишь, но выход приемлемый.

Жрец Нефтиды 14.11.2016 15:50

Если файл нужно только прочитать, то и вопросов нет: берём любую понравившуюся читалку. Вопрос тут в другом. Масса народа занимается видео монтажом, и это не вызывает ни у кого свербления. Также масса народа занимается, скажем так, монтажом текстово-рисуночно-формульных файлов. Видео монтажник знает, к чему ведёт пережатие. Ну или должен знать. Книжный монтажник частенько даже не представляет, чем чревато пережатие рисунка. Вот для них я и написал, как извлекать в исходном качестве.
Альфа, ты поднял интересный вопрос. Сложные pdf с массой формул и таблиц одним махом в ворд не преобразуешь, тут всегда нужна ручная работа.
Цитата:

Сообщение от Alfa2908 (Сообщение 69357)
Не каждый текстовый документ можно создать самому, к примеру расчет траектории полета зонда, расчет движения планет и положение их на определенное число будущего, расчет астрологической карты на определенный день в будущем.

А я полагаю, что каждый. Вордовский редактор формул позволит написать абсолютно любую формулу.


Часовой пояс GMT +1, время: 23:37.

Powered by vBulletin® Version 3.8.3
Copyright ©2000 - 2024, Jelsoft Enterprises Ltd. Перевод: zCarot