Videoforum - форум о видео и не только!


Вернуться   Videoforum - форум о видео и не только! > Видеосъёмка и монтаж. > Кодеки и кодеры, кодирование и конвертация.

Важная информация

Кодеки и кодеры, кодирование и конвертация. Тут обсуждаются вопросы изменения формата видео, качество работы кодировщиков, а так-же известные проблемы и решения соответствующие тематике раздела.

Ответ
 
Опции темы
Старый 06.11.2016, 06:13   #1
Жрец Нефтиды
Модератор
 
Аватар для Жрец Нефтиды
 
Регистрация: 15.07.2012
Адрес: Санкт-Петербург
Сообщений: 1,395
Сказал(а) спасибо: 344
Поблагодарили 539 раз(а) в 368 сообщениях
Вес репутации: 623
Жрец Нефтиды has a reputation beyond reputeЖрец Нефтиды has a reputation beyond reputeЖрец Нефтиды has a reputation beyond reputeЖрец Нефтиды has a reputation beyond reputeЖрец Нефтиды has a reputation beyond reputeЖрец Нефтиды has a reputation beyond repute
По умолчанию Извлечение изображений и текста из файлов fb2, doc, djvu, epub, pdf

В этой статье я покажу, как при помощи бесплатного софта извлекать без пережатия, в исходном качестве, изображения из различных типов файлов.
Файлы fb2.
В контейнере fb2 изображения хранятся, как они есть, в формате изображений, не смешиваясь с остальным содержимым файла. Например, если в момент формирования fb2-книги для иллюстрации было взято изображение в формате jpg, то внутри fb2 оно так и находится в jpg. Задача – извлечь изображение, не разжимая его и уж тем более не пережимая.
Все известные читалки не имеют очень нужной функции извлечения изображений. Просмотрев массу программ, я убедился, что только одна из них выполняет задачу извлечения на отлично. Это – бесплатный FictionBook.Editor. Последний релиз – v2.6.7.build.14.Nov.
Дальше начинается фантастика. Официальный сайт фикса [Для просмотра данной ссылки нужно зарегистрироваться] Официальное хранилище [Для просмотра данной ссылки нужно зарегистрироваться] Но последний релиз, лежащий там, – 2.6.6. Релиз 2.6.7 был одно время на грибном сайте. Потом что-то произошло, и он исчез. Гарантированно оригинальный релиз 2.6.7 я залил сюда:
[Для просмотра данной ссылки нужно зарегистрироваться]
Не поддавайся на провокацию! Некоторые еноты-полоскуны будут тебе промывать мозги, что, типа, инсталлятор 2.6.7 будет тебе гнать рекламу, и надо бы установить ещё и их хряка, чтобы реклама не шла. Всё это – стопроцентная клевета. Софтина 2.6.7 абсолютно чистая. Вот если ты установишь хряка, вот тогда к тебе и полезут крысы.
Установили. Открываем в FictionBook Editor файл fb2. Существуют три способа извлечения изображений из fb2.
Способ № 1 – поштучно. Жмём "Вид" – "Описание документа". Тянем сухарь вниз, пока не замаячит "Бинарные файлы". Справа от каждого названия изображения находятся три маленькие кнопочки. Крайняя левая, та, что с дискетой, – это и есть сохранить.
Способ № 2 – все сразу. Жмём "Скрипты" – "Иллюстрации" – "Сохранить вложения на диск". Сохранение в этом способе будет произведено непременно в ту папку, где находится исходный fb2. Назначить другую папку для сохранения невозможно.
Способ № 3 – экспериментальный. Идём сюда [Для просмотра данной ссылки нужно зарегистрироваться] Скачиваем Fb2Any. При инсталляции есть смысл установить только типы rtf и txt. В контекстном меню к fb2 появится "Convert to *.rtf…". Изображения эта прога гарантированно не пережимает. Но если исходный файл длинный, то она может преобразовать не весь файл, а некоторую его часть, начиная от начала. Скакни в конец полученного rtf файла. Если он заканчивается тем же, чем и fb2, то тебе повезло. Если обрывается на середине – дыши глубже.
Некоторые однокликовые побыстрейщики рекомендуют для извлечения из fb2 очень не бесплатную софтину STDU Extractor от [Для просмотра данной ссылки нужно зарегистрироваться] Так вот она мало того, что шаровары, так ещё и всегда пережимает.
Как извлекать текст из fb2 – написал в статье "Конвертирование fb2 в формат Word" [Для просмотра данной ссылки нужно зарегистрироваться]
========
Файлы Word (doc, docx, rtf). Если в Ворде командами "Вставка" – "Рисунок" – "Из файла" или им аналогичными мы вставляем файлы изображений jpg и png, то они будут введены в вордовский файл, как они есть. Если мы вставляем файлы bmp, pcx, tiff, gif, то они будут сжаты в безпотерьный png. Программисты Билла здесь хорошо продумали, никаких пережатий с потерями не происходит.
Наверняка существуют какие-то извлекалки для вордовских файлов, но мы не будем заводить вшей. Если ты работаешь на OpenOffice, то жмёшь: "Файл" – "Сохранить как", и сохраняешь в "Типе файла" "HTML". Будут извлечены без пережатия все изображения, находящиеся в файле. Если ты работаешь на Word XP и выше, то жмёшь: "Файл" – "Сохранить как", и сохраняешь в "Типе файла" "Веб-страница (*.htm, *.html,). Появится подпапка, в которую будут извлечены без пережатия все изображения, находящиеся в файле. Word к изображениям ещё добавит их маленькие превью в формате jpg. Эти превью в корзину.
========
Файлы djvu.
В файлах djvu изображения хранятся в своём собственном формате сжатия. "Извлечь" из djvu файл изображения невозможно в принципе. Можно лишь разжать его и сохранить, как файл рисунка. Гарантированно точно это делает программа WinDjView. Также эта программа извлекает текст из djvu, если он там есть. Сайт [Для просмотра данной ссылки нужно зарегистрироваться]
Для сохранения изображения щёлкаем по странице правой кнопкой мыши, далее "Экспорт страницы". Будет сохранена одна страница.
А если нужно сохранить все страницы сразу? Никогда не используй STDU Viewer от [Для просмотра данной ссылки нужно зарегистрироваться] Он вносит искажения в цветовую гамму! Вот тестовый пример – красочная книжка "100 загадок":
[Для просмотра данной ссылки нужно зарегистрироваться]
Искажения заметишь на первой же странице.
Настало время представить ИМХО самый лучший бесплатный боснийский просмотровщик Ирфан [Для просмотра данной ссылки нужно зарегистрироваться] Устанавливаешь его самого, пакет плагинов и русский. Этот Ирфан ещё скажет решающее слово, когда будем говорить о pdf.
Открываешь в Ирфане файл djvu. Жмёшь "Сервис" – "Многостраничные изображения" – "Извлечь все страницы". Выбираешь какой-либо безпотерьный формат со сжатием. Выбор невелик: PNG или Jpeg2000 (Jp2) Lossless. Сжатие в Jp2 Ирфан делает через сторонний плагин от Луры. Будет ныть и требовать номерок. Если кое-что то очень что кое-что, то пиши в Л.С. Замечу, что на сегодняшний день Лура Jp2 Lossless выдаёт самый меньший объём конечного файла, чем все остальные подпрограммы Jp2 Lossless.
Для собственно рисунков Jpeg2000 Lossless даёт объём процентов на 30-40 меньше, чем PNG. Но вот для страниц, где рисунки перемежаются текстом, или только для текста, PNG на максимальном уровне сжатия 9 даёт объём процентов на 30 меньше, чем Jpeg2000 Lossless. Так что рекомендую для сохранения страниц использовать PNG.
=====
Файлы epub.
Эти файлы представляют по своей сути архив. Устанавливаешь 7-zip [Для просмотра данной ссылки нужно зарегистрироваться]
Правый клик по файлу – "Распаковать здесь". И понеслась.
Текст извлекаем, как описано в статье "Конвертирование fb2 в формат Word".
=====
Файлы pdf.
Для экспериментов предлагаю книгу "Наш бронепоезд":
[Для просмотра данной ссылки нужно зарегистрироваться]
С pdf мороки будет чуть побольше. Изображения, находящиеся в pdf, разделяются на два типа. Первый тип – это изображения в формате собственно изображения, чаще всего в jpeg. Такие изображения нужно просто извлечь в их родном формате изображения, не разжимая и не пережимая. Второй тип – это изображения, сжатые средствами контейнера pdf. Назовём такие изображения изображениями "X". "Извлечь" изображения "X" невозможно, их нужно разжимать до bmp.
Хороший извлекатель должен обладать четырьмя достоинствами:
1. Изображения, хранящиеся в формате изображения, просто извлекать, не разжимая и не пережимая.
2. Изображения "X" разжимать до bmp и далее ни во что не пережимать.
3. Извлекать все изображения из любых, в том числе и из защищённых от копирования, файлов pdf.
4. Быть простым и бесплатным, не иметь не относящихся к процессу извлечения наворотов.
Вначале отбросим несколько объективно порочных софтинок, которыми восторгается значительная часть буржуазной нивочтоневникальской публики.
FM PDF Image Extractor Free от [Для просмотра данной ссылки нужно зарегистрироваться] Даже если задано "Format" – "Original", то программа пережимает извлекаемое изображение! Вот так подло, втихаря.
STDU Extractor от [Для просмотра данной ссылки нужно зарегистрироваться] Тоже пережимает.
Free PDF Image Extractor от [Для просмотра данной ссылки нужно зарегистрироваться] Не всегда извлекает изображения "X". Хотя некоторые может и извлечь. При извлечении изображений "X" и несжатых изображений зачем-то сжимает их в формат png. Само по себе это не ухудшает качество, png – безпотерьный формат. Но сжимает в png данная прога с не самым большим коэффициентом сжатия, так что это сжатие – бесполезный труд, потом их всё равно придётся пережимать.
PdfWiz от [Для просмотра данной ссылки нужно зарегистрироваться] Во-первых, шаровары. Во-вторых, не извлекает изображения из защищённых от копирования pdf.
Теперь две действительно жреческие программы, которыми мы и будем пользоваться.
1. Экстрактор от Вини (Пуха?) [Для просмотра данной ссылки нужно зарегистрироваться]
Извлекает все изображения, а также текст и шрифты, если они внедрены. Правда, если pdf защищён от копирования, то вместо текста получишь ересь.
Недостаток – всегда извлекает из всего pdf. Задать диапазон страниц невозможно.
2. Экстрактор от Площади [Для просмотра данной ссылки нужно зарегистрироваться]
Извлекает только изображения. Можно задавать диапазон страниц.
Исполняемые файлы этих обоих софтин можно куда-нибудь скопировать, и после срубания виндузятника на корню просто их запускать, без инсталляции.
Кстати, извлекатель текста от Площади [Для просмотра данной ссылки нужно зарегистрироваться] извлекает текст и из защищённых от копирования pdf.
Текст из pdf нужно извлекать так, чтобы знак абзаца вставлялся только там, где заканчивается абзац, а не после конца каждой строки. Я исследовал десятка два извлекателей текста. Все они всаживают разрыв абзаца после каждой строки! И таки нашёл единственный извлекатель, который вставляет знак абзаца только после окончания абзаца. Это – Лот [Для просмотра данной ссылки нужно зарегистрироваться]
У Лота есть два недостатка. Во-первых, не извлекает из защищённых файлов. Во-вторых, если в слове с дефисом дефис оказывается последним знаком в строке, то Лот принимает его за перенос и удаляет. Например, кое-где превратится в коегде.
Замечу, что от того же Лота программа pdf2word.exe вставляет знак абзаца после конца каждой строки. Следовательно, никуда не годится.
Есть ещё досовская программа xpdf, которая вставляет знак абзаца только в конце абзаца. Геморроя с ней выше крыши, и рассматривать её не будем.
=====
Если изображения нужно извлечь только ради них самих, то на этом можно поставить точку.
Зачастую требуется преобразовать какой-либо файл в вордовский формат. С простеньким fb2 проблем нет. Проблемы возникают с pdf. Существует много конвертеров pdf в Ворд, некоторые из них заявлены, как бесплатные. На каком-то этапе все они начинают вымогать.
Существует действительно бесплатный конвертер, который, к тому же, преобразует лучше платных аналогов. Это – Колибри [Для просмотра данной ссылки нужно зарегистрироваться] Однако и он норовит всадить знак абзаца после каждой строки.
Если в файле пять, или даже десять страниц, то можно извлечь текст Лотом, изображения Вини-Пухом, и отредактировать вручную. А если страниц сто? Попробовав то и сё, я убедился, что лучше всего преобразовывает pdf в Ворд Файнрайдер. Открываешь в нём напрямую pdf, и вперёд. Но. Если pdf защищён от копирования, то Файнрайдер его сплюнет. Вот тут-то всплывает Ирфан.
Тонкости процесса. В Ирфане жмём "Сервис" – "Настройки программы" – "Plugins" – "PDF". Ставим птицу у "Use (new) "PDF.DLL" Plugin". Задаём разрешение (DPI) 600. Для некоторых pdf такое разрешение может оказаться слишком большим, и Ирфан срыгнёт. Тогда задаём 400. Это уже всегда потянет. Сохраняем последовательность страниц в PNG, как описано в разделе про djvu. Скармливаем полученные PNG Файнрайдеру.
В любом случае при прогоне через Файнрайдер изображения будут пережаты. Поэтому надо будет их пере-вставить вручную, используя те изображения, которые извлёк Вини.
Жрец Нефтиды вне форума   Ответить с цитированием Вверх
2 пользователя(ей) сказали cпасибо:
DmitryKz (11.01.2017), Lina19 (26.12.2018)
Старый 06.11.2016, 12:03   #2
Prtava
Гуру
 
Регистрация: 05.09.2015
Сообщений: 230
Сказал(а) спасибо: 20
Поблагодарили 73 раз(а) в 60 сообщениях
Вес репутации: 374
Prtava has a brilliant futurePrtava has a brilliant futurePrtava has a brilliant futurePrtava has a brilliant future
По умолчанию

Цитата:
Сообщение от Жрец Нефтиды Посмотреть сообщение
изображения из различных типов файлов.
Файлы fb2.
намного проще клавиша PrtScr и открывай в любом редакторе изображений и делай с ним что хочешь.
Ну извлечение изображений - это может кому и надо, но зачем извлекать откуда то текст.
Prtava вне форума   Ответить с цитированием Вверх
Старый 06.11.2016, 14:45   #3
rococo795
Мыслитель
 
Регистрация: 23.09.2012
Возраст: 43
Сообщений: 586
Сказал(а) спасибо: 50
Поблагодарили 141 раз(а) в 112 сообщениях
Вес репутации: 495
rococo795 is a name known to allrococo795 is a name known to all
По умолчанию

Prtava,

что не понятного.... реальной живой работы нет в этом плане, вот Жрец и тренирует мозги, чтоб не заржавели )))))))
да я вообще удивлён, как это он стоко времени - без статей и постов...!!!
rococo795 вне форума   Ответить с цитированием Вверх
Старый 06.11.2016, 21:08   #4
Prtava
Гуру
 
Регистрация: 05.09.2015
Сообщений: 230
Сказал(а) спасибо: 20
Поблагодарили 73 раз(а) в 60 сообщениях
Вес репутации: 374
Prtava has a brilliant futurePrtava has a brilliant futurePrtava has a brilliant futurePrtava has a brilliant future
По умолчанию

А что надо обязательно извлекать текст, просто взять и почитать нельзя? На десятке быстро и бесплатно, без рысканий по сети, например этим
[Для просмотра данной ссылки нужно зарегистрироваться]
ну а с PDF десятка работает по умолчанию средствами самой системы, а также имеет функцию "печать в PDF"
[Для просмотра данной ссылки нужно зарегистрироваться]
Prtava вне форума   Ответить с цитированием Вверх
Старый 10.11.2016, 19:47   #5
Alfa2908
Просветлённый
 
Аватар для Alfa2908
 
Регистрация: 26.06.2013
Сообщений: 401
Сказал(а) спасибо: 92
Поблагодарили 122 раз(а) в 110 сообщениях
Вес репутации: 448
Alfa2908 is a glorious beacon of lightAlfa2908 is a glorious beacon of light
По умолчанию

Цитата:
Сообщение от Prtava Посмотреть сообщение
ну а с PDF десятка работает по умолчанию средствами самой системы
Если под термином работать понимается возможность прочитать и распечатать, то это конечно круто и достаточно, но если серьезно, то бывает фрагменты документов из сети нужно вставить в свои, и в другом формате, виде, с редакцией, и т. д., то без нормальной проги с PDF файлом не так и просто справиться, меня всегда выручал файнридер, причем приходилось иметь несколько версий сразу, одни документы лучше распознаются одной версией. другие было лучше более старыми, а в целом все равно это канитель с ручной правкой, какие только хваленые не пробовал, только заверения и обещания, а на практике швах.
Alfa2908 вне форума   Ответить с цитированием Вверх
Старый 11.11.2016, 14:06   #6
Prtava
Гуру
 
Регистрация: 05.09.2015
Сообщений: 230
Сказал(а) спасибо: 20
Поблагодарили 73 раз(а) в 60 сообщениях
Вес репутации: 374
Prtava has a brilliant futurePrtava has a brilliant futurePrtava has a brilliant futurePrtava has a brilliant future
По умолчанию

Цитата:
Сообщение от Alfa2908 Посмотреть сообщение
меня всегда выручал файнридер
В отличие от действительно качественных продуктов Adobe - Photoshop, Premiere, AfterEffects, Audition, очень рекомендуется не иметь в любой винде две огромных дыры в безопасности, причем почему то для тривиальных целей имеющих гигпбайтные обновы - flash player и finereader. Недаром все нормальные браузеры уже как полгода отказались от adobeflash и именно не-за нового html5, а из-за неисправляемой годами дыры в безопасности.

Цитата:
Сообщение от Alfa2908 Посмотреть сообщение
то бывает фрагменты документов из сети нужно вставить в свои, и в другом формате
А что нельзя просто создать новый необходимый текстовый документ в нужном формате путем копи-пасте в него. В десятке например можно любой формат исходного документа редактировать только средствами системы.
А весь этот жреческий мазохизм с видео/аудио, а теперь и текст с картинками, применим только к реликтам типа ХР.
Prtava вне форума   Ответить с цитированием Вверх
Старый 11.11.2016, 16:17   #7
Alfa2908
Просветлённый
 
Аватар для Alfa2908
 
Регистрация: 26.06.2013
Сообщений: 401
Сказал(а) спасибо: 92
Поблагодарили 122 раз(а) в 110 сообщениях
Вес репутации: 448
Alfa2908 is a glorious beacon of lightAlfa2908 is a glorious beacon of light
По умолчанию

Цитата:
Сообщение от Prtava Посмотреть сообщение
А что нельзя просто создать новый необходимый текстовый документ
Не каждый текстовый документ можно создать самому, к примеру расчет траектории полета зонда, расчет движения планет и положение их на определенное число будущего, расчет астрологической карты на определенный день в будущем, и т. д., если у Вас нет потребности в определенной информации, не означает, что такой необходимости нет у других, думаю это понять не так уж и трудно.
Alfa2908 вне форума   Ответить с цитированием Вверх
Старый 11.11.2016, 17:47   #8
Prtava
Гуру
 
Регистрация: 05.09.2015
Сообщений: 230
Сказал(а) спасибо: 20
Поблагодарили 73 раз(а) в 60 сообщениях
Вес репутации: 374
Prtava has a brilliant futurePrtava has a brilliant futurePrtava has a brilliant futurePrtava has a brilliant future
По умолчанию

Alfa2908,
А в каком расширении все эти ваши "...расчет траектории полета зонда, расчет движения планет и положение их на определенное число будущего, расчет астрологической карты на определенный день в будущем..."? Если это файлы математических спец прог, то в них и надо заниматься редактированием или инкрементными их обновлениями. А если это обычные файлы rtf, pdf, ms/open/libre office расширения, то нет никаких проблем работы с ними в виндах начиная с 8.1.
Ну а книжные файлы fb2, djvu и пр - не представляю, зачем скачав книгу преобразовывать ее в другой текстовый формат вместо чтения.
Согласен - можно выдрать понравившуюся/нужную картинку, но опять же простейшими системными средствами, тот же PrtScr ни насколько не ухудшит качество оригинала.
Prtava вне форума   Ответить с цитированием Вверх
Старый 11.11.2016, 19:41   #9
Alfa2908
Просветлённый
 
Аватар для Alfa2908
 
Регистрация: 26.06.2013
Сообщений: 401
Сказал(а) спасибо: 92
Поблагодарили 122 раз(а) в 110 сообщениях
Вес репутации: 448
Alfa2908 is a glorious beacon of lightAlfa2908 is a glorious beacon of light
По умолчанию

Цитата:
Сообщение от Prtava Посмотреть сообщение
тот же PrtScr ни насколько не ухудшит качество оригинала.
Я раньше так и делал, но это не удобно, часто информация бывает ведущей, а некоторые данные надо вводить свои, потом редакция и т. д, после PrtScr все равно Файнридер ворд и т. п., проще сразу файнридер, помечаешь и в ворд, а там уж с редакцией проблем нет.
Ну а по астрологии программы нужные есть, но очень много нужной ценной информации идет в pdf, ее иногда надо использовать у себя, а она полна спец символов и Т. д, самому с листа все можно сделать, но это время на порядок больше, и труда и канители на столько же, вобщем иногда бывает надо, и получается по разному, когда все легко перепаковывается, когда чуть ли не половину правишь, но выход приемлемый.

Последний раз редактировалось Alfa2908; 11.11.2016 в 21:04.
Alfa2908 вне форума   Ответить с цитированием Вверх
Старый 14.11.2016, 15:50   #10
Жрец Нефтиды
Модератор
 
Аватар для Жрец Нефтиды
 
Регистрация: 15.07.2012
Адрес: Санкт-Петербург
Сообщений: 1,395
Сказал(а) спасибо: 344
Поблагодарили 539 раз(а) в 368 сообщениях
Вес репутации: 623
Жрец Нефтиды has a reputation beyond reputeЖрец Нефтиды has a reputation beyond reputeЖрец Нефтиды has a reputation beyond reputeЖрец Нефтиды has a reputation beyond reputeЖрец Нефтиды has a reputation beyond reputeЖрец Нефтиды has a reputation beyond repute
По умолчанию

Если файл нужно только прочитать, то и вопросов нет: берём любую понравившуюся читалку. Вопрос тут в другом. Масса народа занимается видео монтажом, и это не вызывает ни у кого свербления. Также масса народа занимается, скажем так, монтажом текстово-рисуночно-формульных файлов. Видео монтажник знает, к чему ведёт пережатие. Ну или должен знать. Книжный монтажник частенько даже не представляет, чем чревато пережатие рисунка. Вот для них я и написал, как извлекать в исходном качестве.
Альфа, ты поднял интересный вопрос. Сложные pdf с массой формул и таблиц одним махом в ворд не преобразуешь, тут всегда нужна ручная работа.
Цитата:
Сообщение от Alfa2908 Посмотреть сообщение
Не каждый текстовый документ можно создать самому, к примеру расчет траектории полета зонда, расчет движения планет и положение их на определенное число будущего, расчет астрологической карты на определенный день в будущем.
А я полагаю, что каждый. Вордовский редактор формул позволит написать абсолютно любую формулу.
Жрец Нефтиды вне форума   Ответить с цитированием Вверх
Ответ


Ваши права в разделе
Вы не можете создавать новые темы
Вы не можете отвечать в темах
Вы не можете прикреплять вложения
Вы не можете редактировать свои сообщения

BB коды Вкл.
Смайлы Вкл.
[IMG] код Вкл.
HTML код Выкл.

Быстрый переход

Похожие темы
Тема Автор Раздел Ответов Последнее сообщение
Наложение текста и картинок Chizara Plug-ins / Плагины 3 22.09.2016 14:17
Вращение текста KiraKoks Sony Vegas 0 17.07.2016 22:39
Анимация текста в Sony Vegas. Движение и дизайн текста KiraKoks Sony Vegas 0 21.06.2016 23:41


Часовой пояс GMT +1, время: 22:52.




Powered by vBulletin® Version 3.8.3
Copyright ©2000 - 2024, Jelsoft Enterprises Ltd. Перевод: zCarot


Рейтинг@Mail.ru