[/b/] [/d/] [/tu/] [/a/] [/34/] [/ph/] [/wa/] [/cg/] [/t/]

[Burichan] [Futaba] [Gurochan] [Photon] - [Home] [Manage] [Archive]

[Return]
Posting mode: Reply
Leave these fields empty (spam trap):
Name
Link
Subject
Comment
File
Verification
Password (for post and file deletion)
  • Supported file types are: GIF, JPG, PDF, PNG
  • Maximum file size allowed is 20480 KB.
  • Images greater than 200x200 pixels will be thumbnailed.

File: 1320543887662.jpg -(213680 B, 1200x1600) Thumbnail displayed, click image for full size.
213680 No.70674  

Умнач, имеется свалка порядка 200k fb2 книг с ничего не значащими именами файлов. Ищется какой-нибудь софт, который мог бы привести это в какое-то подобие порядка, вроде выборки по авторам или по жанрам. Предпочитаемая платформа - linux, но в принципе подойдут и другие варианты.

>> No.70675  

>>70674
http://www.lesbonscomptes.com/recoll/
упарываю два года, зависимости никакой.

>> No.70678  
File: 1320570643242.jpg -(247207 B, 800x576) Thumbnail displayed, click image for full size.
247207

>>70675
Валится с сегфолтом на индексировании не проиндексировав и тысячи.

>> No.70685  

>>70678
уминявсёработает

xapian у тебя какой?

>> No.70687  
File: 1320581681780.jpg -(97775 B, 665x900) Thumbnail displayed, click image for full size.
97775

>>70685
1.2.5

>> No.70689  

>>70687
ну я не знаю. а какой дистр? а сколько бит? а по мелчочи есть чо?

>> No.70690  
File: 1320583538266.jpg -(360770 B, 700x700) Thumbnail displayed, click image for full size.
360770

>>70689
Гента, 64х битная. По мелочи что?

>> No.70692  
File: 1320587369705.jpg -(634990 B, 1280x1024) Thumbnail displayed, click image for full size.
634990

>>70690

>По мелочи что?

полтишок, на пивас не хватает, братан.

какой у тебя реколл? у меня вот 1.16.0 на точно такой же конфигурации сутками непрерывно безо всяких проблем индексировал, может в ипстрим закрался баг. или ты что-то делаеь не так, читай её логи перед падением. ну или едро переко-ко-компелируй, в конце концов.

алсо можешь опробовать гугльдесктоп, но он вроде fb2 и произвольный текст не индексирует.

>> No.70693  
File: 1320590659463.jpg -(334426 B, 1000x1000) Thumbnail displayed, click image for full size.
334426

>>70692

> 1.16.0

Аналогичный.

> логи перед падением

Варианты разнообразные, например

:3:../internfile/internfile.cpp:281:FileInterner:: ignored: [/path/to/lib] mime [application/x-fsdirectory]

или

    Qt has caught an exception thrown from an event handler. Throwing
exceptions from an event handler is not supported in Qt. You must
reimplement QApplication::notify() and catch all exceptions there.
    terminate called after throwing an instance of 'std::length_error'
what(): basic_string::append
Аварийный останов

но чаще всего просто молча умирает с сегфолтом.

> произвольный текст не индексирует

И не нужно. Дотстаточно название книги, жанр, автора и имя файла.

>> No.70768  
File: 1320721842988.jpg -(118813 B, 600x600) Thumbnail displayed, click image for full size.
118813

>>70674
Calibre, не?

>> No.70789  
File: 1320779684194.png -(1439961 B, 1050x1400) Thumbnail displayed, click image for full size.
1439961

>>70768
Похоже именно то, что надо, если оно подобный объем сожрет, что станет известно после нескольких дней индексации.

>> No.70821  
File: 1320849976177.png -(184489 B, 490x610) Thumbnail displayed, click image for full size.
184489

Похоже не судьба мне этим счастьем попользоваться.

> ERROR: Ошибка при добавлении: Процесс добавления книг, видимо, завис. Попробуйте перезапустить calibre и добавить книги меньшими порциями до тех пор пока не найдете проблемную книгу.

При этом в базу добавлено порядка 18к книг и интерфейс жутко тормозит.

>> No.70839  
File: 1320859948866.jpg -(463145 B, 700x1100) Thumbnail displayed, click image for full size.
463145

>>70821
ПРЫЩЕБЛЯДИКС, СЭР

я бы всё же разобрался почему у тебя не работает реколл или опробовал гуглписечку.

>> No.70842  
File: 1320861894194.jpg -(789827 B, 1024x768) Thumbnail displayed, click image for full size.
789827

>>70839

> я бы всё же разобрался почему у тебя не работает реколл

У меня нет опыта отлова сегфолтов в чужом быдлокоде, увы. Тем более это не совсем то, что нужно.

>> No.70845  

Попробуй проанализировать несколько файлов и посмотреть, где и как указывается автор/жанр/etc.
Далее, напиши скрипт, читающий начало/заголовки файла и выгребающий оттуда соответствующие данные. База составляется при помощи stdout >> file, выборка — grep'ом, сортировка — sort'ом. Удобно, нэ?

>> No.70846  
File: 1320867501869.png -(3053196 B, 1748x2480) Thumbnail displayed, click image for full size.
3053196

>>70845

> Попробуй проанализировать несколько файлов и посмотреть, где и как указывается автор/жанр/etc.

Там xml внутри.
Сейчас пользуюсь текстовым файлом, в котором записано имя файла и первые его 15 строк, вполне удобно, только enca не везде отработал правильно и размер файла получился в 400 метров. Если не найду ничего подходящего, скорее всего напишу собственный парсер этого добра и запихну все куда-нибудь в mysql базу.



Delete Post []
Password

[/b/] [/d/] [/tu/] [/a/] [/34/] [/ph/] [/wa/] [/cg/] [/t/]