Resurs

Istovremeno pretraživanje velikog broja nekompatibilno formatiranih fajlova

Resource

By: Thomas Levine of Scraper Wiki

Na TechCamp Sarajevo, Neke od zagovornika transparentnosti interesirao je način pretraživanja PDF i Word dokumenata bez previše znanja o kompjuterima. Evo šta smo im ponudili.

Koja vrsta pretraživanja?

Kako biste odabrali softver koji ćete koristiti, prvo odredite koji od ponuđena tri tipa softvera bi vam odgovarao.

Uglavnom smo se oslanjali na pretraživanje kompletnog teksta. Opcija **Full text search** prikazuje svako pojavljivanje određene sintagme, slično kao kad koristite neku od "Find" opcija gdje ukucate određenu riječ i vidite gdje se ona pojavljuje.

Ukoliko se radi o fajlovima u kojima se skenirani dokumenti na papiru (image), prvo ćete morati uključiti opciju za prepoznavanje karaktera pod nazivom **optical character recognition**.

Umjesto da tražite određene sintagme bolje je grupisati više dokumenata pomoću opcije **document similarity**. To se vjerovatno razlikuje od onoga na što ste navikli, pa vam može dati rezultate kakve niste očekivali.

 

Full text search / pretraživanje kompletnog teksta

SOFTVER

U ovoj oblasti postoje brojni alati. Prvo odlučite da li želite da vaši fajlovi budu pohranjeni na internetu. To vam može pomoći kod razmjene i pojednostaviti beckup.

S druge strane, sigurnije je da fajlovi nisu pohranjeni na internetu – time ste manje ovisni o dobroj internet konekciji i imate više fleksibilnosti u pogledu softvera.

Ukoliko fajlove želite pohraniti na internetu, tj. **online**, koristite sljedeće:

  • Google Drive  ili
  • DocumentCloud 

Ukoliko ih želite pohraniti **offline**, koristite sljedeće: 

  • DocFetcher 
  • Spotlight (Mac)  ili
  • Alfresco 

DocumentCloud i DocFetcher su u kategoriji free/libre/open-source.

UPUTE

Pošto smo se fokusirali na pretraživanje kompletnog teksta, sastavili smo listu instrukcija za korištenje odgovarajućeg softvera za pretraživanje.

Online alati (Google Drive i DocumentCloud) funkcionišu na relativno sličan način. Za pretragu putem tih alata uradite sljedeće:

  1. Kreirajte account.
  2. Učitajte dokumente.
  3. Odaberite dokumente.
  4. Pokrenite pretragu.

Offline alati (DocFetcher, Spotlight i Alfresco) također funkcionišu na relativno sličan način. Za pretragu putem tih alata uradite sljedeće:

  1. Instalirajte softver.
  2. Snimite dokumente na vaš hard drive i zapamtite gdje se nalaze
  3. U programu (Spotlight, DocFetcher ili Alfresco) naznačite da bi direktorij u kojem se dokumenti nalaze trebao biti indeksiran, tj."indexed". Još jedna od opcija da to uradite jeste dodavanje direktorija, tj. "adding".
  4. Unutar programa indeksirajte vaš hard drive
  5. Pokrenite pretragu.

 

Optičko prepoznavanje karaktera

Program Adobe Acrobat Pro može vršiti optičko prepoznavanje karaktera kod više fajlova u seriji.

Ukoliko vam to ne odgovara ili ukoliko ne volite licencirani softver, onda razmotrite neke od besplatnih grafičkih alata za optičko prepoznavanje karaktera, a koji su u kategoriji free/libre/open-source.

  • YAGF
  • lime-OCR
  • tesseract-gui

Ti besplatni alati vrše optičko prepoznavanje karaktera u više fajlova unutar serije, ali ta vrsta prepoznavanja obično je manje pogodna nego ona koja koristi program Adobe Acrobat Pro.

 

Grupisanje dokumenata po sličnosti

Probajte

  • Overview zajedno sa 
  • DocumentCloud

Za više informacija pogledajte video ili pročitajte  blog.

 

The picture of Thomas Levine has been taken during the TechCamp Sarajevo and belongs to the community boost_r FLICKR stream. It is published under the CC-BY-SA 3.0 license.

Datum

05/21/2013 - 20:29

Tag