By: Thomas Levine of Scraper Wiki
Na TechCamp Sarajevo, Neke od zagovornika transparentnosti interesirao je način pretraživanja PDF i Word dokumenata bez previše znanja o kompjuterima. Evo šta smo im ponudili.
Kako biste odabrali softver koji ćete koristiti, prvo odredite koji od ponuđena tri tipa softvera bi vam odgovarao.
Uglavnom smo se oslanjali na pretraživanje kompletnog teksta. Opcija **Full text search** prikazuje svako pojavljivanje određene sintagme, slično kao kad koristite neku od "Find" opcija gdje ukucate određenu riječ i vidite gdje se ona pojavljuje.
Ukoliko se radi o fajlovima u kojima se skenirani dokumenti na papiru (image), prvo ćete morati uključiti opciju za prepoznavanje karaktera pod nazivom **optical character recognition**.
Umjesto da tražite određene sintagme bolje je grupisati više dokumenata pomoću opcije **document similarity**. To se vjerovatno razlikuje od onoga na što ste navikli, pa vam može dati rezultate kakve niste očekivali.
SOFTVER
U ovoj oblasti postoje brojni alati. Prvo odlučite da li želite da vaši fajlovi budu pohranjeni na internetu. To vam može pomoći kod razmjene i pojednostaviti beckup.
S druge strane, sigurnije je da fajlovi nisu pohranjeni na internetu – time ste manje ovisni o dobroj internet konekciji i imate više fleksibilnosti u pogledu softvera.
Ukoliko fajlove želite pohraniti na internetu, tj. **online**, koristite sljedeće:
Ukoliko ih želite pohraniti **offline**, koristite sljedeće:
DocumentCloud i DocFetcher su u kategoriji free/libre/open-source.
UPUTE
Pošto smo se fokusirali na pretraživanje kompletnog teksta, sastavili smo listu instrukcija za korištenje odgovarajućeg softvera za pretraživanje.
Online alati (Google Drive i DocumentCloud) funkcionišu na relativno sličan način. Za pretragu putem tih alata uradite sljedeće:
Offline alati (DocFetcher, Spotlight i Alfresco) također funkcionišu na relativno sličan način. Za pretragu putem tih alata uradite sljedeće:
Program Adobe Acrobat Pro može vršiti optičko prepoznavanje karaktera kod više fajlova u seriji.
Ukoliko vam to ne odgovara ili ukoliko ne volite licencirani softver, onda razmotrite neke od besplatnih grafičkih alata za optičko prepoznavanje karaktera, a koji su u kategoriji free/libre/open-source.
Ti besplatni alati vrše optičko prepoznavanje karaktera u više fajlova unutar serije, ali ta vrsta prepoznavanja obično je manje pogodna nego ona koja koristi program Adobe Acrobat Pro.
Probajte
Za više informacija pogledajte video ili pročitajte blog.
The picture of Thomas Levine has been taken during the TechCamp Sarajevo and belongs to the community boost_r FLICKR stream. It is published under the CC-BY-SA 3.0 license.
Please submit project in your local language so it is easier for your local community to support you. Thanks
A few words on what cookies do and our cookie policy. This is not mandatory, but is very welcome, especially by geeks.