Google indexuje obrázková PDF
Už hodně dlouho umí Google indexovat PDF dokumenty, které vznikly z textových dokumentů resp. PDF jejichž zdrojem je text. Google teď umí indexovat také PDF soubory vzniklé skenováním.
Dnes jsem se dostal k článku A picture of a thousand words? (via Google Now Searches through Scanned Documents). Evin Levey v článku na Official Google Blog píše, že Google pomocí OCR indexuje také PDF dokumenty vzniklé skenováním. Texty doposud pro robota "skryté" v obrázcích, tak mohou být převedeny do "čitelného" textu.
Rozpoznávání textu via OCR je na straně Google jistě hodně náročné na výpočetní výkon. Ale podle všeho se to Googlu vyplatí. Stačí vzpomenut službu Google Books nebo si představit ta kvanta PDF souborů na webu, která jsou jinak nedohledatelná.
Souvislosti
SEO pro PDF - Jiří Bureš
OCR - Wikipedia
Portable Document Format - Wikipedia
Už hodně dlouho umí Google indexovat PDF dokumenty, které vznikly z textových dokumentů resp. PDF jejichž zdrojem je text. Google teď umí indexovat také PDF soubory vzniklé skenováním.
Dnes jsem se dostal k článku A picture of a thousand words? (via Google Now Searches through Scanned Documents). Evin Levey v článku na Official Google Blog píše, že Google pomocí OCR indexuje také PDF dokumenty vzniklé skenováním. Texty doposud pro robota "skryté" v obrázcích, tak mohou být převedeny do "čitelného" textu.
Rozpoznávání textu via OCR je na straně Google jistě hodně náročné na výpočetní výkon. Ale podle všeho se to Googlu vyplatí. Stačí vzpomenut službu Google Books nebo si představit ta kvanta PDF souborů na webu, která jsou jinak nedohledatelná.
Souvislosti
SEO pro PDF - Jiří Bureš
OCR - Wikipedia
Portable Document Format - Wikipedia
Související články
jedna z posledních webových bariér, kam se google předtím nikdy nedostal, byla prolomena

1. červenece 08, 03:07
Linkuj.cz
Občas se mi stává, že při prohlížení zahraničních webových stránek na mě „vybafne“ čeština: je to dáno tím, že redakční systémy jsou lokalizované a tak např. datum, či některé navigační prvky dosteneme nelogicky v češtině, přestože se to k obsahu vůbec nehodí. Jaké bylo ale moje překvapení, když jsem na podobné neplechy narazil ve výsledcích vyhledávání v googlu.

5. března 08, 04:03
abclinuxu - blogy
Google oznámil, že dosáhl dalšího významné hranice, co se počtu indexovaných webových stránek týče. V těchto dnech má zaindexováno bilion (1 000 000 000 000) unikátních URL adres. Před deseti lety, tedy v roce 1998, bylo Googlem vyhledatelných „jen“ 26 miliónů stránek. Webových stránek teoreticky ...

28. červenece 08, 08:07
Živě.cz
Přestože flashové webové stránky lahodí oku návštěvníka, jejich přístupnost, použitelnost a obecně způsob ovládání nemusí být vždy ideální. Další podstatný problém se nachází především v oblasti marketingu, tedy optimalizace pro vyhledávače . Veškeré SEO techniky zde ztrácely na významu, protože ...

1. červenece 08, 03:07
Živě.cz
Přestože flashové webové stránky lahodí oku návštěvníka, jejich přístupnost, použitelnost a obecně způsob ovládání nemusí být vždy ideální. Další podstatný problém se nachází především v oblasti marketingu, tedy optimalizace pro vyhledávače . Veškeré SEO techniky zde ztrácely na významu, protože ...

2. červenece 08, 11:07
Živě.cz
"Jednou z relativně nových a současně nejzajímavějších funkcí v mapové službě Google Maps a zemském glóbu Google Earth je podrobné zobrazení pohledů silniční sítě ve vybraných lokalitách až na úroveň samostatných ulic, jejich křižovatek a dalších lokalit v podobě panoramatických snímků. Funkci či spíše službu Street View si nyní představíme trochu podrobněji."

5. srpna 08, 12:08
www.Grafika.cz
Petra Popluhárová, Software EngineerOpravy pravopisu v češtině a slovenštině spuštěny 2. července.Jsme toho přesvědčení, že vyhledávač by se měl co nejvíce snažit, aby uhádl, co má uživatel na mysli, a dokonce by se měl pokoušet opravovat drobné překlepy, kterých se mohou uživatelé dopustit. Ušetří to spoustu času i frustrací a zároveň jde o užitečnou funkci pro kontrolu pravopisu pro uživatele, kteří si nejsou jisti, jak se n

20. červenece 07, 06:07
Weblogy.cz
Už jste někdy viděli tuto žlutou či modrou krabičku s logem Google? Google Mini a Google Search Appliance jsou "kusy železa", které si může firma zakoupit a nechat si pomocí Google prohledávat svůj intranet. Proč lze rychle a účelně vyhledávat n

21. února 08, 06:02
Weblogy.cz
Od dnešního dne nabízíme v češtině a dalších jazycích novou službu Google Sky. Tato služba potěší především ty z vás, kteří se zajímají o astronomii či pouhé pozorování noční oblohy. S Google Sky můžete plout noční oblohou, jednoduchý nástroj vás nechá prolétávat kolem 100 …

23. srpna 07, 12:08
Weblogy.cz
Podle The Wall Street Journal Google pracuje na vyhledávači, který by přímo z mobilního telefonu dokázal vyhledávat vyzváněcí melodie a
Google již nyní poskytuje pro mobilní telefony služby jako jsou Gmail, kalendář, vyhledávání, YouTube......

21. červenece 07, 12:07
Blog.lupa.cz
Prijďte si poslechnout Petru Popluhárovou na konferenci LinuxExpo, kde bude přednášet na téma vztah Google k open-source a představí projekty, které Google aktivně i pasivně podporuje a jaký mají pro Google význam. Více informací o její přednášce je …

31. března 08, 06:03
Weblogy.cz
Nové české rozhraní Dokumentů a tabulek Google je již týden k dispozici. Pokud chcete umístit odkazy na své soubory přímo na domovskou stránku iGoogle, využijte tohoto lokalizovaného modulu.Lukáš

1. červenece 07, 06:07
Weblogy.cz
Do Google Readeru byl přidán flashový mp3 přehrávač. Díky němu je možné přehrávat podcasty v přímo v prohlížeči. Přehrávač lze z okna prohlížeče uvolnit (otevřít v novém
Naposledy byl G. Reader vylepšen o prohlížení obsahu offline zapomoci...

21. červenece 07, 12:07
Blog.lupa.cz
Kalifornská společnost vytvořila software, který vyhledává a přiřazuje zvuky k různých lokalitám na zemi. Její ředitel Wild Sanctuary Bernie Krause sbíral zvuky celých 40 let. Výsledkem jeho práce je více než 15 tis. zvuků zvířat a zvuků z mnoha...

24. červenece 07, 12:07
Blog.lupa.cz
Google Apps jsou na "českém trhu" od loňského podzimu a jednotlivé aplikace jako Gmail, Docs, Calendar a další z tohoto balíčku, vhodného pro školy, neziskovky i firmy, jsou obecně známé. Jak ale vypadá nasazení Google Apps do školy se …

23. května 08, 03:05
Weblogy.cz
Zájemci o využití wiki systému Google Sites už nemusí mít vlastní doménu. Internetový kolos Google spustil zmíněnou službu letos v únoru, nicméně byla dostupná jen jako součást balíčku hostovaných služeb Google Apps. Nyní je ovšem služba Google Sites dostupná i samostatně, stejně jako ostatní části balíku Google Apps (např. Google Docs či Google Calendar). Stačí [...]
Řadu z Vás, kdo provozujete reklamy AdWords, zajímá, jak se tvoří pořadí reklam ve vyhledávání na www.google.cz ... Na naši AdWords podporu se především obracíte s dotazy typu: „Jak se tvoří pořadí reklam AdWords“, „Kolik stojí umístění reklamy v barevném poli?“, nebo „Jak …

19. června 08, 09:06
Weblogy.cz
Od včerejška se naši čeští uživatelé mohou těšit nové funkci hledání, Našeptávači Google. Funguje to tak, že během zadávání hledaného výrazu do vyhledávacího políčka Našeptávač hádá, co chcete napsat, a nabídne vám seznam příslušných slov nebo slovních spojení. Pokus …

28. srpna 08, 12:08
Weblogy.cz
Jednoduchý, rychlý, přehledný internetový prohlížeč z díly Google. Zaujal mě a sepsal jsem recenzi na tento nový prohlížeč. Google tak může zajímavě zasáhnout mezi současné rozdělení tržního podílu rozdělené mezi IE, FF, O, Safari...

3. září 08, 11:09
Linkuj.cz