Biblioteca Digital Ciarte

Informação técnica

Os volumes em formato pdf aqui disponibilizados têm origem no tratamento realizado por mim das imagens que obtive ou por digitalização, ou cedidas por colegas ou descarregadas de bibliotecas digitais de acesso livre.

Esse tratamento envolve, entre outras, as seguintes operações: separação das páginas (quando o material de partida é um ficheiro pdf correspondente a um volume), selecção e alinhamento da mancha gráfica, eliminação de marcas, ajuste de cor e binarização, reconstrução das páginas, montagem do volume e reconhecimento óptico de caracteres (OCR).

O objectivo foi a obtenção de ficheiros com boa leitura gráfica (texto preto sobre fundo branco), reduzida dimensão (a maior parte dos ficheiros tem menos de 5 MB e raramente são excedidos os 20 MB) e texto pesquisável e copiável. No entanto, a qualidade gráfica final ficou condicionada pela qualidade das imagens obtidas. Estas e as fontes tipográficas utilizadas em cada volume condicionaram decisivamente a qualidade do texto resultante do reconhecimento óptico de caracteres, texto esse que não foi sujeito a qualquer correcção.

O tratamento é semi-automático, sendo a intervenção manual tanto maior quanto o interesse directo que tenho numa obra.

Nalguns casos, um ficheiro pdf tem origem em vários exemplares, resolvendo os danos das imagens de um exemplar com páginas de outros exemplares.

É diversificada a origem das imagens que fui obtendo ao longo dos anos (desde antes de 2000), acontecendo que durante este tempo alguns ficheiros foram substituídos por outros com melhor qualidade. De igual modo, ao longo dos anos usei diverso software para digitalização e tratamento das imagens e para preparação dos ficheiros pdf. Central em todo este processo é o Scan Tailor Advanced, excelente software de uso livre.

Origem das imagens

Biblioteca pessoal

Colegas

Bibliotecas digitais

Software utilizado (em diferentes ocasiões) para digitalização e tratamento das imagens e preparação dos ficheiros pdf