Menu

O que são   e — num EPUB? Porque surgem entidades HTML no texto dos livros eletrónicos

Loger

Loger

Mar 07, 2026 · 3 min read

O que são   e — num EPUB? Porque surgem entidades HTML no texto dos livros eletrónicos

O que são  , &, — em EPUB? Por que o texto do livro digital fica corrompido

Muitas pessoas, ao organizar conteúdo EPUB, deparam-se com uma situação muito comum mas também muito irritante: surgem subitamente símbolos como  , ", &,   nas frases, fazendo com que o texto pareça "código-fonte de página web" em vez de texto normal. Isto não acontece porque o EPUB seja particularmente mau, mas porque a estrutura do EPUB e dos documentos web são muito semelhantes.

Muitos ficheiros EPUB utilizam internamente XHTML, HTML e notação de entidades de caracteres. Se o texto não for descodificado corretamente, estas entidades ficam expostas tal como estão. Assim, parágrafos que antes eram legíveis transformam-se em texto semi-processado repleto de símbolos de codificação.

Este tipo de cenário é ideal para usar a Ferramenta de Descodificação de Entidades EPUB para restaurar o texto primeiro, antes de continuar com a edição, tradução ou importação para a base de conhecimento.

Resposta rápida: O que é a descodificação de entidades EPUB?

A descodificação de entidades EPUB consiste em restaurar as entidades HTML, entidades numéricas e representações de caracteres especiais presentes no texto de livros digitais, convertendo-as em texto normal e legível. É adequada para limpeza de livros digitais, migração de conteúdo, pré-processamento antes de tradução e organização de bases de conhecimento.

Porque é que aparecem estes símbolos estranhos nos ficheiros EPUB?

Porque o EPUB não é simplesmente um "ficheiro de texto", normalmente contém:

  • Páginas HTML / XHTML
  • Estilos CSS
  • Imagens e índice de recursos
  • Entidades de caracteres especiais

Por exemplo, & representa &, " representa aspas, — representa travessão. Estas representações são comuns em páginas web e formatos de livros digitais, mas se pretender extrair o texto para continuar a escrever ou analisar, precisa primeiro de o descodificar.

Quem mais precisa desta ferramenta?

  • Organizadores de livros digitais Precisam de extrair o conteúdo EPUB para fazer revisão, reformatação ou migração de formato.

  • Fluxo de trabalho de tradução Se o texto de origem estiver repleto de símbolos de entidades, limpar antes da tradução tornará o processo mais estável.

  • Gestão de conteúdos e organização de bases de conhecimento É muito comum extrair texto de EPUB para publicação em CMS, arquivo de documentos ou pré-processamento para treino de IA.

A descodificação de entidades EPUB e a correção de caracteres corrompidos são a mesma coisa?

Não exatamente. A descodificação de entidades resolve o problema de restauração de entidades HTML ou numéricas como   e —; Enquanto que os caracteres ilegíveis do conjunto de caracteres estão normalmente relacionados com declarações de codificação, tipos de letra ou origem de texto incorretos. Ambos parecem 'texto corrompido', mas as causas são diferentes.

Porque não substituir manualmente?

Para alguns símbolos é possível fazer a alteração manual, mas quando se trata de um livro inteiro ou capítulos completos, a substituição manual é lenta e propensa a falhas. A forma mais prática é primeiro utilizar a Ferramenta de Descodificação de Entidades EPUB para restaurar em massa o texto normal e depois continuar o processamento.

Perguntas frequentes

1. Isto é uma correção de texto corrompido?

Não exatamente. Esta ferramenta trata principalmente da restauração de codificação de entidades, e não de todos os tipos de corrupção de conjuntos de caracteres.

2. Porque é que os EPUB são especialmente propensos a este problema?

Uma vez que os EPUB têm uma estrutura semelhante à dos documentos web, frequentemente mantêm internamente a notação de entidades HTML.

3. Para que serve o texto depois de descodificado?

É ideal para continuar a editar, traduzir, organizar bases de conhecimento ou importar para outros processos de tratamento de texto.


Se está a trabalhar na limpeza de texto de livros digitais, extração de conteúdo EPUB ou preparação de pré-processamento para IA, pode experimentar diretamente a Ferramenta de Descodificação de Entidades EPUB do O.Convertor. Se também lida frequentemente com caracteres de escape em links ou textos de páginas web, pode também consultar O que é a codificação URL.

主题

documents

documents

Published Articles2

推荐阅读