EPUB 裡的  、— 是什麼？為什麼電子書文本會出現 HTML 實體

很多人在整理 EPUB 內容時，會碰到一種很常見但也很煩的情況：句子裡突然出現  、"、&、  這類符號，導致文本看起來像「網頁原始碼」而不是正常文字。這並不是 EPUB 的問題，而是因為 EPUB 和網頁文件結構本來就很接近。

很多 EPUB 檔案內部使用 XHTML、HTML 和實體字元表示法。如果文本沒有被正確解碼，就會把這些實體原樣暴露出來。於是原本可讀的段落，就會變成夾雜大量編碼符號的半成品文本。

這類場景正適合用 EPUB 實體解碼工具先做還原，再繼續編輯、翻譯或匯入知識庫。

EPUB 實體解碼，就是把電子書文本裡的 HTML 實體、數字實體和特殊字元表示法，還原成正常可讀的文字。它適合電子書清洗、內容遷移、翻譯前預處理和知識庫整理。

因為 EPUB 並不是一個單純的「文字檔案」，它往往包含：

像 & 代表 &，" 代表引號，— 代表破折號。這些表示方式在網頁和電子書格式裡很常見，但如果你想把文本提出來繼續寫作或分析，就需要先解碼。

不完全一樣。實體解碼解決的是  、— 這類 HTML 或數字實體還原問題；而字元集亂碼通常和編碼宣告、字型或文字來源錯誤有關。兩者看起來都像「文字亂了」，但原因不同。

少量符號可以手工改，但一旦是整本書、整章內容，人工替換既慢又容易遺漏。更實際的方式，是先用 EPUB 實體解碼工具批次還原成正常文字，再繼續處理。

1. 這是不是亂碼修復？

不完全一樣。它主要處理的是實體編碼還原，而不是所有類型的字元集亂碼。

2. 為什麼 EPUB 特別容易出現這種問題？

因為 EPUB 與網頁文件結構相近，內部經常保留 HTML 實體表示法。

3. 解碼後適合做什麼？

適合繼續編輯、翻譯、整理知識庫，或匯入其他文字處理流程。

如果你正在清洗電子書文字、進行 EPUB 內容擷取或準備 AI 預處理，可以直接試試 O.Convertor EPUB 實體解碼工具。如果你還經常處理連結或網頁文字裡的跳脫字元，也可以順手看什麼是 URL 編碼。