(一)前製作業  (圖1-12) 
影像處理、圖檔OCR、文字校正影像處理、圖檔OCR、文字校正





1.開啟PDF檔案。





2.擷取頁面。將原始目錄頁轉成JPG圖檔,一共10頁。



3.圖檔以「PHOTOSHOP」開啟,將中文文字以外的部分去除。(包含頁碼)

4.尚書七號開啟圖檔。(檔案類型(T)選擇JPG)


5.以滑鼠逐頁圈選OCR範圍。

6.按住「shift」全選所有頁面。

7.選擇「識別(R)」→「開始識別(R)」。



8.在頁面全選的狀態下,選擇「輸出(P)」→到指定格式文件(F)。


9.開啟「目錄」.txt(剛剛輸出的文字檔)

10.整理文字檔內容,利用「尋找」與「取代」把空白間隔去除。
11.逐字校正直至最後。

(二)書籤文字檔處理(圖13-25)
書籤頁碼處理
 
12.將文字檔複製,貼在Excel中。

13.補上本文前頁面內容,與PDF頁面對照輸入頁碼。

14.由於本文的第1頁,在PDF中是第24頁。所以我們在E6格中輸入:「=SUM(C6+23)」。

15.拖拉的方式把以下的內容自動以這個公式處理。



16.在「B」「D」列以上述拖拉方式,輸入「(」與「)」。





17.複製BCD三列至記事本,將「空白」尋找與取代(去除),複製內容。

18.將B列「儲存格格式」「數值」改為「文字」。

19.在B列中貼上剛剛記事本的內容。20.於B列後插入一列「C」。
21.將F欄位的內容複製於記事本貼上再剪出,然後貼在C列中。


22.複製ABC三列內容,貼至記事本中。

23.文字檔存檔(記得選擇「UTF-8」)。








(三)書籤匯入PDF(圖26-35)
書籤加工處理與匯入PDF電子檔
 

24.開啟「PDF補丁丁」,左側功能列中選擇「編輯書籤」。

25.「打開(D)」,選擇「步驟23存檔的文字檔。」




26.調整書籤內的層次,把卷一的內容放置在卷一的下一層中。(選擇內容後,點選「右上角箭頭」)

27.如「圖31」,已經完成書籤層次的處理。

28.按下「保存(B)」將書籤檔存檔(XML格式)。





29.點選「補丁(P)」,選擇要匯入的PDF檔案,以及輸出的位置,按下「確定」。


30.完成PDF書籤的製作。點選左方目錄即可自動跳頁。

原始網址:https://ebag.tian.yam.com/posts/50236986