2018年5月28日 星期一

文字與數字分別取出以「EmEditor」處理

文字與數字分別取出以「EmEditor」處理


一般數位化文獻的檢索表時,OCR最後,通常會呈現文字與數字(頁碼)合併在一起的情形,如何快速的分割文字和數字(頁碼)分別貼在excel欄位中是個必須克服的問題。

只要在「EmEditor」,利用「尋找/取代」正規表示式可以解決這個問題。


我1
他2
你3

「\d」(數字)
「[^\d]」(文字)

如果想取代(刪除)數字,則輸入「\d」去取代。
如果想取代(刪除)文字,則輸入「[^\d]」去取代。

這樣,把兩次的結果分別貼到excel,這樣就不用一列一列去處理了。







※檢查空白內容:


把這一欄貼到emeditor裏
然後搜尋
^$
有結果就是有空白欄
記得勾選「正則表達式」

EmEditor常用功能

「編輯(E)」→「轉換選取範圍(L)」→「移去新行(R)」
「移除換行」快捷鍵:Alt+E+L+R

沒有留言:

張貼留言

《秦漢簡牘文字之字形變遷考察》重點摘要(2026.1.29Gemini根據「notebookLM」)

《秦漢簡牘文字之字形變遷考察》重點摘要(2026.1.29Gemini根據「notebookLM」) 這是一份關於您(陳信良/阿良人)博士論文《秦漢簡牘文字之字形變遷考察》的詳細中文重點摘要,字數約 2000 字。 《秦漢簡牘文字之字形變遷考察》重點摘要 一、 研究背景與目的 本...