圖片轉文字工具是很常見的需求,本文介紹如何利用Gemini分析圖片文字,匯出為Google文件,再搭配NotebookLM完成任務,過程中將2個Google AI組合應用,打造免費轉換器。
目錄
Toggle一、景點說明立牌
很多時候會遇到圖片上有很多文字的情況,例如在旅遊時,通常歷史性景點會有說明立牌,以這篇文章範例而言,贊贊小屋是在搭乘貓空纜車到木柵山上的時候,看到關於木柵地名由來的說明,內容非常詳細,資料來源自「指南社區發展協會、台北探索館」。

二、Gemini上傳檔案
想要取得圖片中的文字,目前AI這部分的技術已經相當成熟,有很多工具包括手機App可以使用,iPhone拍照也是可以的。
在此介紹比較正式的AI工具用法,依照贊贊小屋實際測試,可以考慮Gemini使用技巧的簡單操作。在提問框的左下角點一下「+/-」,有「上傳檔案」和「加入雲端硬碟檔案」兩個選項。在此選擇「上傳檔案」,把上個步驟提到的圖片,從手機或者電腦上傳到Gemini。

三、解析圖片文字
Gemini好用嗎?果然非常強大,馬上瞭解我的用意,立即解析出圖片文字。仔細看,跟原始圖片簡直就是逐字抄寫出來的內容,只是有一個很大的問題,明明圖片是繁體中文,Google Gemini卻反而用簡體中文寫出來。

四、AI幻覺是什麼?
將Gemini的分析拉到最後,它連圖片右下角有一行小字也有列出來,但明顯和第一步驟看到圖片文字不同,果然AI工具很方便,但仍然有必要小心求證。另外針對簡體字的情況,通常用Office Word就能處理,也有很多網頁線上工具可以轉換,對AI來說,這只是小事一樁。
因此在這裡提出需求:繁體中文。然而出乎贊贊小屋意料的是,竟然以簡體字回覆「你好,這似乎是一個誤解」。它堅稱提供的文字已經完全是繁體中文,但實際上卻是以簡體字回覆,這就是所謂的AI幻覺(hallucination),認真的指鹿為馬,實在有些哭笑不得,本來已經在研究Gemini Deep Research使用方法了,沒想到它竟然會被繁簡中文的轉換給絆倒。

五、複製與匯出文件
Gemini堅持是誤解,雖然有些無奈,但倒也不會造成太大問題。因為如同文章先前所述,很多工具都能代勞。
在此還是以Google體系為主。首先,回答的左下角都有一行工具列,可以選擇最右邊複製文字的小圖標,也可以如同截圖所示,點選「分享對話」小圖標中,可以直接「匯出到文件」,也可以「在Gmail建立草稿」,在此選擇第一項,將AI回覆內容直接匯入,就跟Deep Research怎麼用的分享功能一樣,會自動在自己雲端硬碟建立新的Google文件。

六、NotebookLM來源
接下來選擇同樣是Google體系的NotebookLM台灣應用,在新增來源的地方有兩個可以使用的選項。第一個是左邊的「Google 雲端硬碟」,其中的「Google文件」便是延續上個步驟的操作;另外還可以很簡單地選擇右邊的「貼上文字」,如此一來不限於Google文件,在任何地方複製的文字,都可以快速貼上到這裡。

七、雲端硬碟文件
選擇Google文件之後,接下來的操作很簡單,因為就是剛才Gemini匯出的文件,在「近期存取」就可以看到,選取之後再按右下角的「插入」。
另外,這裡剛好是近期存取,操作很方便,但一般情況可能會有很多Google檔案,所以這裡提供了快速選項來幫助選擇,例如「近期存取」、「我的雲端硬碟」、「與我共用」「已加星號」,還有「電腦」同步文件,當然也可以直接利用搜尋功能:「在雲端硬碟中搜尋或貼上」,這可以算是NotebookLM教學中的基本技巧。

八、來源文件摘要
新增Google文件作為來源之後,NotebookLM會先簡單地摘要這份文件,這時候終於出現繁體中文了。接著在下方的AI搜尋框或題目框,就可以開始進行AI輸入,會提供一些預設的相關問題可直接點選,如此對於NotebookLM是什麼應該能有初步的瞭解。

九、圖片轉文字工具
接下來要做的事情很簡單:「將原始文件的內容轉換為繁體中文」,雖然只是簡單的一件事,卻是Gemini容易產生誤解的地方。NotebookLM語音摘要都能輕輕鬆鬆完成了,這對於它真的是小事一樁,沒有出現讓贊贊小屋覺得奇怪的幻覺。
最後整理圖片轉文字工具的操作流程:先利用Gemini分析圖片文字,匯出成為Google文件,再導入到NotebbokLM進行繁體中文轉換,算是一個完整的AI工具實戰範例。
步驟 | 操作內容 | 說明 |
---|---|---|
一、景點說明立牌 | 參觀景點的文字說明 | 旅遊時,歷史景點有說明立牌。 |
二、Gemini上傳檔案 | 上傳圖片檔案至Gemini | 點選圖示,上傳手機或電腦檔案。 |
三、解析圖片文字 | Gemini解析圖片文字 | Gemini解析圖片內容並轉為簡體。 |
四、繁體中文回答 | 簡體轉繁體處理 | 使用工具將簡體轉換為繁體。 |
五、複製與匯出文件 | 匯出文字與資料 | 複製文字並匯出至Google文件。 |
六、NotebookLM來源 | 新增來源文件至NotebookLM | 選擇Google文件或貼上文字。 |
七、雲端硬碟文件 | 匯入Google文件 | 從近期存取選取並插入文件。 |
八、來源文件摘要 | 生成文件摘要 | NotebookLM生成簡要摘要。 |
九、轉換為繁體中文 | 將文件轉換為繁體中文 | 簡體中文轉換為繁體中文。 |

多AI工具組合用法
文章提到Gemini堅持以簡體中文回答,並且認為這是個誤解,AI覺得如此理所當然,以致於贊贊小屋都懷疑是否真的誤解了。不過以實際的個人使用體驗而言,確實會覺得這是個Bug,多少有些不太方便。
後來仔細回想,贊贊小屋也遇過ChatGPT旅遊規劃時突然以英文回答,瞭解之後發現它會去搜尋英文旅遊文章,再回覆中文的旅遊問題。所以合理推測,也許是因為AI模型搜尋英文網頁,就直接以英文回覆了。至於這裡的Gemini範例,也許可能因為它用的文字擷取工具來源自簡體中文,所以直接以簡體中文回答,畢竟像微信App的文字擷取速度很快,AI也許就直接用了。
另外,這篇文章的操作雖然因誤解而多了幾個步驟,其實剛好是一個極佳範例。目前AI工具這麼多,各有特色,就連開創者與最主流的ChatGPT也無法完全覆蓋每個層面,在深入研究某項主題確實比不上專業戶Gemini,因此有些時候就是必須搭配和嘗試不同的AI工具,才能順利解決問題完成任務。
學會計、學Excel、學習AI工具,歡迎加入贊贊小屋社群。
AI工具大全:8種不同功能用途和30個應用清單
