瀏覽器端本地 OCR 在筆電執行畫面示意圖

瀏覽器端本地 OCR 完整教學:Tesseract.js、PaddleOCR、TrOCR 三方案實作與零成本部署

自由揚AntonyLin
瀏覽器端本地 OCR 在筆電執行畫面示意圖
瀏覽器端本地 OCR 在筆電執行畫面示意圖

最近我們在內部做幾個客戶的客製化系統時,碰到同一道牆——客戶想要做文字辨識(OCR),但文件本身敏感到不能上雲。一份是醫療客戶的病歷掃描檔,另一份是建設公司的合約頁。雲端 OCR API 報價漂亮、準確度也夠,但「文件不出本機」這條紅線一畫下來,整個雲端方案全部出局。

於是我們開始研究第二條路:把 OCR 模型直接搬進使用者的瀏覽器,從上傳那一刻到辨識結果出來,整個過程都在本機跑完,伺服器只負責下發模型檔。沒有 API 帳單、沒有上傳延遲、沒有資料外流風險——前提是這條路真的跑得動。這篇就是那段研究的整理:技術可行嗎、有哪幾條路線、各自的天花板在哪、真的零成本嗎、什麼情況下你該選它、什麼情況下乖乖用雲端 API。

ℹ️先說結論——三條路 + 真實成本

**結論一**:技術上完全可行。2026 年三條主流方案——Tesseract.js(WebAssembly)、PaddleOCR via ONNX Runtime Web(WebGPU)、Transformers.js + TrOCR/Donut——都已經穩定到能丟生產環境。 **結論二**:真的可以零成本。模型本身全部免費開源(Apache 2.0 / MIT),運算用使用者裝置 GPU/CPU。你只要付靜態檔案 CDN 費用,而 jsDelivr / Hugging Face Hub / Cloudflare R2 幾乎是免費或近乎免費(R2 的 egress 是 0 元)。 **結論三**:選哪一條看場景——簡單列印體文件選 Tesseract.js(最小 2MB,零依賴)、中文發票/身分證選 PaddleOCR ONNX(中文最強)、手寫或結構化文件選 TrOCR/Donut(精度最高但模型大)。

從 2025 年下半到 2026 年,瀏覽器端 AI 推論的基礎建設出現了三個關鍵節點。第一個是 WebGPU 在 2025 年 11 月跨瀏覽器預設啟用,ddevtools 統計 顯示全球瀏覽器覆蓋率達 82.7%;第二個是 2026 年 2 月釋出的 Transformers.js v4,把 200+ 模型架構與 1,200+ 已轉換模型搬進瀏覽器;第三個是 Tesseract.js v6 全面改寫記憶體管理與執行時效能。三件事疊起來,瀏覽器端 OCR 從「玩具」變成「可上線」。

為什麼把 OCR 跑在瀏覽器:四個真正的理由

不要先談技術選型,先問「這條路有沒有解決問題」。瀏覽器端 OCR 不會比 Google Cloud Vision 準、不會比 Azure Computer Vision 快、不會比 AWS Textract 規模化。它真正解決的是雲端方案處理不了的四個問題——隱私、規模化成本、離線需求、即時體驗。下面一條條拆。

理由一:資料不能離開本機

醫療病歷、法律合約、人事資料、財務報表、身分證件——這些文件碰到雲端 OCR API 就立刻撞合規牆。台灣的個資法、歐盟 GDPR、美國 HIPAA 都對「個人資料境外傳輸」有限制,把客戶身分證影像送到 AWS Textract 是行得通的(只要走台北 region 並簽 DPA),但很多企業客戶根本不接受「文件離開公司網路」這件事本身。我們在做 #3 醫療客戶系統時就遇過——醫院 IT 的紅線是「病歷影像不能上 public cloud,連 region 在台灣的都不行」。

瀏覽器端 OCR 的好處:辨識在使用者裝置上完成,你的伺服器只看到辨識「結果」(甚至連結果都不必看),原始影像從來沒有離開過使用者的電腦。對合規會議、稽核問答、ISO 27001 控制項,這是最容易解釋的架構。

理由二:API 費用會在規模化時暴增

雲端 OCR API 看起來便宜——Google Cloud Vision 每 1,000 頁 USD 1.5、AWS Textract 每 1,000 頁 USD 1.5(基本)到 USD 65(含表格與表單欄位)、Azure 每 1,000 頁 USD 1(按 Google Cloud 官方定價頁)。看起來零頭,但實際算下來,一個發票辨識的 SaaS 產品如果每月處理 50 萬頁,光 OCR 成本就 USD 750-32,500,再疊上後端解析、儲存、流量成本。同樣的功能如果跑在使用者瀏覽器,這個帳單直接是 0。

理由三:離線可用

Progressive Web App、現場稽核工具、工地巡檢、機艙內掃描——這些場景有可能網路收訊極差。瀏覽器端 OCR 模型一旦透過 Service Worker 或 IndexedDB 快取下來,後續使用完全不需要網路。這是雲端 API 怎麼樣都做不到的事。

理由四:UX 即時性

從使用者按下「掃描」到看到結果,雲端 API 至少包含「上傳圖片 → 等待 API 回應 → 下載結果」三段。在 4G 網路上 5MB 的高解析掃描檔可能要 2-4 秒只是上傳。瀏覽器端 OCR 對中等大小文件可以做到 1 秒內出結果,對使用者體驗的影響是質變不是量變。

WebAssembly 與瀏覽器端推論電路示意圖
WebAssembly 與瀏覽器端推論電路示意圖

三條技術路線完整對比

瀏覽器端 OCR 目前有三條主流路線,技術棧、模型大小、適用場景都不一樣。先看總表,再進去個別拆解。

方案

引擎

模型大小

中文支援

速度(A4 文件)

適合

Tesseract.js v6

WebAssembly

2MB(英文)/ 18MB(繁中)

中等(列印體 OK,手寫差)

CPU 1-3 秒

MVP、入門、列印文件

PaddleOCR + ONNX Runtime Web

ONNX Runtime + WebGPU

8-30MB(INT8 量化後)

強(百度自家,中文準確率最高)

WebGPU < 1 秒

中文發票、身分證、表格

Transformers.js + TrOCR/Donut

ONNX Runtime + WebGPU

50-300MB(量化後)

弱(需 fine-tune)

WebGPU 2-5 秒

英文手寫、結構化文件解析

資料來源:Tesseract.js 官方 performance.mdPaddleOCR.js GitHub repoHugging Face Transformers.js 文件。實際速度取決於使用者裝置與圖片大小,數字為一般筆電(M2 / Ryzen 7)測試。

路線一:Tesseract.js v6 從零跑通繁體中文 OCR

Tesseract.js 是 Google Tesseract 5 引擎的純 JavaScript 移植,編譯成 WebAssembly 跑在瀏覽器。它的優勢非常清楚:零依賴、CDN 載入、100+ 語言、文件齊全。劣勢一樣清楚:手寫字辨識差、版面分析不如新的深度學習模型、中文準確率比 PaddleOCR 弱一截。

但對 80% 的「想做 OCR 但不太複雜」場景,Tesseract.js 就夠了。我們先把它跑通——這段程式碼可以直接複製貼上,做一個能辨識繁體中文 PDF/圖片的網頁。

最小可用範例(HTML + JS,無 build step)

HTML

  
  尚未開始
  


  

這段程式碼做了三件事:載入 Tesseract.js 6.x、用繁中+英文雙語言模型建立 worker、把使用者上傳的圖片丟進辨識。整段加 HTML 不到 50 行。第一次跑會下載約 18MB 的繁中模型(Brotli 壓縮),之後瀏覽器會自動快取,使用者下次進站幾乎零延遲。

⚠️為什麼用 createWorker(['chi_tra', 'eng']) 而不是只指定 chi_tra

繁體中文文件實務上幾乎都會夾雜英文(公司名、產品型號、URL、數字)。只載入 chi_tra 時碰到英文段會準確率掉到 50% 以下。同時載入兩個語言模型雖然檔案大一倍(約 30MB),但混排辨識準確率穩定在 90%+。 如果頻寬是瓶頸,可以做漸進式載入——先載 eng(2MB)給英文使用者,使用者真的要辨識中文時才動態 load chi_tra。

效能調校:WebWorker 不會卡 UI

Tesseract.js 在瀏覽器內部已經會自動開一個 dedicated WebWorker,主執行緒不會被辨識計算卡住。但「初始化 worker」這個動作本身會載 wasm 檔(約 2.1MB Brotli 壓縮)跟語言檔。實務上建議在「使用者點開檔案選擇器」的瞬間就 prefetch 這些檔案,比等到「按下辨識」才開始載延遲少 1-2 秒。

更深入的優化可以用 SIMD 加速版本——Chrome >= 91、Firefox >= 90、Safari >= 16.4 都支援 WebAssembly SIMD,Tesseract.js v6 會自動偵測並啟用,文字辨識速度比非 SIMD 版本快 30-40%(依 Tesseract.js 效能文件)。

常見坑:CORS、Service Worker、SharedArrayBuffer

Tesseract.js 載入 wasm 檔需要瀏覽器允許 cross-origin requests。如果你把模型檔放自家 CDN(例如 Cloudflare R2 + Cloudflare CDN),記得:第一,回應 header 要包含 Access-Control-Allow-Origin:第二,如果要用 SharedArrayBuffer 加速(v6 預設啟用),頁面必須在 cross-origin isolation 環境,需要兩個 header:Cross-Origin-Opener-Policy: same-origin 跟 Cross-Origin-Embedder-Policy: require-corp。

這些 header 設好之前,Tesseract.js 也能跑,只是用 fallback 的 single-thread 模式,速度大概慢 50%。值得花 10 分鐘設定。

路線二:PaddleOCR 透過 ONNX Runtime Web 跑中文

Tesseract.js 在中文場景的天花板很明顯——拿一張正常的繁體中文發票丟進去,準確率大概 70-85%。對「掃完只要找關鍵字」的場景夠用,但要拿來自動填欄位(買方統編、總金額、品項清單)就會被同事抱怨「校稿的時間比手 key 還久」。這時候就需要 PaddleOCR。

PaddleOCR 是百度開源的 OCR 框架,中文辨識準確率業界公認最強。原本是 Python/C++,但社群已經把它的核心模型(檢測 + 方向分類 + 辨識三段)轉成 ONNX 格式,配合 ONNX Runtime Web 就能在瀏覽器跑。最成熟的 JS SDK 是 ppu-paddle-ocr,PP-OCRv5 全家族支援,Bun / Node / Deno / 瀏覽器都跑。

最小範例(含 WebGPU 加速)

HTML

關鍵點是第 13 行的 `executionProviders: ['webgpu', 'wasm']`——ONNX Runtime Web 會優先用 WebGPU,沒有再 fallback 到 WebAssembly。在支援 WebGPU 的瀏覽器(Chrome 113+、Edge 113+、Safari 18+)上,同一張 A4 文件的辨識時間從 WASM 的 2-3 秒砍到 WebGPU 的 0.5-1 秒。

為什麼用 INT8 量化版本

PaddleOCR 原始 FP32 模型大概 50MB,對首次載入體驗很差。INT8 量化把模型權重從 32-bit 浮點轉成 8-bit 整數,檔案大小砍到 1/4(剩 12-15MB),辨識速度在 x86 CPU 上反而快 20-50%——這是 ONNX Runtime 官方量化文件 的實測數字。準確率損失?以 PP-OCRv5 辨識模型而言,INT8 量化後英文辨識準確率從 99.22% 變 99.22%——沒有可測得的差異。

⚠️Apple Silicon 上反而不要用 INT8

INT8 量化的速度優勢來自 x86 的 VNNI 指令集跟 ARM 的 dotprod 指令集。但 Apple M 系列晶片的 INT8 路徑走 MLAS 後端,反而比 FP32 的 NEON/Accelerate 路徑慢。 如果你預期使用者主要是 macOS(設計師、創意產業客戶),偵測到 Apple Silicon 時應該載 FP32 版本而非 INT8 版本。判斷方式:`navigator.userAgent.includes('Macintosh')` 且 `navigator.gpu` 的 adapter info 顯示 Apple。

模型檔案的部署策略

PaddleOCR 三個模型檔加起來大約 25MB。三個部署選項:

  • 選項一:jsDelivr CDN。把模型 push 到 GitHub repo,jsDelivr 自動 CDN 化,免費、有快取、全球 PoP。缺點是大檔案首次冷啟動可能慢一點。
  • 選項二:Hugging Face Hub。Hugging Face 提供免費的模型 hosting,含 CDN。需要在 model card 寫好元資料,但對開源模型是最自然的選擇。
  • 選項三:Cloudflare R2 + Cloudflare CDN。R2 的 egress 是 0 元,存大量模型也不會破產,最適合商業產品。配 Workers 還可以做版本控制與 A/B 測試。

我們自己會選第三條:Cloudflare R2 + CDN 是真正的零邊際成本,模型再多再大都不會炸帳單,而且可控性最高。檔案放上去之後,記得設定 IndexedDB 或 Service Worker 持久化快取,第一次載完就永久不再下載。

OCR 三方案效能與成本對比示意圖
OCR 三方案效能與成本對比示意圖

路線三:Transformers.js + TrOCR/Donut 跑文件級 OCR

如果你的場景是「不只要文字、還要結構化解析」——例如把發票直接輸出成 JSON、把名片自動填進 CRM、把履歷拆成欄位——那就需要 Transformer-based 的 OCR 模型,例如微軟的 TrOCR 或 NAVER 的 Donut。

這類模型不只做「圖片到文字」,是直接做「圖片到結構化輸出」。Donut 甚至可以跳過 OCR 那一步,直接吃整張文件圖、輸出對應的 JSON。準確率比傳統 OCR + LLM 解析的兩段式管線高,因為它把版面理解跟內容理解綁在同一個模型裡訓練。

Transformers.js 最小範例

HTML

  
  
等待上傳...

這段程式碼用的是 `Xenova/trocr-small-printed`,模型大小約 60MB,適合列印體英文。如果你要辨識手寫,換成 `Xenova/trocr-base-handwritten`(240MB,準確率提升但首次載入要等)。完整模型清單在 Hugging Face Transformers.js 模型列表,OCR/document understanding 相關的有 30 多個。

ℹ️Donut 跟 TrOCR 該怎麼選

**TrOCR**:擅長從文件中提取單行文字(標題、表格儲存格、收據項目),輸入是「裁切過的文字行圖片」、輸出是「該行的文字」。需要你先用 PaddleOCR 或其他工具做版面分割。 **Donut**:OCR-Free Document Understanding Transformer,直接吃整張文件圖、輸出 JSON 結構。例如餵一張發票圖、產出 `{vendor, total, items: [...]}`。模型較大(260MB+)但省掉版面分析這一步。 **決策原則**:如果你只要文字流(搜尋、複製貼上)→ TrOCR;如果你要把文件自動進系統(自動填欄位、進 ERP)→ Donut。

WebGPU 加速的實際效益

Transformers.js v3 開始原生支援 WebGPU,跟 WebAssembly fallback 比,FP16 模型在 WebGPU 上的速度通常快 3-5 倍。同一個 TrOCR-base 模型在 M2 MacBook 上的數字大概是:WASM 5-8 秒/頁、WebGPU 1.5-2.5 秒/頁。如果你的使用者主要在 2023 年後的筆電上跑,WebGPU 是值得開的開關。

💡下載|瀏覽器端 OCR 方案選型 checklist (PDF)

想知道你的場景該選哪一條路?這份 1 頁 A4 PDF 整理了 7 個決策指標(隱私需求、文件語言、檔案大小、準確率門檻、瀏覽器支援、商業授權、維護成本)× 三方案的對照評分。直接列印貼牆上、做技術選型時逐項打勾,10 分鐘決定要走 Tesseract.js、PaddleOCR 還是 TrOCR。 下載連結準備中,先把網址收藏起來——browser-local-ocr-tesseract-paddleocr-trocr-zero-api-cost

真實成本拆解:到底要不要花錢

一句話結論:可以做到完全 0 元,前提是你願意接受幾個取捨。

下面這張表把所有可能的成本來源列清楚,每一項都有「最便宜方案」跟「實際企業會選的方案」對照:

成本項目

最便宜(0 元)

實際企業會選

為什麼

模型授權

0(Apache 2.0 / MIT)

0(同左)

Tesseract、PaddleOCR、TrOCR、Donut 全部商用免費

OCR API 費用

0(不用 API)

0

整個重點

模型檔案 hosting

0(jsDelivr / HF Hub)

0-USD 5/月(Cloudflare R2)

R2 的 egress 是 0 元,控制權自有

使用者裝置 GPU/CPU

0(使用者付電費)

0

運算成本在客戶端

開發人力

免費教學文 + ChatGPT

外包約 NT$ 30,000-150,000

整合進既有系統、UX 優化、瀏覽器相容測試的時間

維護

0(社群版本更新)

0-NT$ 5,000/月

模型升級、瀏覽器相容性追蹤

關鍵洞察:純技術角度的「持續性成本」真的是 0。整個方案不需要任何雲端服務 API key、不需要伺服器 GPU、不需要按用量計費的依賴。你只付「第一次做」的開發人力——這對任何技術方案都成立,雲端 OCR API 一樣要花這筆。

ℹ️我們怎麼看——這個技術往哪走

瀏覽器端 OCR 在 2024-2025 還是「能做但要小心」,現在(2026)已經是「不選它反而要解釋為什麼」。我們的看法是:3 年後企業端的「文件處理工作流」會分裂成兩條路——一條是高敏感資料走「瀏覽器/本地端 + LLM 後處理」、一條是低敏感資料走「雲端 API + 流程編排」。中間那條「為了省事什麼都上雲」的路會慢慢被合規與成本兩頭擠掉。 對中小企業老闆而言,現在不需要急著押這條路,但要開始問一件事:『我們公司每天在做的文件 OCR / 表單輸入,哪一段其實不該離開員工的電腦?』先把那條流程畫出來,技術選型之後再說。

文件隱私不上雲的本地 OCR 應用場景
文件隱私不上雲的本地 OCR 應用場景

什麼情況該用本地 OCR、什麼情況該乖乖用雲端 API

不是所有 OCR 場景都該往瀏覽器搬。下面這張決策表把實務上會遇到的 8 種情境分類,給你一個快速判斷的工具。

情境

建議路線

理由

醫療病歷、合約、人事資料

瀏覽器端(PaddleOCR)

合規硬規定,不能上雲

一般用戶上傳的文件(部落格、社群)

雲端 API(Google Cloud Vision)

規模化、需高準確率、無隱私問題

中小型 SaaS 產品的發票辨識功能

瀏覽器端(PaddleOCR)

100 萬頁/月省 USD 1,500,使用者也更安心

ERP/CRM 後端批次處理

雲端 API 或自架 PaddleOCR Server

非瀏覽器情境,不適用

PWA、現場稽核工具

瀏覽器端(Tesseract.js)

離線可用是硬需求

身分證、駕照辨識

瀏覽器端(PaddleOCR + 後端驗章)

文字部分本地、防偽部分上雲

超大量歷史檔案數位化(10 萬+ 頁)

自架 PaddleOCR Server

批次處理規模化,不適合瀏覽器

手寫筆記、白板照、潦草書信

雲端 API(Google Doc AI)或 GPT-4 Vision

瀏覽器端模型對手寫的準確率還不夠

一條判斷原則:「資料能不能離開使用者裝置」這條紅線優先於「準確率高 5%」這個量級的差異。如果合規不允許上雲,就算 Tesseract.js 準確率比 Google Cloud Vision 低 10%,也只能選 Tesseract.js——你不會因為「準確率不夠」就把客戶的個資送出去。

我們在客製化系統開發中怎麼用本地 OCR

最後分享我們自己在客戶案上的應用——這部分跟教學沒有直接關係,但對你判斷「該不該找人做」有實質參考。在 AI 系統開發客製化系統開發 的案子裡,我們碰過幾個本地 OCR 落地場景:

第一個是 醫療產業的病歷分析系統——這個案子最初客戶想用 Google Cloud Vision 做病歷數位化,被院內法務 IT 退件兩次(HIPAA 對應的台灣個資法解讀)。我們改用 PaddleOCR + ONNX Runtime Web,所有辨識在醫護人員的工作站完成,後端只儲存結構化結果。合規會議直接過。

第二個是 AI 智慧客服系統——客戶用戶上傳收據 / 出貨單詢問訂單問題,我們把 Tesseract.js 嵌進客服介面,使用者拖一張圖進對話框、馬上抽出訂單號跟金額,後端機器人直接查單回覆。這個流程如果走雲端 API,光是每月處理 5 萬張圖的 API 費就要 USD 75,更別說使用者上傳的延遲體驗。

第三個是內部工具——我們公司自己每天就在跑 20+ 個 AI 流程,其中包含把客戶的合約 PDF、報價單掃描檔自動拆成結構化欄位的工作流。我們用 Donut + Transformers.js 跑在內部工具站,所有客戶資料從來不出公司網路。詳細的 AI 流程設計可以參考我們之前寫的 AI Agent 自己造工具——Skill Library 技能庫架構

ℹ️我們做過這件事

順帶說一下,這篇講的方法我們公司自己每天都在跑——目前內部有 20+ 個 AI 流程在工作中,包含本地 OCR 把客戶文件拆成結構化欄位的工作流。同時我們也在 醫療客戶的病歷分析系統AI 智慧客服系統 這類客製化案子裡實際落地過瀏覽器端 OCR——這裡分享的東西,都是我們做出來、確認真的能省到時間之後才寫的。 看到這裡,如果你也在想「這套放在我們公司會是什麼樣子」——我們很樂意 聽你聊聊現在的實際情況,一起看看哪些做得起來、能從哪一塊開始。如果你的場景更偏「把流程接進既有系統」、想討論 客製化系統開發 的方向也歡迎。

QTesseract.js 對繁體中文準確率到底夠不夠用?

看文件類型。列印體(公文、書本、報表)正確率穩定在 90-95%,夠用。掃描品質差的(傳真、模糊照片)會掉到 60-80%。手寫字基本上不要期待。如果你的場景是「掃描完只要找關鍵字」,Tesseract.js 夠用;如果要自動填欄位、進系統,建議改用 PaddleOCR。

Q模型檔放在 jsDelivr 上會不會被列為廣告或追蹤而被瀏覽器擋掉?

目前不會。jsDelivr 是純 OSS 的 CDN、沒有追蹤腳本,廣告攔截器(uBlock、AdGuard)的預設清單都不擋它。但如果你的使用者用了非常嚴格的隱私瀏覽器(Tor Browser、強化版 Brave),可能會擋第三方 CDN,這時候要 fallback 到自家 CDN(R2 / Cloudflare Pages)。

QWebGPU 不支援的舊瀏覽器怎麼辦?

ONNX Runtime Web 跟 Transformers.js 都會自動 fallback 到 WebAssembly。差別只在速度——WebGPU 環境下 0.5-1 秒能完成的 PaddleOCR 辨識,WASM 環境下需要 2-3 秒。對使用者體驗有差但不會壞掉。如果你的目標使用者主要用 Safari < 18、Edge < 113,建議優先選 Tesseract.js 而不是 PaddleOCR。

Q把 25MB 模型檔丟到使用者瀏覽器會不會傷 UX?

第一次載會。但配合 IndexedDB 持久化快取,從第二次起完全不需要再下載。實務上建議在「使用者第一次進站」時用 idle prefetch 預先載入模型,等使用者真的要用時已經在快取裡。整體 UX 比「每次都打雲端 API」其實更快。

Q我可以用瀏覽器端 OCR 取代 Google Cloud Vision 嗎?

看場景。如果你的需求是「個別使用者上傳文件、辨識完丟回前端顯示」,瀏覽器端 OCR 完全可以取代且省錢。如果你的需求是「後端批次處理 100 萬份檔案」,瀏覽器端就不適用——那是伺服器端 PaddleOCR 或雲端 API 的場景。

Q瀏覽器端 OCR 跟 GPT-4 Vision / Claude Vision 的差別?

GPT-4V / Claude Vision 走的是雲端 API、按 token 計費(每張圖約 USD 0.005-0.015),辨識準確率高、能理解版面跟語意,但有 API 成本、有資料上雲問題、延遲較高。瀏覽器端 OCR 沒有這些問題但精度較低。實務上的取捨可以參考我們的 [AI 專案外包報價框架](/blog/ai-project-outsourcing-pricing-framework-six-types-budget-contract)。

下一步該怎麼動

如果你看完這篇覺得「這條路適合我們公司」,可以從這三步開始:

  • 第一步:列你的 OCR 場景清單。把公司目前所有「人工輸入文字進系統」的流程列出來,標出哪些文件是敏感的、哪些是公開的。敏感的就是瀏覽器端 OCR 的目標市場。
  • 第二步:跑 Tesseract.js 5 分鐘 demo。複製上面那段 50 行 HTML,丟你公司的 10 張真實文件進去看準確率。如果 90% 以上 → 直接做;如果 70-90% → 試 PaddleOCR;如果不到 70% → 場景可能根本不適合瀏覽器端 OCR。
  • 第三步:評估整合工程。把它接進既有系統的工程量通常是「跑通 demo」的 3-10 倍。如果你想討論這段放到自家系統的設計,可以直接找我們聊聊——我們在 客製化系統開發AI 系統開發 都做過實際的整合,初步的方向判斷大概 30 分鐘可以給你。

延伸閱讀:如果你對「為什麼企業 AI 該往本地端走」這個方向有興趣,可以接著看 NVIDIA DGX Spark 完整解析(桌上型 AI 主機)跟 Google 開源 Gemma 3 完整指南(瀏覽器/本地端跑 LLM 的開源選項)。如果你關心發票辨識怎麼從 OCR 串到後端會計流程,會計與財務部門 AI 自動化完整指南 有完整 SOP。

如果你不是工程師,正在評估企業 OCR 採購

這篇是寫給工程師、產品經理、自學者的本地端 OCR 實作教學——三方案的 zero-API-cost 部署、瀏覽器端的程式碼範例與效能比較。但如果你的身分是 IT 主管、財務長、法務長,正在評估「公司每月 10 萬份發票、病歷、合約要不要自己做 OCR」這類採購決策,這篇的技術細節對你來說太深、決策面向也太窄。我們另外寫了一篇企業採購視角的姊妹文:企業端 OCR 系統客製化開發完整指南:5 種技術路徑、3 個報價區間、5 種整合場景,從「自評需求 7 條訊號」「5 路徑選型(雲端 API / 開源自架 / fine-tune / SaaS / 混合)」「3 個報價區間(30-80 萬、100-300 萬、500 萬+)」「5 個落地場景(發票、文件數位化、病歷、進銷存、簽核)」走過一遍,幫採購方把決策想清楚再找廠商。

分享文章

AUTHOR

自由揚AntonyLin

留言(0)

尚無留言,成為第一個留言的人吧!

需要網站系統架設或軟體開發?

無論是品牌官網、客製化系統還是應用程式,我們的團隊擁有豐富經驗,歡迎聯繫我們,讓專業為您的事業加分。