Tesseract.js
支持 100 多种语言的纯 Javascript OCR 可以从图像中获取几乎任何语言的文字。
Tesseract.js 是一个 javascript 库,可以从图像中获取几乎任何语言的文字。(演示)
图像识别
视频实时识别
Tesseract.js 包装了Tesseract OCR引擎的emscripten 端口。它在浏览器中使用webpack或带有CDN的纯脚本标签,并在服务器上使用Node.js。安装后,使用起来非常简单:
import Tesseract from 'tesseract.js';
Tesseract.recognize(
'https://tesseract.projectnaptha.com/img/eng_bw.png',
'eng',
{ logger: m => console.log(m) }
).then(({ data: { text } }) => {
console.log(text);
})
或者更命令
import { createWorker } from 'tesseract.js';
const worker = await createWorker({
logger: m => console.log(m)
});
(async () => {
await worker.loadLanguage('eng');
await worker.initialize('eng');
const { data: { text } } = await worker.recognize('https://tesseract.projectnaptha.com/img/eng_bw.png');
console.log(text);
await worker.terminate();
})();
查看文档以获取 API 的完整说明。
版本 4 包括许多新功能和错误修复——请参阅本期以获取完整列表。下面是几个要点。
createWorker
现在是异步的getPDF
功能被 pdf
识别选项取代阅读有关 v2 的故事:为什么我重构 tesseract.js v2? 检查版本 1 的support/1.x分支
Tesseract.js <script>
通过本地副本或 CDN 使用标签,通过 webpack 通过 npm
和在 Node.js 上使用 npm/yarn
.
<!-- v4 -->
<script src='https://unpkg.com/tesseract.js@4.0.0/dist/tesseract.min.js'></script>
包含脚本后,Tesseract
变量将全局可用。
需要 Node.js v14 或更高版本
# For latest version
npm install tesseract.js
yarn add tesseract.js
# For old versions
npm install tesseract.js@3.0.3
yarn add tesseract.js@3.0.3
要运行 Tesseract.js 的开发副本,请执行以下操作:
# First we clone the repository
git clone https://github.com/naptha/tesseract.js.git
cd tesseract.js
# Then we install the dependencies
npm install
# And finally we start the development server
npm start
开发服务器可以在您喜欢的浏览器中访问http://localhost:3000/examples/browser/demo.html 。当您更改src文件夹中的文件时 tesseract.dev.js
,它会自动重建。worker.dev.js
您可以使用 Gitpod(一种免费的在线 VS 代码,如 IDE)进行贡献。只需单击一下,它就会启动一个准备好编码的工作区,其中构建和启动脚本已经在进行中,几秒钟内它就会启动开发服务器,这样您就可以立即开始贡献,而不会浪费任何时间。
要构建编译后的静态文件,只需执行以下命令:
npm run build
这会将文件输出到 dist
目录中。
这个项目的存在要归功于所有做出贡献的人。[贡献]。
成为财务贡献者并帮助我们维持我们的社区。[贡献]
与您的组织一起支持这个项目。您的徽标将显示在此处,并带有指向您网站的链接。[贡献]