🍋
Menu
PDF

OCR

OCR (Nhận dạng Ký tự Quang học)

Công nghệ phân tích hình ảnh của văn bản in hoặc viết tay và chuyển đổi chúng thành dữ liệu văn bản có thể đọc được bằng máy, tìm kiếm được và chỉnh sửa được.

Chi tiết kỹ thuật

Các quy trình OCR hiện đại bao gồm tiền xử lý hình ảnh (chỉnh nghiêng, nhị phân hóa, loại bỏ nhiễu), phân tích bố cục để xác định vùng văn bản, phân đoạn ký tự và nhận dạng mẫu. Các công cụ như Tesseract sử dụng mạng nơ-ron LSTM để nhận dạng. Đối với PDF, OCR tạo một lớp văn bản ẩn được đặt chồng lên hình ảnh quét, giúp tài liệu có thể tìm kiếm được trong khi vẫn giữ nguyên hình ảnh gốc.

Ví dụ

```javascript
// OCR: PDF manipulation example
import { PDFDocument } from 'pdf-lib';

const pdfDoc = await PDFDocument.load(fileBytes);
const pages = pdfDoc.getPages();
console.log(`Pages: ${pages.length}`);
```

Công cụ liên quan

Thuật ngữ liên quan