+86-755-29031883

Các ứng dụng của chức năng PDA thiết bị đầu cuối cầm tay OCR là gì?

Công nghệ OCR là gì?

Nhận dạng ký tự quang học (tiếng Anh: Optical Character Recognition, OCR) đề cập đến quá trình phân tích và nhận dạng các tệp hình ảnh của tài liệu văn bản để lấy thông tin văn bản và bố cục.

Tương tự như công nghệ nhận dạng hình ảnh và thị giác máy, quy trình xử lý của công nghệ OCR cũng được chia thành quy trình đầu vào, tiền xử lý, xử lý trung hạn, xử lý hậu kỳ và quy trình đầu ra.

đi vào
Đối với các định dạng ảnh khác nhau thì có định dạng lưu trữ khác nhau và phương pháp nén khác nhau.Hiện tại thì có OpenCV, CxImage, v.v.

Tiền xử lý – nhị phân hóa

Hầu hết các hình ảnh được chụp bởi máy ảnh kỹ thuật số ngày nay là hình ảnh màu, chứa một lượng thông tin khổng lồ và không phù hợp với công nghệ OCR.

Đối với nội dung của bức ảnh, chúng ta chỉ cần chia nó thành tiền cảnh và hậu cảnh.Để làm cho máy tính nhanh hơn và thực hiện tốt hơn các tính toán liên quan đến OCR, trước tiên chúng ta cần xử lý ảnh màu để chỉ còn thông tin nền trước và thông tin nền sau trong ảnh.Binarization cũng có thể được hiểu đơn giản là "đen trắng".

giảm nhiễu hình ảnh
Đối với các hình ảnh khác nhau, định nghĩa nhiễu có thể khác nhau và quá trình khử nhiễu theo đặc điểm của nhiễu được gọi là giảm nhiễu.

chỉnh nghiêng
Do người dùng thông thường khi chụp ảnh tài liệu khó có thể chụp hoàn toàn theo phương ngang dọc nên ảnh chụp ra sẽ không tránh khỏi tình trạng bị lệch cần có phần mềm xử lý ảnh để chỉnh sửa.

Xử lý giữa kỳ – phân tích bố cục
Quá trình chia ảnh tài liệu thành các đoạn và nhánh được gọi là phân tích bố cục.Do tính đa dạng và phức tạp của tài liệu thực tế, bước này vẫn cần được tối ưu hóa.

cắt ký tự
Do hạn chế về điều kiện chụp ảnh, viết lách nên nét chữ thường bị lem, bút bị gãy.Sử dụng trực tiếp những hình ảnh như vậy để phân tích OCR sẽ hạn chế rất nhiều hiệu suất OCR.Do đó, cần phải phân đoạn ký tự, tức là để tách các ký tự khác nhau.

Nhận dạng ký tự
Ở giai đoạn đầu, đối sánh mẫu chủ yếu được sử dụng và ở giai đoạn sau, trích xuất đặc trưng được sử dụng chủ yếu.Do ảnh hưởng của các yếu tố như độ dịch chuyển của chữ, độ dày nét, bút gãy, độ bám dính, độ xoay, v.v. nên độ khó của trích xuất đặc trưng bị ảnh hưởng rất nhiều.

Phục hồi bố cục
Mọi người hy vọng rằng văn bản được nhận dạng vẫn được sắp xếp giống như ảnh tài liệu gốc và các đoạn văn, vị trí và thứ tự được xuất ra tài liệu Word, tài liệu PDF, v.v. và quá trình này được gọi là khôi phục bố cục.

bài xử lý
Theo mối quan hệ của bối cảnh ngôn ngữ cụ thể, kết quả nhận dạng được sửa chữa.

đầu ra
Xuất các ký tự được nhận dạng dưới dạng văn bản ở một định dạng nhất định.

Các ứng dụng của thiết bị đầu cuối cầm tay dựa trên công nghệ OCR là gì?

Thông qua thiết bị đầu cuối cầm tay PDA được tải phần mềm nhận dạng ký tự OCR, có thể thực hiện nhiều ứng dụng cảnh, chẳng hạn như: nhận dạng biển số xe, nhận dạng số container, nhận dạng nhãn trọng lượng thịt bò và thịt cừu nhập khẩu, nhận dạng khu vực hộ chiếu có thể đọc được bằng máy, nhận dạng chỉ số đồng hồ đo điện , thép cuộn Nhận dạng ký tự phun.


Thời gian đăng bài: 16-11-2022
Trò chuyện trực tuyến WhatsApp!