+ 86-755-29031883

តើមុខងារ PDA របស់ស្ថានីយឧបករណ៍យួរដៃ OCR មានកម្មវិធីអ្វីខ្លះ?

តើបច្ចេកវិទ្យា OCR គឺជាអ្វី?

ការទទួលស្គាល់តួអក្សរអុបទិក (ភាសាអង់គ្លេស៖ Optical Character Recognition, OCR) សំដៅលើដំណើរការនៃការវិភាគ និងទទួលស្គាល់ឯកសាររូបភាពនៃសម្ភារៈអត្ថបទ ដើម្បីទទួលបានព័ត៌មានអត្ថបទ និងប្លង់។

ស្រដៀងគ្នាទៅនឹងបច្ចេកវិទ្យាការទទួលស្គាល់រូបភាព និងចក្ខុវិស័យម៉ាស៊ីន ដំណើរការដំណើរការនៃបច្ចេកវិទ្យា OCR ក៏ត្រូវបានបែងចែកទៅជាការបញ្ចូល ដំណើរការមុន ដំណើរការពាក់កណ្តាលរយៈពេល ដំណើរការក្រោយដំណើរការ និងដំណើរការលទ្ធផល។

ចូល
សម្រាប់​ទម្រង់​រូបភាព​ខុស​គ្នា មាន​ទ្រង់ទ្រាយ​ផ្ទុក​ខុស​គ្នា និង​វិធី​បង្ហាប់​ផ្សេង​គ្នា។បច្ចុប្បន្នមាន OpenCV, CxImage ជាដើម។

ដំណើរការមុន - binarization

រូបភាពភាគច្រើនដែលថតដោយកាមេរ៉ាឌីជីថលសព្វថ្ងៃនេះ គឺជារូបភាពពណ៌ ដែលមានព័ត៌មានយ៉ាងច្រើន និងមិនស័ក្តិសមសម្រាប់បច្ចេកវិទ្យា OCR នោះទេ។

ចំពោះខ្លឹមសារនៃរូបភាព យើងអាចបែងចែកវាទៅជាផ្ទៃខាងមុខ និងផ្ទៃខាងក្រោយបាន។ដើម្បីធ្វើឱ្យកុំព្យូទ័រកាន់តែលឿន និងដំណើរការការគណនាដែលទាក់ទងនឹង OCR កាន់តែប្រសើរ យើងត្រូវដំណើរការរូបភាពពណ៌ជាមុនសិន ទើបមានព័ត៌មានផ្ទៃខាងមុខ និងព័ត៌មានផ្ទៃខាងក្រោយនៅក្នុងរូបភាព។Binarization ក៏អាចត្រូវបានគេយល់យ៉ាងសាមញ្ញថាជា "សខ្មៅ"។

ការកាត់បន្ថយសំលេងរំខានរូបភាព
សម្រាប់រូបភាពផ្សេងៗគ្នា និយមន័យនៃសំលេងរំខានអាចមានភាពខុសប្លែកគ្នា ហើយដំណើរការនៃការ denoising ទៅតាមលក្ខណៈនៃសំលេងរំខានត្រូវបានគេហៅថា ការកាត់បន្ថយសំលេងរំខាន។

ការកែតម្រូវលំអៀង
ដោយសារតែអ្នកប្រើប្រាស់ធម្មតា ពេលថតរូបឯកសារ វាពិបាកក្នុងការថតទាំងស្រុងស្របនឹងការតម្រឹមផ្ដេក និងបញ្ឈរ ដូច្នេះរូបភាពដែលថតបាននឹងជៀសមិនរួច ដែលទាមទារកម្មវិធីកែច្នៃរូបភាពដើម្បីកែតម្រូវ។

ដំណើរការពាក់កណ្តាលរយៈពេល - ការវិភាគប្លង់
ដំណើរការនៃការបែងចែករូបភាពឯកសារទៅជាកថាខណ្ឌ និងសាខាត្រូវបានគេហៅថា ការវិភាគប្លង់។ដោយសារភាពចម្រុះ និងភាពស្មុគស្មាញនៃឯកសារជាក់ស្តែង ជំហាននេះនៅតែត្រូវការធ្វើឱ្យប្រសើរ។

ការកាត់តួអក្សរ
ដោយសារតែលក្ខខណ្ឌនៃការថតរូប និងការសរសេរមានកម្រិត តួអក្សរតែងតែជាប់គាំង ហើយប៊ិចត្រូវបានខូច។ការប្រើប្រាស់រូបភាពបែបនេះដោយផ្ទាល់សម្រាប់ការវិភាគ OCR នឹងកំណត់យ៉ាងខ្លាំងនូវដំណើរការ OCR ។ដូច្នេះ ការបែងចែកតួអក្សរគឺត្រូវបានទាមទារ ពោលគឺដើម្បីបំបែកតួអក្សរផ្សេងគ្នា។

ការទទួលស្គាល់តួអក្សរ
នៅដំណាក់កាលដំបូង ការផ្គូផ្គងគំរូត្រូវបានប្រើជាចម្បង ហើយនៅដំណាក់កាលក្រោយ ការទាញយកលក្ខណៈពិសេសត្រូវបានប្រើជាចម្បង។ដោយសារឥទ្ធិពលនៃកត្តាដូចជា ការផ្លាស់ទីលំនៅរបស់អត្ថបទ កម្រាស់ដាច់សរសៃឈាមខួរក្បាល ប៊ិចខូច ភាពស្អិតជាប់ ការបង្វិលជាដើម។ ការលំបាកក្នុងការទាញយកមុខងារត្រូវបានប៉ះពាល់យ៉ាងខ្លាំង។

ការស្តារប្លង់ឡើងវិញ
មនុស្សសង្ឃឹមថាអត្ថបទដែលបានទទួលស្គាល់នៅតែត្រូវបានរៀបចំដូចរូបភាពឯកសារដើម ហើយកថាខណ្ឌ មុខតំណែង និងលំដាប់ត្រូវបានចេញជាឯកសារ Word ឯកសារ PDF ជាដើម ហើយដំណើរការនេះត្រូវបានគេហៅថាការស្ដារប្លង់ឡើងវិញ។

ដំណើរការក្រោយ
យោងតាមទំនាក់ទំនងនៃបរិបទភាសាជាក់លាក់ លទ្ធផលទទួលស្គាល់ត្រូវបានកែដំរូវ។

ទិន្នផល
បញ្ចេញតួអក្សរដែលបានទទួលស្គាល់ជាអត្ថបទក្នុងទម្រង់ជាក់លាក់មួយ។

តើឧបករណ៍យួរដៃផ្អែកលើបច្ចេកវិទ្យា OCR មានកម្មវិធីអ្វីខ្លះ?

តាមរយៈស្ថានីយឧបករណ៍យួរដៃ PDA ដែលផ្ទុកដោយកម្មវិធីសម្គាល់តួអក្សរ OCR កម្មវិធីកន្លែងកើតហេតុជាច្រើនអាចដឹងបាន ដូចជា៖ ការទទួលស្គាល់ស្លាកលេខរថយន្ត ការទទួលស្គាល់លេខកុងតឺន័រ ការទទួលស្គាល់ស្លាកសញ្ញាទម្ងន់សាច់គោ និងសាច់ចៀមដែលនាំចូល ការទទួលស្គាល់តំបន់ដែលអាចអានបានដោយម៉ាស៊ីនលិខិតឆ្លងដែន ការអានម៉ែត្រអគ្គិសនី។ , ខ្សែដែក ការទទួលស្គាល់តួអក្សរបាញ់។


ពេលវេលាបង្ហោះ៖ ថ្ងៃទី ១៦ ខែវិច្ឆិកា ឆ្នាំ ២០២២
WhatsApp ជជែកតាមអ៊ីនធឺណិត!