Chia Sẻ Khóa Học Intelligently Extract Text & Data Từ Document Với OCR NER [Khóa 7861 A]

By Nhà Sách Tin Học - 20 tháng 8 2022 - No Comments

Phát triển dự án Document Scanner App là Named entity extraction từ scan document với OpenCV, Pytesseract, Spacy.

Bạn sẽ học được gì:

✓ Phát triển và đào tạo Named Entity Recognition Model.
✓ Không chỉ Extract text từ Hình ảnh mà còn Extract Entities từ Business Card.
✓ Phát triển Business Card Scanner như ABBY từ đầu.
✓ Kỹ thuật High Level Data Preprocess cho Natural Language Problem.
✓ Real Time NER app.

Trong khóa học này, bạn sẽ học cách phát triển Named Entity Recognizer tùy chỉnh. Ý tưởng chính của khóa học này là trích xuất các thực thể từ các tài liệu được scan như hóa đơn, Danh thiếp, Shipping Bill, Bill of Lading, v.v. Tuy nhiên, vì lợi ích bảo mật dữ liệu, chúng tôi đã hạn chế quyền xem của mình đối với Danh thiếp. Nhưng bạn có thể sử dụng framework explained cho tất cả các loại tài liệu tài chính. Dưới đây là chương trình học mà chúng tôi đang theo dõi để phát triển dự án.

Để phát triển dự án này, chúng tôi sẽ sử dụng hai công nghệ chính trong khoa học dữ liệu là:

✓ Computer Vision.
✓ Natural Language Processing.

Trong module Computer Vision, chúng tôi sẽ scan tài liệu, xác định vị trí của văn bản và cuối cùng là trích xuất văn bản từ hình ảnh. Sau đó, trong Natural language processing, chúng tôi sẽ trích xuất các entity từ văn bản và làm sạch văn bản cần thiết và phân tích cú pháp các thực thể tạo thành văn bản.

Các thư viện Python được sử dụng trong Module Computer Vision:

✓ OpenCV.
✓ Numpy.
✓ Pytesseract.

Các thư viện Python được sử dụng trong Natural Language Processing:

✓ Spacy.
✓ Pandas.
✓ Regular Expression.
✓ String.

Khi kết hợp hai công nghệ chính để phát triển dự án, để dễ hiểu, chúng tôi chia khóa học thành nhiều giai đoạn phát triển.

Giai đoạn -1: Chúng tôi sẽ thiết lập dự án bằng cách thực hiện các cài đặt và yêu cầu cần thiết.

✓ Cài đặt Python.
✓ Cài đặt Dependencies.

Giai đoạn -2: Chúng tôi sẽ chuẩn bị dữ liệu. Đó là chúng tôi sẽ trích xuất văn bản từ hình ảnh bằng cách sử dụng Pytesseract và làm sạch cần thiết.

✓ Thu thập hình ảnh.
✓ Tổng quan về Pytesseract.
✓ Trích xuất văn bản từ tất cả hình ảnh.
✓ Clean và Prepare text.

Giai đoạn -3: Chúng ta sẽ xem cách label NER data bằng cách sử dụng BIO tagging:

Manually Labeling với kỹ thuật BIO:

✓ B - Beginning.
✓ I - Inside.
✓ O - Outside.

Giai đoạn -4: Chúng tôi sẽ tiếp tục làm sạch văn bản và xử lý trước dữ liệu để train machine learning.

✓ Chuẩn bị dữ liệu đào tạo cho Spacy.
✓ Chuyển đổi dữ liệu sang định dạng spacy.

Giai đoạn -5: Với dữ liệu tiền xử lý, chúng tôi sẽ đào tạo mô hình Named Entity.

✓ Cấu hình NER Model.
✓ Train model.

Giai đoạn -6: Chúng tôi sẽ dự đoán các quyền sử dụng NER và model và tạo data pipeline để phân tích văn bản.

✓ Load Model.
✓ Render và Serve với Displacy.
✓ Draw Bounding Box trên hình ảnh.
✓ Parse Entitles từ Text.

Cuối cùng, chúng tôi sẽ tập hợp tất cả lại với nhau và tạo ứng dụng document scanner.

Bạn đã sẵn sàng chưa !!!

Hãy bắt đầu phát triển dự án Trí tuệ nhân tạo.

Khóa học này dành cho ai:

✓ Bất kỳ ai muốn phát triển ứng dụng Business Card Reader.
✓ Nhà khoa học dữ liệu, Nhà phân tích, Nhà phát triển Python muốn nâng cao kỹ năng trong NLP.

Mục lục:

✓ 01 - Giới thiệu.
✓ 02 - Project Setup.
✓ 03 - Data Preparation.
✓ 04 - Data Preprocessing và Cleaning.
✓ 05 - Train Named Entity Recognition (NER) model.
✓ 06 - Predictions.
✓ 07 - Improve Model Performance.
✓ 08 - Document Scanner.
✓ 09 - Document Scanner Web App.

NHẬN GET EBOOK TRÊN AMAZON THEO YÊU CẦU

XEM HƯỚNG DẪN TRUY CẬP VÀ DOWNLOAD KHÓA HỌC TẠI ĐÂY

LIKE FAN PAGE ĐỂ NHẬN KHÓA HỌC MỚI NHẤT TẠI ĐÂY

MỜI BẠN THAM GIA GROUP CÙNG TRAO ĐỔI TẠI ĐÂY

Copyright Disclaimer:

This site does not store any files on its server. We only index and link to content provided by other sites. Please contact the content providers to delete copyright contents if any and email us, we'll remove relevant links or contents immediately.

Tuyên bố miễn trừ bản quyền:

Trang web này không lưu trữ bất kỳ tệp nào trên máy chủ của nó. Chúng tôi chỉ lập chỉ mục và liên kết đến nội dung được cung cấp bởi các trang web khác. Vui lòng liên hệ với các nhà cung cấp nội dung để xóa nội dung bản quyền nếu có và gửi email cho chúng tôi, chúng tôi sẽ xóa các liên kết hoặc nội dung có liên quan ngay lập tức.

Chia sẽ bài viết lên:

Thẻ bài viết:

Computer Vision Data Science Khóa Học OpenCV PYTHON UDEMY

Nhà Sách Tin Học

Chào mừng các bạn đến với Blog Nhà Sách Tin Học. Thông qua Blog này mình muốn chia sẻ đến các bạn những kiến thức về tin học, các tài liệu hay giáo trình mà mình có hoặc siêu tầm được... Mình rất mong được sự ủng hộ nhiệt tình của các bạn bằng cách comment bài viết, chia sẻ bài viết hoặc liên hệ với mình qua blog này! Mình xin cảm ơn!

Tin mới nhất