Chia Sẻ Khóa Học Intelligently Extract Text & Data Từ Document Với OCR NER [Khóa 7861 A]
Phát triển dự án Document Scanner App là Named entity extraction từ scan document với OpenCV, Pytesseract, Spacy.
Bạn sẽ học được gì:
- ✓ Phát triển và đào tạo Named Entity Recognition Model.
- ✓ Không chỉ Extract text từ Hình ảnh mà còn Extract Entities từ Business Card.
- ✓ Phát triển Business Card Scanner như ABBY từ đầu.
- ✓ Kỹ thuật High Level Data Preprocess cho Natural Language Problem.
- ✓ Real Time NER app.
Trong khóa học này, bạn sẽ học cách phát triển Named Entity Recognizer tùy chỉnh. Ý tưởng chính của khóa học này là trích xuất các thực thể từ các tài liệu được scan như hóa đơn, Danh thiếp, Shipping Bill, Bill of Lading, v.v. Tuy nhiên, vì lợi ích bảo mật dữ liệu, chúng tôi đã hạn chế quyền xem của mình đối với Danh thiếp. Nhưng bạn có thể sử dụng framework explained cho tất cả các loại tài liệu tài chính. Dưới đây là chương trình học mà chúng tôi đang theo dõi để phát triển dự án.
Để phát triển dự án này, chúng tôi sẽ sử dụng hai công nghệ chính trong khoa học dữ liệu là:
- ✓ Computer Vision.
- ✓ Natural Language Processing.
Trong module Computer Vision, chúng tôi sẽ scan tài liệu, xác định vị trí của văn bản và cuối cùng là trích xuất văn bản từ hình ảnh. Sau đó, trong Natural language processing, chúng tôi sẽ trích xuất các entity từ văn bản và làm sạch văn bản cần thiết và phân tích cú pháp các thực thể tạo thành văn bản.
Các thư viện Python được sử dụng trong Module Computer Vision:
- ✓ OpenCV.
- ✓ Numpy.
- ✓ Pytesseract.
Các thư viện Python được sử dụng trong Natural Language Processing:
- ✓ Spacy.
- ✓ Pandas.
- ✓ Regular Expression.
- ✓ String.
Khi kết hợp hai công nghệ chính để phát triển dự án, để dễ hiểu, chúng tôi chia khóa học thành nhiều giai đoạn phát triển.
Giai đoạn -1: Chúng tôi sẽ thiết lập dự án bằng cách thực hiện các cài đặt và yêu cầu cần thiết.
- ✓ Cài đặt Python.
- ✓ Cài đặt Dependencies.
Giai đoạn -2: Chúng tôi sẽ chuẩn bị dữ liệu. Đó là chúng tôi sẽ trích xuất văn bản từ hình ảnh bằng cách sử dụng Pytesseract và làm sạch cần thiết.
- ✓ Thu thập hình ảnh.
- ✓ Tổng quan về Pytesseract.
- ✓ Trích xuất văn bản từ tất cả hình ảnh.
- ✓ Clean và Prepare text.
Giai đoạn -3: Chúng ta sẽ xem cách label NER data bằng cách sử dụng BIO tagging:
Manually Labeling với kỹ thuật BIO:
- ✓ B - Beginning.
- ✓ I - Inside.
- ✓ O - Outside.
Giai đoạn -4: Chúng tôi sẽ tiếp tục làm sạch văn bản và xử lý trước dữ liệu để train machine learning.
- ✓ Chuẩn bị dữ liệu đào tạo cho Spacy.
- ✓ Chuyển đổi dữ liệu sang định dạng spacy.
Giai đoạn -5: Với dữ liệu tiền xử lý, chúng tôi sẽ đào tạo mô hình Named Entity.
- ✓ Cấu hình NER Model.
- ✓ Train model.
Giai đoạn -6: Chúng tôi sẽ dự đoán các quyền sử dụng NER và model và tạo data pipeline để phân tích văn bản.
- ✓ Load Model.
- ✓ Render và Serve với Displacy.
- ✓ Draw Bounding Box trên hình ảnh.
- ✓ Parse Entitles từ Text.
Cuối cùng, chúng tôi sẽ tập hợp tất cả lại với nhau và tạo ứng dụng document scanner.
Bạn đã sẵn sàng chưa !!!
Hãy bắt đầu phát triển dự án Trí tuệ nhân tạo.
Khóa học này dành cho ai:
- ✓ Bất kỳ ai muốn phát triển ứng dụng Business Card Reader.
- ✓ Nhà khoa học dữ liệu, Nhà phân tích, Nhà phát triển Python muốn nâng cao kỹ năng trong NLP.
Mục lục:
- ✓ 01 - Giới thiệu.
- ✓ 02 - Project Setup.
- ✓ 03 - Data Preparation.
- ✓ 04 - Data Preprocessing và Cleaning.
- ✓ 05 - Train Named Entity Recognition (NER) model.
- ✓ 06 - Predictions.
- ✓ 07 - Improve Model Performance.
- ✓ 08 - Document Scanner.
- ✓ 09 - Document Scanner Web App.
NHẬN GET EBOOK TRÊN AMAZON THEO YÊU CẦU