Tin mới nhất

Menu

Browsing "Older Posts"

Chia Sẻ Khóa Học Statistics (Thống Kê) Dành Cho Chuyên Gia Data Science & AI [Khóa 7749 A]

12 tháng 10 2022 / No Comments

Thống kê (Statistics) là một lĩnh vực cực kỳ rộng và việc xác định những gì bạn cần học đã tạo nên khóa học này.

Bạn sẽ học được gì:

  • ✓ Giới thiệu về Thống kê (Statistics) cho Data Science & AI.
  • ✓ Hướng dẫn thực hành Statistics.
  • ✓ Giới thiệu về Hypothesis Testing, Statistics Inferences.
  • ✓ Tại sao phải tìm hiểu thống kê cho Data Science & Machine Learning?
  • ✓ Tôi có cần biết tất cả các số liệu thống kê không, nếu không thì các khái niệm quan trọng cần nắm vững là gì.
  • ✓ Hướng dẫn Thực hành về Probability & Statistics.
  • ✓ Nắm vững tất cả các khái niệm & kỹ năng thực tế trong thống kê cho khoa học dữ liệu & trí tuệ nhân tạo.

Data Scientist là một trong những lựa chọn nghề nghiệp sinh lợi nhất mang lại sự hài lòng trong công việc, mức lương cực cao, sự công nhận toàn cầu và cơ hội phát triển đáng kinh ngạc. Hơn nữa, nghề này cung cấp xếp hạng mức độ hài lòng trong công việc đáng kinh ngạc là 4,4 trên 5 Theo Harvard Business Review, Data Scientist được xác định là nghề đáng mơ ước nhất của thế kỷ 21. Machine Learning và Statistics là hai kỹ năng cốt lõi cần có để trở thành một nhà khoa học dữ liệu.

Statistics giống như trái tim của Data Science giúp phân tích, biến đổi và dự đoán dữ liệu. Vì vậy, nếu bạn sẵn sàng vượt qua sự nghiệp của mình trong lĩnh vực đáng kinh ngạc này thì điều thực sự quan trọng là bạn phải làm quen với tất cả các chủ đề Thống kê liên quan cho khoa học dữ liệu . Thống kê là một lĩnh vực cực kỳ rộng và việc xác định những gì bạn cần học có thể khó khăn. Để làm cho trải nghiệm học tập của bạn suôn sẻ, chúng tôi có thể giúp bạn. Trong khóa học này, chúng ta sẽ thảo luận về bảy khái niệm thống kê cơ bản cho khoa học dữ liệu. Các chủ đề được đề cập trong blog này sẽ xây dựng nền tảng cơ bản cho các kỹ năng thống kê của bạn.

1. Descriptive Statistics:

Nó được sử dụng để mô tả các tính năng cơ bản của dữ liệu cung cấp một bản tóm tắt của tập dữ liệu đã cho, có thể đại diện cho toàn bộ tập hợp hoặc một mẫu của tập hợp. Nó được rút ra từ các tính toán bao gồm:

  • ✓ Mean: Đây là giá trị trung tâm thường được gọi là giá trị trung bình số học.
  • ✓ Mode: Nó đề cập đến giá trị xuất hiện thường xuyên nhất trong một tập dữ liệu.
  • ✓ Median: Là giá trị giữa của tập hợp có thứ tự chia nó chính xác một nửa.

2. Variability:

Variability bao gồm các tham số sau:

  • ✓ Độ lệch chuẩn (Standard Deviation): Là thống kê tính toán độ phân tán của tập dữ liệu so với giá trị trung bình của nó.
  • ✓ Phương sai (Variance): Nó đề cập đến một thước đo thống kê về sự chênh lệch giữa các con số trong một tập dữ liệu. Nói chung, nó có nghĩa là sự khác biệt với giá trị trung bình. Một phương sai lớn chỉ ra rằng các con số khác xa mean hoặc average value. Một phương sai nhỏ chỉ ra rằng các con số gần với giá trị trung bình hơn. Phương sai 0 chỉ ra rằng các giá trị giống hệt với tập hợp đã cho.
  • ✓ Range: Đây được định nghĩa là sự khác biệt giữa giá trị lớn nhất và nhỏ nhất của tập dữ liệu.
  • ✓ Percentile: Nó đề cập đến thước đo được sử dụng trong thống kê cho biết giá trị mà phần trăm quan sát nhất định trong tập dữ liệu nằm dưới giá trị.
  • ✓ Quartile: Nó được định nghĩa là giá trị chia các điểm dữ liệu thành các phần tư.
  • ✓ Interquartile Range: Nó đo lường nửa giữa dữ liệu của bạn. Nói chung, nó là 50% giữa của tập dữ liệu.

3. Correlation:

Đây là một trong những kỹ thuật thống kê chính để đo lường mối quan hệ giữa hai biến số. Hệ số tương quan (correlation coefficient) cho biết độ mạnh của mối quan hệ tuyến tính giữa hai biến.

  • ✓ Hệ số tương quan lớn hơn 0 cho biết mối quan hệ tích cực.
  • ✓ Hệ số tương quan nhỏ hơn 0 cho thấy mối quan hệ nghịch biến.
  • ✓ Hệ số tương quan bằng 0 chỉ ra rằng không có mối quan hệ nào giữa hai biến.

4. Probability Distribution (Phân phối xác suất):

Nó chỉ định khả năng xảy ra của tất cả các sự kiện (events) có thể xảy ra. Nói một cách dễ hiểu, một sự kiện (event) đề cập đến kết quả của một thử nghiệm như tung đồng xu. Sự kiện (Events) có hai loại dependent và independent.

  • ✓ Independent event: Event được cho là một Independent event khi nó không bị ảnh hưởng bởi các sự kiện trước đó. Ví dụ, tung một đồng xu, chúng ta hãy coi một đồng xu là tung ra kết quả đầu tiên là đầu khi đồng xu được tung lần nữa kết quả có thể là đầu hoặc đuôi. Nhưng điều này hoàn toàn độc lập với thử nghiệm đầu tiên.
  • ✓ Dependent event: Sự kiện được cho là phụ thuộc khi sự kiện xảy ra phụ thuộc vào các sự kiện trước đó. Ví dụ khi một quả bóng được rút ra từ một cái túi có chứa các quả bóng màu đỏ và xanh lam. Nếu quả bóng đầu tiên được rút ra có màu đỏ, thì quả bóng thứ hai có thể có màu đỏ hoặc xanh lam; điều này phụ thuộc vào thử nghiệm đầu tiên.

Xác suất của các sự kiện độc lập được tính bằng cách đơn giản nhân xác suất của mỗi sự kiện và đối với một sự kiện phụ thuộc được tính bằng xác suất có điều kiện.

5. Regression:

Nó là một phương pháp được sử dụng để xác định mối quan hệ giữa một hoặc nhiều biến độc lập và một biến phụ thuộc. Regression chủ yếu có hai loại:

  • ✓ Linear regression: Nó được sử dụng để phù hợp với mô hình hồi quy giải thích mối quan hệ giữa một biến dự báo số và một hoặc nhiều biến dự báo (predictor variable).
  • ✓ Logistic regression: Nó được sử dụng để phù hợp với mô hình hồi quy giải thích mối quan hệ giữa biến phản hồi nhị phân (binary response variable) và một hoặc nhiều biến dự báo.

6. Normal Distribution (Phân phối chuẩn):

Normal được sử dụng để xác định hàm mật độ xác suất cho một biến ngẫu nhiên liên tục trong hệ thống. Normal distribution chuẩn có hai tham số - mean và standard deviation đã được thảo luận ở trên. Khi chưa biết phân phối của các biến ngẫu nhiên, thì phân phối chuẩn được sử dụng. Định lý giới hạn trung tâm giải thích tại sao phân phối chuẩn được sử dụng trong những trường hợp như vậy.

7. Bias:

Theo thuật ngữ thống kê, nó có nghĩa là khi một mô hình đại diện cho một tổng thể hoàn chỉnh. Điều này cần được giảm thiểu để có được kết quả mong muốn.

Ba loại bias phổ biến nhất là:

  • ✓ Selection bias: Là hiện tượng lựa chọn một nhóm dữ liệu để phân tích thống kê, việc lựa chọn sao cho dữ liệu không ngẫu nhiên dẫn đến dữ liệu không mang tính đại diện cho toàn bộ tổng thể.
  • ✓ Confirmation bias: Nó xảy ra khi người thực hiện phân tích thống kê có một số giả định được xác định trước.
  • ✓ Time interval bias: Nó được cố ý gây ra bằng cách chỉ định một khoảng thời gian nhất định để có lợi cho một kết quả cụ thể.

Vào cuối khóa học này, bạn sẽ có thể học các kỹ năng: 

  • ✓ Tìm hiểu cách làm việc với các loại dữ liệu khác nhau.
  • ✓ Cách vẽ các loại dữ liệu khác nhau.
  • ✓ Tính toán measures of central tendency, asymmetry, và variability.
  • ✓ Tính toán correlation và covariance.
  • ✓ Phân biệt và làm việc với các loại phân phối (distribution) khác nhau.
  • ✓ Ước tính khoảng tin cậy (confidence interval).
  • ✓ Thực hiện hypothesis testing.
  • ✓ Đưa ra quyết định dựa trên dữ liệu.
  • ✓ Hiểu cơ chế của regression analysis.
  • ✓ Thực hiện regression analysis.
  • ✓ Sử dụng và hiểu các biến giả (dummy variables).
  • ✓ Hiểu các khái niệm cần thiết cho khoa học dữ liệu ngay cả với Python và R!


NHẬN GET EBOOK TRÊN AMAZON THEO YÊU CẦU




Copyright Disclaimer:
This site does not store any files on its server. We only index and link to content provided by other sites. Please contact the content providers to delete copyright contents if any and email us, we'll remove relevant links or contents immediately.
Tuyên bố miễn trừ bản quyền:
Trang web này không lưu trữ bất kỳ tệp nào trên máy chủ của nó. Chúng tôi chỉ lập chỉ mục và liên kết đến nội dung được cung cấp bởi các trang web khác. Vui lòng liên hệ với các nhà cung cấp nội dung để xóa nội dung bản quyền nếu có và gửi email cho chúng tôi, chúng tôi sẽ xóa các liên kết hoặc nội dung có liên quan ngay lập tức.