Menu bar

20/02/2023

Processing Data

LESSON 1 - Define data and establish baseline.

Why is data definition hard?

- Label is ambiguous

Data definition question

- What is the input x ?

- What features need to be included?

- What is the target label y?

- How can we ensure labelers give consistence labels?

Major types of data problem

- Unstructured data: video, audio

- Structure data: spreadsheet table

- Small data: <= 10,000 examples

- Big data: > 10,000 examples


Unstructured vs Structured Data 

Unstructured Data

  • May or may not have huge collection of unlabeled examples x
  • Humans can label more data
  • Data argumentation more likely to be helpful

Structured Data

  • May be difficult to obtain more data
  • Human labeling may not be possible (with some exceptions)

Small Data vs Big Data

Small Data  (<= 10,000 examples)

  • Clean labels are critical
  • Can manually look through dataset and fix labels
  • Can get all labelers to talk to each other.

Big Data (> 10,000 examples)

  • Emphasis data process


If you are looking for advice for problem in machine learning project, try to find someone that worked in the same quadrant as the problem you are trying to solve.


Small data and label consistence



You have five examples for dataset, and the output Y is pretty noise, It is difficult to know what is the function you should use to map voltage to the rotor speed in rpm.

If you had a ton of data, this dataset is equally noise as the one on the left left, but you just have a lot more data. Then the learning algorithms can average over the noise data sets and you can now fill the function.

But now, you have clean and consistent labels, you can pretty confidently fit a function through your data and with only five examples.


Big data problems can have small data challenges too.

Problems with large dataset but where there's are rare events in the input.

Web search: large web search engine companies all have very large data sets of web search queries, but many queries actually very rare.

Self-driving cars: that very rare occurrence of a young child running across the highway, or that very rare occurrence of a truck parked across the highway.

Production recommendation systems: if you have an online catalog of million items, then you have a lot of products where number sold of that item is quite small. And so the amount of data you have of users interacting with the items is actually small.


=> When you have small dataset, label consistency is critical. Even when you have big data set, label consistency can be very important.


Improving label consistency

  • Have multiple labelers label same example
  • When there is disagreement, have MLE, subject matter expert (SME) and/or labelers discuss definition of y to each agreement.
  • If labelers believe that x doesn't contain enough information, consider changing x.
  • Iterate until it is hard to significantly increase agreement
  • Have a class/label to capture uncertainty

Small Data vs Big Data (Unstructured Data)

Small Data

  • Usually small number of labelers
  • Can ask labelers to discuss specific labels

Big Data

  • Get to consistent definition with a small group
  • Then send labeling instructors to labelers
  • Can consider having multiple labelers label every example and using voting or consensus labels to increase accuracy.

Human-Level Performance

In the process of measuring HLP, you find that HLP is much less than perfect performance, much lower than 100 percent. Improving labeling consistency will both raise HLP.

Obtaining Data

How long should you spend obtaining data?

You know that machine learning is a highly iterative process where you need to pick a model, hyperparameters, have a data set, then training to carry out error analysis and go around this loop multiple times to get to a good model.








Data pipeline

POC (proof-of-concept) phase
- Goal is to decide if the application is workable and worth deploying. 
- Focus on getting prototype to work!
- It's ok if data pre-processing is manual. But take extensive notes/comments.

Production phase
- After project utility is established, use more sophisticated tools to make sure the data pipeline is replicable.
- E.g., TensorFlow Transform, Apache Beam, Airflow, ...



Data provenance: refers to where data come from.

Data lineage: refers to the sequence of steps needed to get to the end of the pipeline.

Meta data: is data about data.







LESSON 2 - Collecting Data

Important of Data

Data is first class citizen.
Good data is key for success.
Code in Software = Data in ML.







LESSON 3 - Labeling Data



LESSON 4 - Validating Data

21/10/2022

DS4Marketing - 1

 

Data Science for Marketing: How to Get Started | Hop Online

12 cách để sử dụng Data Science trong Marketing

-        Customer Segmentation

-        Sentiment Analysis

-        Channel Optimization

-        Marketing Funnel Optimization

-        Lead Targeting and Scoring

-        Predictive Analytics

-        Pricing Strategy

-        Maintaining customer loyalty

-        Recommendation engines

-        Marketing budget optimization

-        Content strategy

-        Real-time interaction and analytics

 

1.    Customer Segmentation – Phân khúc khách hàng

Phân khúc khách hàng là sự phân chia khách hàng tiềm năng trong 1 thị trường nhất định thành các nhóm riêng biệt.

Data Science Clustering đơn giản hóa quy trình và hỗ trợ các nhà tiếp thị tạo ra các chiến lược và chiến thuật cụ thể cho từng phân khúc dựa trên các đặc điểm riêng biệt (ví dụ: nhân khẩu học, hành vi hoặc sức mua).

2.    Sentiment Analysis – Phân tích cảm xúc

Nó liên quan đến việc phân loại tình cảm đằng sau dữ liệu, chẳng hạn như các cuộc trò chuyện trên mạng xã hội, phản hồi, đánh giá, khảo sát và các cuộc trò chuyện hỗ trợ khách hàng.

3.     Channel Optimization

 

4.    Marketing Funnel Optimization – Tối ưu hóa kênh tiếp thị

Khoa học dữ liệu tiếp thị có thể được sử dụng để thu hút đúng khách hàng ở đầu kênh, dự đoán hành động của khách hàng và tìm hiểu cách tương tác ở giữa, cũng như giữ chân khách hàng và dự đoán xác suất mua thêm ở cuối kênh.

Các thuật toán khoa học dữ liệu còn có khả năng dự đoán tỷ lệ churn (số lượng khách hàng bị mất trong một khung thời gian định trước). Điều này có nghĩa là các nhà tiếp thị có thể tạo ra các chiến lược hiệu quả hơn nhắm mục tiêu cụ thể đến những khách hàng có nhiều khả năng ngừng tương tác với doanh nghiệp trong tương lai gần.

 

Hơn thế nữa, thông qua các phân tích định tính, công nghệ máy học có thể xác định những đại sứ tốt nhất cho thương hiệu của bạn, cho phép bạn làm cho quy trình giới thiệu trở nên đơn giản và hiệu quả hơn.

 

5.     Lead Targeting and Lead Scoring - Nhắm mục tiêu khách hàng tiềm năng và Chấm điểm khách hàng tiềm năng

Phân tích dữ liệu tiếp thị được thu thập cho phép các nhà khoa học dữ liệu dự đoán ưu đãi nào sẽ hấp dẫn nhất đối với các khách hàng khác nhau tại các thời điểm khác nhau. Điều này cho phép bạn tạo ưu đãi tuyệt vời cho tất cả các giai đoạn khác nhau của chu kỳ mua hàng và cải thiện chất lượng khách hàng tiềm năng.

 

6.    Predictive Analytics

Phân tích dự đoán tập hợp các mô hình khai thác dữ liệu và máy học để dự đoán các khả năng của một sự kiện cụ thể trong tương lai có thể ảnh hưởng đến khách hàng hoặc doanh nghiệp của bạn.

 

Sử dụng dữ liệu lịch sử và hiện tại, các nhà khoa học dữ liệu có thể xác định xu hướng và dự đoán xác suất khách hàng sẽ thực hiện một hành động nhất định, chẳng hạn như hủy đăng ký của họ.

 

7.    Pricing Strategy

Khoa học dữ liệu có thể mang lại lợi ích cho chiến lược định giá của bạn bằng cách cung cấp cho bạn thông tin có giá trị về độ co giãn của nhu cầu (tức là cách khách hàng (sẽ) phản ứng với các mức giá khác nhau) và các mức giá tốt nhất cho doanh nghiệp của bạn dựa trên mục tiêu của họ.

 

8.    Maintaining customer loyalty - Duy trì lòng trung thành của khách hàng

9.    Recommendation engines - Công cụ khuyến nghị

10. Marketing budget optimization - Tối ưu hóa ngân sách tiếp thị

11. Content strategy - Chiến lược nội dung

12. Real-time interaction and analytics – Tương tác và phân tích thời gian thực

 

10 Examples of Data Science in Marketing (netguru.com)

Lợi ích của việc sử dụng Khoa học dữ liệu trong tiếp thị

Tiết kiệm thời gian và tiền bạc cho các kế hoạch tiếp thị thử và sai

Chỉ nhắm mục tiêu những khách hàng có giá trị nhất

Tăng giá trị lâu dài của khách hàng

Nhanh chóng học hỏi từ phản hồi của khách hàng

Dự đoán những sản phẩm và dịch vụ nào sẽ phổ biến trong tương lai

Tinh chỉnh quảng cáo kỹ thuật số của bạn

Chuyển nhiều khách hàng tiềm năng hơn thành chuyển đổi với bán kèm và bán thêm

 

https://www.udemy.com/course/data-science-for-marketing-analytics/?utm_source=adwords&utm_medium=udemyads&utm_campaign=LongTail_la.EN_cc.ROW&utm_content=deal4584&utm_term=_._ag_77879424134_._ad_535397245863_._kw__._de_c_._dm__._pl__._ti_dsa-1007766171312_._li_1028580_._pd__._&matchtype=&gclid=CjwKCAjwwL6aBhBlEiwADycBILXcY5AThugINaiCNtiouSqiWH14JQP1RAeffE6LuMFhdYjqukrfMxoCOzIQAvD_BwE

https://nogood.io/2022/05/26/data-science-marketing-guide/

https://www.projectpro.io/article/data-science-in-marketing/618

https://www.knowledgehut.com/blog/data-science/data-science-for-marketing

https://www.netguru.com/blog/data-science-in-marketing

https://www2.deloitte.com/us/en/pages/deloitte-analytics/articles/marketing-data-science-trends.html

https://hop.online/data-science/data-science/


26/01/2022

Model Evaluation - Tour of Model Evaluation Metrics

A classifier is only as good as the metric used to evaluate it. If you choose the wrong metric to evaluate your models, you are likely to choose a poor model.

In this tutorial, you will discover metrics that you can use for imbalanced classification. After completing this tutorial, you will know:
  1. About the challenge of choosing metrics for classification, and how it is particularly difficult when there is a skewed class distribution.
  2. How there are three main types of metrics for evaluating classifier models, referred to as rank, threshold, and probability.
  3. How to choose a metric for imbalanced classification if you don’t know where to start.

25/01/2022

Foundation - Challenge of Imbalanced Classification

In this tutorial, you will discover data characteristics that compound the challenge of imbalanced classification. After completing this tutorial, you will know:
  1. Imbalanced classification is specifically hard because of the severely skewed class distribution and the unequal misclassification costs.
  2. The difficulty of imbalanced classification is compounded by properties such as dataset size, label noise, and data distribution.
  3. How to develop an intuition for the compounding effects on modeling difficulty posed by different dataset properties.

Foundation - Intuition for Imbalanced Classification

In this tutorial, you will discover how to develop a practical intuition for imbalanced and highly skewed class distributions.

After completing this tutorial, you will know:
  1. How to create a synthetic dataset for binary classification and plot the examples by class.
  2. How to create synthetic classification datasets with any given class distribution.
  3. How different skewed class distributions actually look in practice.

24/01/2022

Foundation - What is Imbalanced Classification?

Imbalanced classification is the problem of classification when there is an unequal distribution of classes in the training dataset.

The imbalance in the class distribution may vary, but a severe imbalance is more challenging to model and may require specialized techniques.

Many real-world classification problems have an imbalanced class distribution, such as fraud detection, spam detection, and churn prediction.

18/01/2022

Project - Regression Machine Learning Case Study

How do you work through a predictive modeling machine learning problem end-to-end? In this lesson you will work through a case study regression predictive modeling problem in Python including each step of the applied machine learning process. After completing this project, you will know:
  • How to work through a regression predictive modeling problem end-to-end
  • How to use data transforms to improve model performance 
  • How to use algorithm tuning to improve model performance
  • How to use ensemble methods and tuning of ensemble methods to improve model performance

21/11/2021

Project - Predictive Modeling Project Template

Applied machine learning is an empirical skill. You cannot get better at it by reading books and articles. You have to practice. In this lesson you will discover the simple six-step machine learning project template that you can use to jump-start your project in Python. After completing this lesson you will know:
1. How to structure an end-to-end predictive modeling project.
2. How to best use the structured project template to ensure an accurate result for your dataset.

18/11/2021

Project 1 - Monthly Sales of French Champagne

We will work through a time series forecasting project from end-to-end, from downloading the dataset and defining the problem to training a final model and making predictions. This project is not exhaustive, but shows how you can get good results quickly by working through a time series forecasting problem systematically.

The steps of this project that we will through are as follows.
  1. Problem Description.
  2. Test Harness.
  3. Persistence.
  4. Data Analysis.
  5. ARIMA Models.
  6. Model Validation.

Guide For Time Series Forecast Projects

A time series forecast process is a set of steps or a recipe that leads you from defining your problem through to the outcome of having a time series forecast model or set of predictions.

In this lesson, you will discover time series forecast processes that you can use to guide you through your forecast project. After reading this lesson, you will know:
  • The 5-Step forecasting task by Hyndman and Athanasopoulos to guide you from problem definition to using and evaluating your forecast model.
  • The iterative forecast development process by Shmueli and Lichtendahl to guide you from defining your goal to implementing forecasts.
  • Suggestions and tips for working through your own time series forecasting project.