Math for Data Science Masterclass
May 29, 2023

2.1 Core Data Concepts

Let's explore some core concepts and the vocabulary used to describe them:


Discrete Data:


Can only take certain values, there are no values "in-between" values.
Car models: Toyota, Tesla, Ferrari।

অর্থাৎ যদি আমার ভেলুর মধ্যে এমন ভ্যালু থাকে যেগুলো ভগ্নাংশ হয় না মানে অর্ধেক Toyota বা অর্ধেক টেসলা এরকম তো গাড়ি হয় না এর কারণেই গাড়ির ভ্যালু বা গাড়ির নাম একটা Discrete ডাটা টাইপ।

সেই একই কারণে ঘরের সিঁড়ির সংখ্যা কিংবা পরিবারের সদস্যদের সংখ্যাও ডিসক্রিট ডাটা টাইপ।

There can be no 3.5 in the dice.


Continuous Data:

Can take any value, there are an "infinite" amount of values in-between any two values if you are able to get precise enough.

Notice how someone could be in between that at 172.5 cm tall.

Remember that while continuous data is numeric (160kg), discrete data can be numericl (dice roll of 2) or a string ("Blue"). Keep in mind that sometimes the context and framing of a dataset will decide whether you should think of data as continuous or discrete.

But what if the context is physics and the visible spectrum of light in wavelengths?


Do not confuse numeric and ordered discretel data with continuous data!



Nominal vs. Ordinal:

Nominal data is classified without a natural order or rank. For categories Of discrete anirnals: dogs, cats, lizards, horses, etc...

নমিনাল চেনা খুবই সহজ। আমার ডাটা যদি এমন হয় যেখানে আমি একটা কালেকশন অফ এনিমেল নিয়েছি যেমনঃ কুকুর, বিড়াল, ঘোড়া, টিকটিকে। তখন আমাকে যদি বলি, বিড়াল ভালো না কুকুর ভালো? আবার টিকটিকি খারাপ নাকি ঘোড়া খারাপ? আবার ঘোড়ার মধ্যে আর কুকুরের মধ্যে কে ভালো? এই ভালো মন্দের কোন স্ট্যান্ডার্ড প্যারামিটার নাই এই জন্যই এগুলোকে বলা হয় নমিনাল।

A good test for nominal data is if it can be clearly sorted or not. Nominal data can not be sorted. আপনার ডাটাকে যদি কোন না কোনভাবে সাজানোর না যায় তাহলে সেই ডাটাই নমিনাল ডাটা।

Ordinal Data:

Ordinal শব্দের মধ্যেই তো অর্ডার শব্দটা চলে আসছে তারমানে Ordinal ডাটা গুলোকে অর্ডার wise ভাগ করা বা সাজানো যায়। Sort করা যায়

Hot, or Mild কিংবা কোল্ড এর ডাটা গুলোকে শর্ট করা যায়। যেমন ঢাকায় গত এক সপ্তাহে সর্বোচ্চ তাপমাত্রা কত ছিল? সর্বনিম্ন কত ছিল? এই হিসাবে কিন্তু সাতদিনের তাপমাত্রা থেকে একটা সাজানো বা sorting করতে পারব। এই কারণেই ওয়েদারের ডাটা হচ্ছে অর্ডিনাল।



Structured vs. Unstructured

We also need to understand that not all data is formatted nicely in a table or spreadsheet, and in some cases we don't even want it in a structured format!

Structured data is highly specific and is stored in a predefined format. For example: Excel spreadsheets, JSON files, XML files, or SQL databases follow a predefined format.

Unstructured data is not in a particular format. For example video, or text data doesn't need to follow any particular predefined sturctured format.

Be careful not to confused computer encoded file formats with "formatted data"! Just because text is in a PDF format doesn't make it structured data.

Unstructured ডাটা নিয়ে কাজ করার কঠিন হলেও কিছু কিছু example এমন আছে যখন Unstructured ডাটাই আমাদের কাজে লাগে।

For example: DALLE-2 from OpenAI



Population vs. Sample

Population:

পপুলেশন আর স্যাম্পল এর concept বোঝার জন্য কনটেক্স বোঝাটা খুব জরুরী। যদি কন্টেক্সট হয় একটা ক্লাস কে কেন্দ্র করে তাহলে ওই ক্লাসের সব স্টুডেন্ট হবে পপুলেশন। কিন্তু যদি কন্টেক্স হয় পুরো স্কুল কে কেন্দ্র করে তাহলে কোন একটা ক্লাসের সব স্টুডেন্ট কখনোই পপুলেশন হবে না।

Often however it is not possible to record data on an entire population. In this case we rely on a sample from the population, which is a subset of the members of the group.

Later on we'll discover that sample sizes are a well studied science. For example: How many students should we survey for a school of 1,000 students to get a representative sample?

একটা স্কুলের ১০০০ ছাত্রছাত্রীর একটা সার্ভে যদি আমি করতে যাই সে ক্ষেত্রে এক দুইজনের স্যাম্পল নিলে কি হবে?

- হবে না।

আবার ১০০০ ছাত্র-ছাত্রী সবাইকে সার্ভে করাও তো সম্ভব না।

সার্ভের জন্য স্যাম্পল সাইজ ডিটারমাইন্ড করার জন্য কিছু সাইন্স আছে সেটার জন্য এই আর্টিকেলটা পড়ে দেখতে পারি।

https://en.wikipedia.org/wiki/Sample_size_determination