Data Science Part-1: What is Data Science, Machine Learning and Big Data?

Last Updated on July 13, 2022 by Masud Alam

Data Science

Data Science

Data Science কি?

Data মানে তথ্য বা উপাত্ত আর Science মানে বিজ্ঞান। সুতরাং Data Science শব্দ যুগলের বাংলা অর্থ হচ্ছে উপাত্ত বিজ্ঞান। সহজ ভাবে বললে যে কোনও আকারের এবং যে কোনও উৎস থেকে আসা ডেটার উপর বিজ্ঞান প্রয়োগ করে বিভিন্ন ধরনের ডেটা নিয়ে গবেষণা এবং বিশ্লেষণ করা এবং সঠিক ডেটা বের করে আনার কাজকে বলা হয় Data Science.

আরো সহজ করে বলতে গেলে ডেটা সায়েন্স এমন একটি শাখা যেখানে মানুষ বিভিন্ন ধরণের লোক ডেটা নিয়ে কাজ করে সেই ডেটাকে অর্থবহ করে ব্যবহারোপযোগী করে তোলে যা থেকে প্রয়োজনীয় সিদ্ধান্ত গ্রহণ করা সম্ভব হয়। অর্থাৎ কোন প্রতিষ্ঠানের কাছে যে ডেটা আছে সেই ডেটা প্রতিষ্ঠানটির কী কাজে লাগবে সেভাবে ডেটাকে কাজে লাগানোর বিজ্ঞানকেই ডেটা সায়েন্স বলা যাবে।

এই যে আপনি এখন w3programmers.com ওয়েব সাইটে ডেটা সায়েন্স বিষয় নিয়ে পড়ছেন, এইটাও একটা ডাটা । এখানে মাত্র অল্প কিছু ডেটা আছে। তারপরও এখন আপনাকে যদি জিজ্ঞেস করা হয় , এই সাইটে কি কি ধরণের ডেটা আছে? ডেটার category গুলো কি এবং সাইটের key words গুলো কি এবং মোট কতগুলো key words রয়েছে? এই সাইটটি কারা ভিজিট করে ? কোথা থেকে ভিজিট করে ? এর মধ্যে ছেলে মেয়ের রেশিও কত? তাদের অ্যাভারেজ বয়স কত? তারা অ্যাভারেজ কত সময় সাইটে ব্যয় করে? সাইটটির ব্যবহার কারীরা কোন ধরণের কনটেন্ট গুলো সবচেয়ে বেশি পড়ে? সাইটটিতে এই রকম হাজারো ধরণের ডেটা নিয়ে চাইলে আপনি গবেষণা করতে পারেন। এবং আপনার গবেষণা লব্ধ ডেটার ব্যাপারে সঠিক সিদ্ধান্ত নেয়া এবং কাজে লাগানোর কাজটিকে বলা হয় ডেটা সায়েন্স .

আর যারা এই ডেটা নিয়ে এনালাইসিস এবং গবেষণার কাজ করে , তাদেরকে বলে Data Scientist. এছাড়াও একজন Data Scientist এর কাজ হচ্ছে ডেটার ব্যাপারে সঠিক সিদ্ধান্ত নেয়া এবং ডেটাকে কর্মক্ষম পরিনত করা।

Machine Learning কি?

মেশিন লার্নিং এমন একটি প্রযুক্তি বা কোড গুলোর সমষ্টি যা কম্পিউটারগুলিকে অতীত অভিজ্ঞতা থেকে নিজস্বভাবে শিখতে দেয়, এবং কম্পিউটার টি নিজের কর্মক্ষমতা উন্নত করতে statistical method গুলো ব্যবহার করে এবং কোনো ধরণের নতুন করে প্রোগ্রাম করা ছাড়াই আউটপুট পূর্বাভাস দেয়।

আরো সহজ করে বললে , মেশিন লার্নিং হল artificial intelligence অর্থাৎ কৃত্রিম বুদ্ধিমত্তার একটি অংশ এবং ডেটা সায়েন্সের একটি সাবফিল্ড। এটি একটি ক্রমবর্ধমান প্রযুক্তি যা মেশিনগুলিকে অতীতের ডেটা থেকে শিখতে এবং একটি প্রদত্ত কাজ স্বয়ংক্রিয়ভাবে সম্পাদন করতে সক্ষম করে৷

Big Data কি?

Big Data

Big Data

Big Data হচ্ছে বড় বা প্রচুর পরিমাণ তথ্য/উপাত্ত/ডেটা যা একটি রাষ্ট্রের বা বড় বড় কোম্পানি কর্তৃক ব্যবহৃত ও সংরক্ষিত হয়ে থাকে। ঠিক কী পরিমাণ তথ্য বা উপাত্ত হলে তা ‘বিগ ডেটা’ বলা যাবে, তার কোনো সঠিক মানদন্ড নেই। তবে, বিগ ডেটা হল এমন এক ডেটাসেট যা সচরাচর ব্যবহারকারীদের জন্য নির্মিত ডেটাবেইজ সফটওয়্যারের মাধ্যমে প্রক্রিয়াজাত বা সংরক্ষণ করা যায়না এবং আমাদের ব্যবহৃত সাধারণ কম্পিউটার গুলো এ্যানালাইসিস করতে পারে না।

যেমন ধরুন, গুগল ম্যাপ, গুগল সার্চ ইঞ্জিন , ইউটিউব, ফেইসবুক, টুইটার, যা কিনা টেরাবাইটে গণনা করা সম্ভবপর হয় না। এবং কোনো একক কম্পিউটারে বা স্টোরেজে সঙ্কুলান করানো সম্ভব হয়না। তাই এদেরকে বড় বড় ডেটা সেন্টারের সার্ভারে রাখা হয়।

আমাদের প্রতিদিনকার ব্যবহৃত গুগল সার্ভিসগুলিও বিগডেটার একটি উদাহরণ হতে পারে। যেমন আপনি গুগল ম্যাপ ব্যবহার করেন, কোথায় যেতে চান, কবে গিয়েছিলেন, সেখানে কি কি আছে এরকম পৃথিবীর সমস্ত জায়গার বিবরণ সহ যে বিশালাকৃতির ডেটাবেজ গুগল তৈরী করে রেখেছে সেটা একটি বিগ ডেটা।

Data Analytics কি?

Data Analytics হলো অনেক অনেক ডেটা থেকে একটা নির্দিষ্ট পরিমান প্রয়োজনীয় মূল্যবান তথ্য/ডাটা বের করার উপায়। ধরুন আপানার একটা অনলাইন শপিং ওয়েব সাইট আছে যেখানে থেকে কাস্টমাররা বিভিন্ন প্রোডাক্ট কিনতে পারে। শপিং ওয়েব সাইটটি যেভাবে চালাতে চাচ্ছিলেন কিন্তু সেরকম চলছে না কারণ আপনি বুঝতেই পারছে না যে আপনার কাস্টমার কি প্রোডাক্ট চাচ্ছে। আপনি এই সাইটের কাস্টমার কোন প্রোডাক্ট বেশি দেখেন সেটা বের করে যদি কাস্টমারের সামনে রাখতে পারেন তাহলে আপনার প্রোডাক্টের বিক্রি বৃদ্ধি পাওয়ার সম্ভাবনা অনেক বেশি।

Data Analytics এর একটি ভালো উদাহরণ হলো গুগল এবং ফেইসবুক। আপনি এদের সার্ভিসে লগিন থাকা অবস্থায় কোনো প্রোডাক্ট সার্চ করেন , তাহলে আপনি দেখতে পাবেন এরা আপনাকে আপনার সার্চকৃত প্রোডাক্ট বা বা তার কাছাকাছি একই ধরণের প্রোডাক্ট গুলোর এড আপনার কাছে প্রদর্শন করতে থাকবে। কেন এমনটা হয় সেটা ভেবে দেখেছেন কখনো? কারণ হলো গুগল, ফেইসবুক আপনার আমার পছন্দ অপছন্দ অনেক কিছুই জানে। আর সে মোতাবেক আমাদের জন্য ডেটা এনালাইসিস করে একটা personalized search result তৈরী করে রাখে। গুগল এবং ফেইসবুক এমনটি করে থাকে আর্টিফিশিয়াল ইন্টেলিজেন্সের মাধ্যমে যেটি ডেটা সায়েন্সের একটি অংশ বলা যায়।

আমরা কি করি , কোথায় ঘুরতে যাই , কোথায় খাই , কোন দোকানে শপিং করি , কী ধরনের শপিং করি এইধরণের অনেককিছুই বিভিন্ন কোম্পানি এখন নিয়মিত এনালাইসিস করতেছে এবং এই এনালাইসিস ডেটার ভিত্তিতে আমাদেরকে ট্র্যাক করতেছে ।

Data Science এর উৎপত্তি কোথায় থেকে ?

১৯৬২ সালে বিজ্ঞানী John Tukey ‘data analysis’ নামক একটি নতুন বিষয়ের ধারণা দেন। ১৯৯২ সালের দিকে ফ্রান্সের Montpellier University এর একটি statistics symposium এ অংশগ্রহণকারীরা সবাই একমত হন যে পরিসংখ্যানের প্রতিষ্ঠিত সূত্র ও তত্ত্ব ও কম্পিউটার বিজ্ঞানের সমন্বয়ে উপাত্ত বিশ্লেষণের একটি নতুন ক্ষেত্র প্রতিষ্ঠিত হতে যাচ্ছে। ‘ডাটা সাইন্স’ পরিভাষা ব্যবহার শুরু হয় ১৯৭৪ সালে যখন পিটার নাউর এটিকে কম্পিউটার বিজ্ঞানের একটি বিকল্প পরিভাষা হিসেবে ব্যবহারের প্রস্তাব করেন। ১৯৯৬ সালে International Federation of Classification Societies এর একটি সভায় ডাটা সাইন্সকে আলোচনার একটি বিষয় হিসেবে রাখা হয়। ১৯৯৮ সালে চিকিও হায়াশি ডাটা সাইন্সকে নতু্ন উদীয়মান ক্ষেত্র বলে আখ্যা দেন।

আধুনিক ডিসিপ্লিন হিসেবে ডাটা সাইন্সকে পরিচিতি করানোর পথিকৃত William S. Cleveland. ২০০১ সালের একটি গবেষণাপত্রে তিনি উল্লেখ করেন যে statistics কে আরো বিস্তৃত হওয়া দরকার। যা ২০০২ সাল থেকে ডাটা সায়েন্স জার্নাল প্রকাশিত হচ্ছে। ২০১৪ সালে American Statistical Association তাদের ডাটা মাইনিং বিভাগের নাম পরিবর্তন করে Statistical Learning and Data Science বিভাগ নামকরণ করে। ডাটা সায়েন্টিস্ট বা উপাত্ত বিজ্ঞানী নামকরণের কৃতিত্ব ডিজে প্যাটেলজেফ হ্যামারবেকারের। তারা ২০০৮ সালে এই শব্দ প্রথমবারের মত ব্যবহার করেন।

Data Science, Machine Learning এবং Big Data এগুলো কোথায় ব্যবহৃত হচ্ছে?

ডেটা এনালাইসিস এবং গবেষণা বলা যায় সরকারি , বেসরকারি প্রতিষ্ঠান সহ সবারই লাগে। আজকের সময়ে ডেটা সহজলভ্য হওয়াতে প্রতিদিন অনেক অনেক ডেটা জমা হচ্ছে। এতে সুবিধে হচ্ছে আপনি আপনার প্রতিষ্ঠানের জন্য খুব প্রিসাইস প্রিডিক্ট করতে পারবেন। আপনি যদি আপনার প্রতিষ্ঠানের আগের ডেটা এনালাইসিস করে বুঝতে পারেন যে আপনার প্রতিষ্ঠানটি এ মাসে এ কাজটি করলে খুব বেশি লাভবান হবে, তাহলে সত্যি সত্যি তাই হবে। আর এ জন্য বর্তমানে প্রায় প্রতিষ্ঠানে ডেটা সাইন্টিস্টদের অনেক চাহিদা। ডেটা সাইন্স এখন বলা যায় হট কেক! নিম্নে কোন কোন সেক্টরে ডেটা সায়েন্স এর ব্যবহার হচ্ছে তার একটি তালিকা দেওয়া হলো :

1. ইন্টারনেট সার্চ: Data Science, Machine Learning এবং Big Data সার্চ ইঞ্জিন-গুলোতে সবচেয়ে বেশি ব্যবহার করা হয় যাতে সার্চ ইঞ্জিনটি একজন ব্যবহারকারীকে সেকেন্ডেরও কম সময়ে সবচেয়ে ভালো ফলাফল সামনে এনে দিতে পারে।

2.ডিজিটাল বিজ্ঞাপন: ডাটা সাইন্স ব্যবহার করে বিভিন্ন ওয়েবসাইটের বিজ্ঞাপন গুলো এমন ভাবে সাজানো হয় যে, একটি ওয়েবসাইটে একটি নির্দিষ্ট জায়গায় প্রত্যেক ব্যক্তি তার যে ধরণের চাহিদা সে অনুযায়ী যেন বিজ্ঞাপন গুলো দেখতে পায় সে ব্যবস্থা করা হয়। আর এই সকল কাজে ডাটা সাইন্স এলগোরিদম ব্যবহার করে করা হয়।

3.স্বাস্থ্যসেবা: ঔষধ এবং স্বাস্থ্যসেবা ক্ষেত্রে Data Science, Machine Learning এবং Big Data এর ব্যবহার দিন দিন বেড়েই চলছে। ডাটা সায়েন্সের মাধ্যমে রোগীর আগের মেডিকেল রিপোর্ট গুলো , এবং কি কি ওষুধ রোগী সেবন করে সে তথ্য , রোগীর লাইফ স্টাইল সহ আরো অনেক রাখা হয় এবং পরবর্তীতে খুব সহজেই খুঁজে কাজে লাগানো যায়। এছাড়াও Healthcare company গুলো রোগ সনাক্ত,কবিড ১৯ এর মতো মারাত্মক সংক্রামক মহামারী গুলোকে প্রতিরোধের জন্য এবং নিরাময়ের জন্য অত্যাধুনিক চিকিৎসা যন্ত্র তৈরি করতে data science ব্যবহার করছে।

4.সরকারি খাত: জনশুমারী, জাতীয় পরিচয়পত্র, সরকারি তদন্ত বিভাগ, বিদ্যুৎ , গ্যাস সংযোগ/বিচ্ছিন্ন অনুসন্ধান, মুদ্রাস্পিতি সহ অর্থনৈতিক বিভিন্ন গবেষণা এবং পরিবেশগত বিভিন্ন এনালাইসিস সহ অনেক খাতে ডাটা সায়েন্স ব্যাপক ব্যবহার রয়েছে।

5.নিরাপত্তা: বর্তমানে বিশ্বের অনেক দেশই ডাটা এনালাইটিক্স-এর মাধ্যমে বিভিন্ন অপরাধে জড়িয়ে পড়ার আগেই তথ্য পেয়ে যায় এতে অপরাধ গুলোকে দমন করা সহজ হয়। এছাড়াও ডাটা এনালাইটিক্স-এর মাধ্যমে আমরা সহজেই প্রতারণা মূলক জিনিস গুলো সনাক্ত করতে পারি এবং কোন কাজ কেমন ঝুঁকি হতে পারে তাও জানতে পারি। এছাড়াও ব্যাংকিং এবং আর্থিক প্রতিষ্ঠানগুলি প্রতারণামূলক লেনদেন সনাক্ত করতে ডেটা সায়েন্সের এবং এর রিলেটেড অ্যালগরিদম ব্যবহার করে।

6.পরিবহন: পণ্যের দ্রুত ডেলিভারি নিশ্চিত করতে এবং অপারেশনাল দক্ষতা বাড়াতে রুট অপ্টিমাইজ করতে লজিস্টিক কোম্পানিগুলি ডেটা সায়েন্স ব্যবহার করে। এভিয়েশন এবং আধুনিক ট্রেন গুলোর শিডিউল ব্যবস্থাপনার কাজে ডেটা সায়েন্সের ব্যবহার ব্যাপক।

7.ঝুঁকি ব্যবস্থাপনা: ডাটা সায়েন্সের মাধ্যম বন্যা , জলস্বাস, ভূমিকম্প এবং সুনামি সহ প্রাকৃতিক দুর্যোগ গুলোর ঝুঁকি কমাতে পারি। এছাড়াও বিভিন্ন কোম্পানির Occupational safety and health অর্থাৎ পেশাগত নিরাপত্তা এবং স্বাস্থ্য সমস্যা ব্যাপকতা কমাতে পারি।

8. ভবিষ্যত মার্কেট ট্রেন্ড বুঝতে পারা : একটি বৃহত্তর স্কেলে ডেটা কালেকশন এবং বিশ্লেষণ করে আপনি মার্কেটে ভবিষ্যতে কি ধরণের প্রোডাক্ট বেশি চলবে সেটি আইডেন্টিফাই করতে পারেন । বর্তমানে মানুষ যে ধরণের কেনাকাটা করতেছে তার ডেটা, সেলিব্রিটি এবং প্রভাবশালীদের ট্র্যাকিং এবং সার্চ ইঞ্জিন গুলোতে মানুষ কি সার্চ করতেছে কোন পণ্যগুলিতে আগ্রহী তা এনালাইসিস করে , ভবিষ্যতে কি ধরণের পণ্য অথবা সেবা বিক্রি করলে লাভবান হবেন , তা নির্ধারণ করতে পারেন। আপনার টার্গেট মার্কেটের আচরণ সম্পর্কে আপ-টু-ডেট থাকার মাধ্যমে, আপনি ব্যবসায়িক সিদ্ধান্ত নিতে পারেন যা আপনাকে অন্যদের থেকে এগিয়ে রাখবে।

9. Advanced Image Recognition: ডেটা সায়েন্স অ্যাপ্লিকেশনগুলির মধ্যে ইমেজে প্যাটার্ন শনাক্ত করা এবং ইমেজে অবজেক্ট সনাক্ত করা সবচেয়ে জনপ্রিয় একটি। লক্ষ্য করবেন আপনি যখন ফেসবুকে বন্ধুদের সাথে আপনার ছবি আপলোড করেন এবং আপনি আপনার বন্ধুদের ট্যাগ করার সাজেশনস পেতে শুরু করেন। আর এই স্বয়ংক্রিয় ট্যাগ সাজেশন ফিচার ফেস রিকগনিশন অ্যালগরিদম ব্যবহার করে করা হয় । যা ডেটা সায়েন্স এরই একটি পার্ট। এছাড়াও গুগলের ইমেজ দিয়ে সার্চ ও ডেটা সায়েন্সের কাজ।

Data Science Image Recognition

Data Science Image Recognition

10. Speech Recognition: speech recognition এর সবচেয়ে ভালো উদাহরণ হল Google Voice, Siri, Cortana ইত্যাদি। speech recognition ফিচার ব্যবহার করে, এমনকি আপনি যেকোনো বার্তাও টাইপ করতে পারেন । আপনাকে কেবল বার্তাটি মুখে বললেই হবে , ডেটা সায়েন্সের মাধ্যমে কৃত্রিম বুদ্ধিমত্তার সফটওয়্যার এটি আপনার হয়ে লেখায় রূপান্তর করে দিবে।

11. Gaming: ভিডিও এবং কম্পিউটার গেমগুলি এখন ডেটা সায়েন্সের সাহায্যে তৈরি করা হচ্ছে এবং এটি গেমিং অভিজ্ঞতাকে পরবর্তী স্তরে নিয়ে গেছে। বর্তমানে ভালো মানের গেমগুলি এখন মেশিন লার্নিং অ্যালগরিদম ব্যবহার করে ডিজাইন করা হয়, যাতে একজন প্লেয়ার যত হায়ার লেভেলে যাবে , সাথে সাথে গেম নিজে থেকেই নিজেকে উন্নত/আপগ্রেড এবং কঠিন সব চ্যালেঞ্জ তৈরি করে। মোশন গেমিং-এও, আপনার প্রতিপক্ষ (কম্পিউটার) আপনার আগের চালগুলি বিশ্লেষণ করে এবং সেই অনুযায়ী তার গেমকে আকার দেয়। EA Sports, Zynga, Sony, Nintendo, Activision-Blizzard ডাটা সায়েন্স ব্যবহার করে গেমিং অভিজ্ঞতাকে পরবর্তী স্তরে নিয়ে গেছে।

12. Augmented Reality: এটি ডেটা সায়েন্স এর ব্যবহার গুলির মধ্যে চূড়ান্ত যা ভবিষ্যতে সবচেয়ে exciting বিষয় হচ্ছে Augmented reality. ধরুন , আপনি একটি শার্ট কিনতে চাচ্ছেন , এবং শার্টটি কেনার আগে গায়ে দিয়ে আপনি ট্রায়াল করতে চাচ্ছেন। অথবা একটা জুতা কিনে পায়ে দিয়ে দেখতে চাচ্ছেন আপনাকে কেমন মানাবে। অথবা অনলাইনে একটা গাড়ি কিনতে চাচ্ছেন , কিন্তু গাড়িটি কেনার আগে একটু চালিয়ে দেখতে চাচ্ছেন , গাড়িটি কেমন কমপোর্টেবলে। আপনি ভাবছেন এর জন্য আপনাকে শার্ট, জুতা এবং গাড়ির এর শো রুমে যেতে হবে। আসলে এর জন্য আপনাকে কোনো শো রুমে যাওয়া লাগবেনা। আপনি শুধুমাত্র একটি VR headset পরিধান করেই , শার্ট টি গায়ে এবং জুতাটি পায়ে দিয়ে এবং গাড়িতে চালিয়ে দেখতে পারেন। আর পুরো ব্যাপারটি ভবিষ্যতে আপনার জন্য ই-কমার্স কোম্পানি গুলো তাদের সাইটের মাধ্যমে করে দিবে। যার পিছনে সব চেয়ে বেশি কাজ করবে ডেটা সায়েন্স।

13. Recommendation Systems: Netflix, Ali Baba, Ebay এবং Amazon সহ আরো অনেক কোম্পানি তাদের প্ল্যাটফর্মে আপনি যা দেখতে, কিনতে বা ব্রাউজ করতে চান তার উপর ভিত্তি করে মুভিস এবং প্রোডাক্ট গুলো আপনার সামনে এনে হাজির বা আপনার জন্য Recommendation করে । আর এই সবই মূলতঃ ব্যাকএন্ড এ ডেটা সায়েন্সের কাজ।

Leave a Reply