এক্সেল ডাটা অ্যানালাইসিস মাস্টারক্লাস (Part 2): ডাটা ক্লিনিং ম্যাজিক এবং র-ডাটা প্রসেসিং
Daily Tech News
🌐 আমাদের ওয়েবসাইট: Dailynewsepaper26.site
🔄 ব্যাকআপ ওয়েবসাইট: dailynewsepaper26.blogspot.com
উপাত্ত বা ডাটা অ্যানালাইসিসের দুনিয়ায় একটি বহুল প্রচলিত প্রবাদ আছে "Garbage In, Garbage Out"। এর অর্থ হলো, আপনি যদি আপনার এক্সেল শিটে ভুল, অগোছালো বা নোংরা ডাটা ইনপুট দেন, তবে আপনার করা অ্যানালাইসিসের ফলাফল বা রিপোর্টও ভুল আসবে। বাস্তব জীবনে আমরা যখন কোনো সোর্স থেকে ডাটা পাই, তা কখনোই সুন্দরভাবে সাজানো থাকে না। সেখানে ডুপ্লিকেট এন্ট্রি, অতিরিক্ত স্পেস, ভুল বানান কিংবা ফাঁকা ঘর থাকে।
একজন ডাটা অ্যানালিস্টের কাজের প্রায় ৭০% থেকে ৮০% সময় ব্যয় হয় এই ডাটা গুছাতে বা পরিষ্কার করতে, যাকে টেকনিক্যাল ভাষায় বলা হয় ডাটা ক্লিনিং (Data Cleaning)। আমাদের ১০ খণ্ডের কমপ্লিট "এক্সেল ডাটা অ্যানালাইসিস মাস্টারক্লাস"-এর দ্বিতীয় খণ্ডে আজ আমরা শিখবো কীভাবে এক্সেলের বিভিন্ন জাদুকরী টুলস এবং ফর্মুলা ব্যবহার করে মাত্র কয়েক মিনিটে যেকোনো জটিল র-ডাটা (Raw Data) পরিষ্কার করা যায়।
![]() |
| Excel Data Analysis Masterclass Part 2 Data Cleaning Techniques |
১. ডুপ্লিকেট ডাটা রিমুভ করার নিয়ম (Remove Duplicates)
বড় ডাটা সেটে একই তথ্য বারবার এন্ট্রি হওয়া খুব সাধারণ একটি সমস্যা। যেমন একই কাস্টমার বা একই ট্রানজেকশন আইডি ভুলবশত দুবার চলে আসতে পারে। এটি ঠিক না করলে আপনার মোট বিক্রির হিসাব ভুল দেখাবে।
![]() |
| How to remove duplicates in excel dataset |
কীভাবে করবেন?
১. আপনার ডাটা টেবিলটির যেকোনো একটি সেলে ক্লিক করুন।
২. এক্সেলের ওপরের রিবন থেকে Data ট্যাবে যান।
৩. Data Tools গ্রুপের ভেতরে Remove Duplicates আইকনে ক্লিক করুন।
৪. একটি পপ-আপ বক্স আসবে। আপনি যদি পুরো রো-এর সব তথ্য মিলে গেলে তবেই ডুপ্লিকেট মুছতে চান, তবে Select All রাখুন। আর যদি শুধু নির্দিষ্ট কোনো কলাম (যেমন: 'Email' বা 'Phone') এর ওপর ভিত্তি করে ডুপ্লিকেট মুছতে চান, তবে শুধু সেই কলামটি টিক দিন।
৫. OK প্রেস করলেই এক্সেল আপনাকে জানিয়ে দেবে কয়টি ডুপ্লিকেট ডাটা মুছে ফেলা হয়েছে এবং কয়টি ইউনিক ডাটা বাকি আছে।
২. টেক্সট ফাংশন দিয়ে ডেটার জঞ্জাল পরিষ্কার (Text Cleaning Formulas)
অনেক সময় অন্য সফটওয়্যার থেকে ড্যাশবোর্ডে ডাটা আনলে নামের আগে-পিছে অনাকাঙ্ক্ষিত স্পেস বা ছোট-বড় হাতের অক্ষরের সমস্যা দেখা দেয়। এই সমস্যাগুলো নিমেষেই দূর করতে পারে ৩টি সহজ ফর্মুলা:
ক) TRIM ফাংশন (বাড়তি স্পেস দূর করা)
যদি কোনো সেলে লেখা থাকে " Rubel Ahmed ", তবে শব্দের ভেতরের একটি স্পেস রেখে বাকি সব অতিরিক্ত স্পেস দূর করতে ব্যবহার করুন:
=TRIM(A2)
খ) CLEAN ফাংশন (অদৃশ্য ক্যারেক্টার দূর করা)
ইন্টারনেট বা ওয়েব পেজ থেকে ডাটা কপি করে এক্সেলে আনলে অনেক সময় কিছু অদৃশ্য নন-প্রিন্টিং ক্যারেক্টার চলে আসে, যার কারণে সূত্রে এরর (Error) দেখায়। এগুলো দূর করতে লিখুন:
=CLEAN(A2)
প্রো টিপ: আপনি চাইলে এই দুটি ফর্মুলা একসাথেও ব্যবহার করতে পারেন এভাবে: =TRIM(CLEAN(A2))
গ) UPPER, LOWER এবং PROPER (অক্ষরের সাইজ ঠিক করা)
ডাটাবেজে সবার নাম বা ইমেইল একই ফরমেটে থাকা সুন্দর।
- সব বড় হাতের করতে: =UPPER(A2)
- সব ছোট হাতের (যেমন ইমেইলের ক্ষেত্রে): =LOWER(A2)
- প্রতিটি শব্দের প্রথম অক্ষর বড় হাতের করতে: =PROPER(A2)
৩. টেক্সট টু কলামস (Text to Columns) দিয়ে ডাটা আলাদা করা
ধরুন আপনার ডাটা সেটে কাস্টমারের পুরো নাম একই কলামে আছে (যেমন: Md Rifat Islam)। কিন্তু আপনার অ্যানালাইসিসের জন্য 'First Name' এবং 'Last Name' আলাদা কলামে দরকার। এই কাজটি করার সবচেয়ে সহজ উপায় হলো Text to Columns।
![]() |
| Split text using text to columns feature in excel |
ধাপসমূহ:
১. যে কলামের ডাটা ভাঙতে চান, সেই পুরো কলামটি সিলেক্ট করুন।
২. Data ট্যাবে গিয়ে Text to Columns-এ ক্লিক করুন।
৩. প্রথম ধাপে Delimited সিলেক্ট করে Next দিন।
৪. আপনার ডাটাগুলো কীসের মাধ্যমে আলাদা করা আছে তা বেছে নিন। যেমন নামগুলোর মাঝে স্পেস থাকলে Space বক্সে টিক দিন (যদি কমা থাকে তবে Comma দিন)। নিচে ডাটার প্রিভিউ দেখতে পাবেন।
৫. Next দিয়ে Finish করে দিন। ব্যস! আপনার ডাটা আলাদা আলাদা কলামে ভাগ হয়ে যাবে।
৪. ফ্ল্যাশ ফিল (Flash Fill): এক্সেলের বিল্ট-ইন এআই (AI)
ফ্ল্যাশ ফিল হলো এক্সেলের এমন এক জাদুকরী ফিচার যা আপনার কাজের প্যাটার্ন বা ধরন বুঝতে পারে এবং সেই অনুযায়ী বাকি ঘরগুলো নিজে নিজেই পূরণ করে দেয়। এর জন্য কোনো সূত্রের প্রয়োজন হয় না।
উদাহরণ: ধরুন A কলামে কিছু ইমেইল আছে (যেমন: rifat@email.com)। আপনি B কলামে শুধু নামটুকু (rifat) নিতে চান।
- আপনি প্রথম ঘরে ম্যানুয়ালি টাইপ করুন: sumon
- এরপর নিচের ফাঁকা ঘরে এসে কিবোর্ডে চাপুন: Ctrl + E
- অলৌকিকভাবে দেখতে পাবেন নিচের সব ইমেইল থেকে শুধু নামগুলো আলাদা হয়ে স্বয়ংক্রিয়ভাবে বসে গেছে! এটি ফুল নাম থেকে ফার্স্ট নাম আলাদা করা বা শর্টকোড তৈরির ক্ষেত্রে দুর্দান্ত কাজ করে।
৫. মিসিং ডাটা বা ব্ল্যাঙ্ক সেল (Blank Cells) হ্যান্ডেল করার উপায়
ডাটা ক্লিনিংয়ের আরেকটি বড় চ্যালেঞ্জ হলো ফাঁকা ঘর বা ব্ল্যাঙ্ক সেল। ডাটা সেটের মাঝে ফাঁকা ঘর থাকলে এভারেজ বা সাম বের করার সময় ভুল হতে পারে।
ফাঁকা ঘরে "N/A" বা "0" বসানোর সহজ ট্রিকস:
১. পুরো ডাটা সেটটি সিলেক্ট করুন।
২. কিবোর্ড থেকে Ctrl + G প্রেস করুন, তারপর নিচে Special বাটনে ক্লিক করুন।
৩. অপশনগুলো থেকে Blanks সিলেক্ট করে OK দিন। এতে শুধু ফাঁকা ঘরগুলো সিলেক্ট হবে।
৪. এবার কিবোর্ডে সরাসরি টাইপ করুন 0 বা N/A (মাউসে কোথাও ক্লিক করবেন না)।
৫. টাইপ করার পর কিবোর্ডে Ctrl + Enter একসাথে চাপুন। ব্যস, সব ফাঁকা ঘরে এক সেকেন্ডে ওই লেখাটি বসে যাবে!
❓ প্রায়শই জিজ্ঞাসিত প্রশ্নাবলী (FAQ)
প্রশ্ন ১: Remove Duplicates করার পর কি আগের ডাটা ফেরত আনা সম্ভব?
উত্তর: হ্যাঁ, ভুলবশত ডুপ্লিকেট রিমুভ হয়ে গেলে সাথে সাথে কিবোর্ডে Ctrl + Z চেপে ডাটা আগের অবস্থায় ফিরিয়ে আনা সম্ভব। তবে ফাইলটি সেভ করে বন্ধ করে দিলে আর ফেরত আনা যাবে না। তাই মূল ডাটার একটি ব্যাকআপ কপি রাখা নিরাপদ।
প্রশ্ন ২: 'Text to Columns' করার সময় আমার ডানপাশের কলামের ডাটা মুছে যাচ্ছে কেন?
উত্তর: টেক্সট টু কলাম করার সময় ডাটা যখন ভেঙে ডানের কলামগুলোতে ছড়িয়ে যায়, তখন সেখানে আগে থেকে কোনো ডাটা থাকলে তা ওভাররাইট (Overwrite) বা মুছে যায়। তাই এই টুলটি ব্যবহারের আগে ডানপাশে পর্যাপ্ত খালি কলাম তৈরি করে নেওয়া উচিত।
প্রশ্ন ৩: ফ্ল্যাশ ফিল (Ctrl + E) আমার এক্সেলে কাজ করছে না কেন?
উত্তর: অনেক সময় এক্সেলের অপশনে এটি বন্ধ থাকে। এটি চালু করতে File > Options > Advanced-এ যান এবং 'Automatically Flash Fill' বক্সে টিক চিহ্ন দেওয়া আছে কিনা তা চেক করুন।
ডাটা ক্লিনিং হলো ডাটা অ্যানালাইসিসের ভিত্তিপ্রস্তর। নোংরা ডাটা দিয়ে করা নিখুঁত অ্যানালাইসিসও দিনশেষে ভুল ফলাফল দেয়। আজকের খণ্ডে আমরা যে টেকনিকগুলো শিখলাম, এগুলো নিয়মিত অনুশীলন করলে আপনার ডাটা প্রসেসিংয়ের গতি অনেক বেড়ে যাবে।
আগামী Part 3-তে আমরা শিখবো ডাটা অ্যানালাইসিসের পরবর্তী গুরুত্বপূর্ণ ধাপ ডাটা সর্টিং এবং অ্যাডভান্সড ফিল্টারিং (Sorting & Advanced Filtering), যেখানে বড় ডাটা সেট থেকে কীভাবে চোখের পলকে নির্দিষ্ট তথ্য ছেঁকে বের করা যায় তা নিয়ে আলোচনা করবো।
ধন্যবাদান্তে,
টিম Daily Tech News
🔗 ইউআরএল: Daily Tech News
🔗 ইউআরএল: Tech News 24
© ২০২৬ - আপনার অনলাইন দুর্গের পাহারাদার



0 Comments