۲۸

BS

integer

[۱۰,۳۸۴]

۴-۴٫ نحوه توزیع دادهها براساس ویژگیها
برای درک بهتر دادهها در این بخش، نحوهی توزیع دادهها را براساس برخی از ویژگیهای مهم موجود در مجموعهی داده، در قالب نمودار نمایش میدهیم.
۴-۴-۱٫ نوع بیماری تنفسی
شکل ۴-۱، تعداد افراد متعلق به سه ردهی پنومونی، عفونت دستگاه تنفسی فوقانی، بیماری مزمن انسدادی ریه را در قالب نمودار، مقایسه میکند. عدم توازن دادهها بهخوبی در این نمودار نمایش داده شده است. همانطور که میبینیم، تعداد افراد دارای بیماری مزمن انسدادی ریه در مقابل دو ردهی دیگر، بسیار ناچیز است و این مسئله، تشخیص ردهی بیماری مزمن انسدادی ریه را با مشکل مواجه میکند.
Pneumonia
Acute upper respiratory infections
Chronic lower respiratory diseases
شکل۴-۱: توزیع دادهها براساس نوع بیماری تنفسی
۴-۴-۲٫ سن
شکل ۴-۲، نحوهی توزیع دادهها را براساس سن افراد نشان میدهد. همانطور که در نمودار میبینیم، بیشتر مراجعهکنندگان کمتر از ۵ سال سن دارند.
بیشتر از ۱۵ سال
بین ۱۰ تا ۱۵ سال
بین ۵ تا ۱۰ سال
کمتر از ۵ سال
شکل۴-۲: توزیع دادهها براساس سن
۴-۵٫ پیش پردازشهای انجام شده
پس از دریافت دادهها و شناخت مفاهیم مربوط به دادهها، پایگاه داده و درک روابط موجود در بین ویژگیهای مختلف در پایگاه داده، فاز آمادهسازی داده شروع میشود. در ادامه فرآیند آمادهسازی، باید برای پاکسازی و پیشپردازش دادهها، دو عملیات مهم کاهش داده و اعمال تغییرات در شکل دادهها بر روی پایگاه داده رابطهای صورت میگرفت. در این مرحله بر حسب نیاز، عملیات کاهش دادهها (حذف دادهها) به صورت دستی یا سیستمی با مشارکت یک تیم پزشکی در پایگاه داده اصلی صورت گرفته است. اما برای پاکسازی نهایی دادهها و رفع تمامی نواقص و مشکلات باقیمانده، عملیات زیر بهعنوان پیشپردازش روی مجموعهی داده انجام شده است.
۴-۵-۱٫ حذف ویژگیهای اضافی
برخی متغیرها (شماره پرونده- نام بیمار- نام پدر- ملیت- سازمان بیمهگر- دفعهمراجعه- تخت روز-تاریخ پذیرش- تاریخ ترخیص- نوع ترخیص- تشخیص اولیه- تشخیص حین درمان)، متغیرهای تاثیرگذاری نبودند. بخشی از عملیات فیلتر نمودن با کمک متخصص صورت گرفت. این ویژگیها عملا و از نظر مفهومی ارتباطی به کشف قوانین نداشتند، بنابراین جزء ویژگیهای تاثیرگذار محسوب نمیشدند و میبایست از پایگاه داده حذف میشدند.
۴-۵-۲٫ حذف یا اصلاح رکورد
اگر اطلاعات بیمار ناقص بود؛ رکورد، صلاحیت ورود به مدل نهایی را نداشت، بنابراین برخی رکوردها که توسط مسئول HIS بیمارستان به اشتباه ثبت شده بود، در صورت امکان با همکاری مسئول HIS و توسط نویسنده اصلاح و در غیر این صورت رکورد حذف شد.
۴-۵-۳٫ یکپارچهسازی داده
دادهکاوی اغلب به یکپارچهسازی داده (ادغام دادهها از چندین منبع داده) نیاز دارد. از آنجایی که ما علاوه بر دادههای ثبت شده توسط مسئول HIS بیمارستان به دادههای آزمایشهای انجام شده روی بیمار هم نیاز داشتیم، در این مرحله مجبور بودیم دادهها را یکپارچه کنیم.
جدول۴-۲: اسامی ویژگیها پس از برخی از مراحل پیش پردازش

ردیف نام متغیر نوع ویژگی مقادیر موجود
دانلود متن کامل پایان نامه در سایت jemo.ir موجود است