رهیافت کاربردی تکنیکهای پردازش زبان طبیعی و خوشه بندی اطلاعات در داده کاوی پایگاه دادهMEDLINE به منظور آنالیز طولی مقالات زیست – پزشکی

سال انتشار: 1386
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 4,585

فایل این مقاله در 11 صفحه با فرمت PDF قابل دریافت می باشد

این مقاله در بخشهای موضوعی زیر دسته بندی شده است:

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

IDMC01_115

تاریخ نمایه سازی: 20 خرداد 1386

چکیده مقاله:

پیشرفت تکنولوژی در زمین ه های مختلف و تولیداطلاعات ب ی نظیر و انبوه در شاخ ه های مختلف زیس تشناسی و پزشکی ، موجب توسعه تعداد بسیار زیادی از الگوریت م ها برای پردازش و تحلیل داد ه های زیستی شده است . استفاده از منابع غیر عددی اطلاعات برای کشف لای ه های پنهان زیست شناسی یکی از این رهیافت ها اس ت . در این مقاله طراحی ، گسترش و اجرای رهیافتی برای یکپارچ ه سازی رو ش های مختلف متن کاوی در مقالات پایگاه داده مدلاین به منظور تجزیه و تحلیل طولی مقالات زیست – پزشکی تکنولوژیک را شرح داد هایم. روش پیشنهادی مبتنی بر استفاده از دسترسی پویا بهMEDLINE برای شناسایی آخرین تحقیقات، و ج مع آوری مقالات زیست – پزشکی در یک حوزه خاص تکنولوژیک اس ت . مقالات جمع آوری شده برای تولید فهرستی از واژگان کلیدی پیش پردازش متنی می گردن د . سپس تکنی ک های پردازش زبان طبیع ی(NLP) مانند فیلترهای part of speech و stop-word برای پاکسازی به فهرست اعمال می شوند. براساس فهرست واژگان اختصاصی تولید شده ، هر یک از مقالات تبدیل به برداری از واژگان کلیدی می شون د . بردارهای به دست آمده به یک الگوریتم خوش ه بندی سلسله مراتبی وارد شده تا مقالات بر اساس فهرست واژگان کلیدی به صورت طبیعی گرو هبندی شوند . سپس گروه های ایجاد شده ب ر اساس فاکتورهایی مانند زمان انتشار مقاله به صورت طولی تجزیه و تحلیل می شوند و در مرحله نهایی یا تجسم سازی(visualization) نتایج آنالیز به تصویر در می آین د . هر ، یک از مراحل گفته شده به صورت مستقل برنامه نویسی و به صورت یک نرم افزار رایانه ای پیاده سازی شده اند . برای ارزیابی رهیافت شرح داده شده ، مقالات مدلاین در زمینه تله کاردیولوژی( telecardiology) به عنوان ورودی مورد استفاده قرار گرفتند و بر اساس مراحل گفته شده مورد تجزیه وتحلیل طولی قرار گرفته ، تجسم سازی شدند . ما اعتقاد داریم که تحلی ل های صورت گرفته در این تحقیق برای توسعه و میزان سازی دقیق متدولوژ یهای داده کاوی متنی مقاله های علوم زیست – پزشکی ارزشمند است.

کلیدواژه ها:

داده کاوی ، متن کاوی ، خوشه بندی سلسله مراتبی ، مدلاین ، مقالات زیس ت -پزشکی ، پیش پردازش ، پاکسازی ، تجسم سازی ، تله کاردیولوژی

نویسندگان

فرشید مجیدفر

دانشگاه صنعتی مالک اشتر – مجتمع دانش گاهی برق و الکترونیک - مهندس الک

فرزان مجیدفر

دانشگاه صنعتی امیرکبیر – دانشکده مهندسی پزشکی - دکترای پزشکی /کارشناس

محمد تفضلی شادپور

دانشگاه صنعتی امیرکبیر – دانشکده مهندسی پزشکی – عضو هیئت علمی (استا