رهیافت کاربردی تکنیکهای پردازش زبان طبیعی و خوشه بندی اطلاعات در داده کاوی پایگاه دادهMEDLINE  به منظور آنالیز  طولی مقالات زیست – پزشکی

فرشید مجیدفر; فرزان مجیدفر; محمد تفضلی شادپور

رهیافت کاربردی تکنیکهای پردازش زبان طبیعی و خوشه بندی اطلاعات در داده کاوی پایگاه دادهMEDLINE به منظور آنالیز طولی مقالات زیست – پزشکی

محل انتشار: اولین کنفرانس داده کاوی ایران

سال انتشار: 1386

نوع سند: مقاله کنفرانسی

زبان: فارسی

مشاهده: 4,585

فایل این مقاله در 11 صفحه با فرمت PDF قابل دریافت می باشد

دریافت فایل کامل مقاله

صدور گواهی نمایه سازی
من نویسنده این مقاله هستم

این مقاله در بخشهای موضوعی زیر دسته بندی شده است:

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

https://civilica.com/doc/33091

شناسه ملی سند علمی:

IDMC01_115

تاریخ نمایه سازی: 20 خرداد 1386

چکیده مقاله:

پیشرفت تکنولوژی در زمین ه های مختلف و تولیداطلاعات ب ی نظیر و انبوه در شاخ ه های مختلف زیس تشناسی و پزشکی ، موجب توسعه تعداد بسیار زیادی از الگوریت م ها برای پردازش و تحلیل داد ه های زیستی شده است . استفاده از منابع غیر عددی اطلاعات برای کشف لای ه های پنهان زیست شناسی یکی از این رهیافت ها اس ت . در این مقاله طراحی ، گسترش و اجرای رهیافتی برای یکپارچ ه سازی رو ش های مختلف متن کاوی در مقالات پایگاه داده مدلاین به منظور تجزیه و تحلیل طولی مقالات زیست – پزشکی تکنولوژیک را شرح داد هایم. روش پیشنهادی مبتنی بر استفاده از دسترسی پویا بهMEDLINE برای شناسایی آخرین تحقیقات، و ج مع آوری مقالات زیست – پزشکی در یک حوزه خاص تکنولوژیک اس ت . مقالات جمع آوری شده برای تولید فهرستی از واژگان کلیدی پیش پردازش متنی می گردن د . سپس تکنی ک های پردازش زبان طبیع ی(NLP) مانند فیلترهای part of speech و stop-word برای پاکسازی به فهرست اعمال می شوند. براساس فهرست واژگان اختصاصی تولید شده ، هر یک از مقالات تبدیل به برداری از واژگان کلیدی می شون د . بردارهای به دست آمده به یک الگوریتم خوش ه بندی سلسله مراتبی وارد شده تا مقالات بر اساس فهرست واژگان کلیدی به صورت طبیعی گرو هبندی شوند . سپس گروه های ایجاد شده ب ر اساس فاکتورهایی مانند زمان انتشار مقاله به صورت طولی تجزیه و تحلیل می شوند و در مرحله نهایی یا تجسم سازی(visualization) نتایج آنالیز به تصویر در می آین د . هر ، یک از مراحل گفته شده به صورت مستقل برنامه نویسی و به صورت یک نرم افزار رایانه ای پیاده سازی شده اند . برای ارزیابی رهیافت شرح داده شده ، مقالات مدلاین در زمینه تله کاردیولوژی( telecardiology) به عنوان ورودی مورد استفاده قرار گرفتند و بر اساس مراحل گفته شده مورد تجزیه وتحلیل طولی قرار گرفته ، تجسم سازی شدند . ما اعتقاد داریم که تحلی ل های صورت گرفته در این تحقیق برای توسعه و میزان سازی دقیق متدولوژ یهای داده کاوی متنی مقاله های علوم زیست – پزشکی ارزشمند است.

کلیدواژه ها:

داده کاوی ، متن کاوی ، خوشه بندی سلسله مراتبی ، مدلاین ، مقالات زیس ت -پزشکی ، پیش پردازش ، پاکسازی ، تجسم سازی ، تله کاردیولوژی

نویسندگان

فرشید مجیدفر

دانشگاه صنعتی مالک اشتر – مجتمع دانش گاهی برق و الکترونیک - مهندس الک

فرزان مجیدفر

دانشگاه صنعتی امیرکبیر – دانشکده مهندسی پزشکی - دکترای پزشکی /کارشناس

محمد تفضلی شادپور

دانشگاه صنعتی امیرکبیر – دانشکده مهندسی پزشکی – عضو هیئت علمی (استا