در ادامه مطلب می توانید صفحات ابتدایی این پایان نامه را بخوانید

دانشگاه آزاد اسلامی
واحد تهران جنوب
دانشکده تحصیلات تکمیلی
“M.Sc” پایاننامه برای دریافت درجه کارشناسی ارشد
مهندسی برق ‐ الکترونیک
عنوان :
شناسایی چند حالت گفتاری در زبان فارسی با بهره گیری از ویژگیهای نوای گفتار به
کمک شبکههای عصبی
استاد راهنما :
دکتر غرویان
استاد مشاور :
دکتر شیخان
نگارش:
علیرضا ناظریه

 
 
چکیده
در سالهای اخیر، شناخت حالات گفتار انسانی بعلت تنوع کاربردهای آن، موجب افزایش بهره گیری از
چنین تکنولوژی شده می باشد. در این پژوهش آغاز تعریفی از حالت ارائه شده، سپس به بعضی معضلات
موجود در این کار که تشخیص را سختتر می ‌کند پرداخته و راهحلهای متفاوت ارائه شده در این زمینه
معرفی میشود. بعد از آن به الگوریتمها و روشهای ارائه شده در زمینه بازشناسی حالت در گفتار
پرداخته و چند نمونه از تحقیقاتی که در این زمینه صورت گرفته ارائه شده می باشد. همچنین به بعضی مزایا
و معایب هر روش و اینکه هر کدام از این روشها برای چه شرایطی مفیدترند نیز، تصریح خواهد گردید. در
نهایت بعضی کاربردهای آن نیز مورد مطالعه قرار میگیرد. در این پژوهش از شبکه های عصبیARTMAP 
فازی برای شناسایی چهار حالت عادی، خشم، شادی، و پرسشی و با بهره گیری از 52 ویژگی بهره گیری شده
می باشد. نتایج نشان میدهد که شبکههای عصبی میتوانند بهعنوان یک دستهبندی کننده خوب برای
شناسایی حالت گفتار بهره گیری شوند. نتایج این روشها زمانی بهتر خواهد بود که حالت گفتار ذکر گردیده
دارای تفاوتهای قابل توجهی نسبت به سایر حالات باشد.
بر این اساس دقت شناسایی حالت برای حالت عادی 87/76%، برای حالت سوالی 51/74%، حالت شادی 76/13%، و حالت خشم 93/65% به دست آمد.
مقدمه
چارلز داروین نخستین کتاب درمورد اظهار احساسات بشر و حیوان را در قرن نوزدهم نگاشت. پس از این
اثر مهم روانشناسان و متخصصان هوش مصنوعی به تدریج به جمعآوری دانش و اطلاعات در این زمینه
پرداختند. این مسئله موج جدیدی از توجه روانشناسان و متخصصان هوش مصنوعی را برانگیخته می باشد.
که بعضی از علت های آن عبارتند از:
پیشرفت فناوری در ثبت، ذخیره و تحلیل اطلاعات صوتی و تصویری، بالا رفتن سطح فناوری ارتباط
بشر و رایانه از نقطه و کلیک به حس و عاطفه و نرمافزارهای زندهوار مخصوص کمک به بشر و
های شرکت سونی که قادر به AIBO ، های شرکت تایگر FURBI روباتهای حیوان شکل خانگی از قبیل
درک و اظهار احساسات میباشند. به تازگی زمینههای تحقیقاتی جدیدی در هوش مصنوعی تحت عنوان
محاسبه عاطفی ایجاد شده می باشد. درحوزه رمزگشایی و توصیف و به تصویر کشیدن حالات در گفتار،
تاکنون روانشناسان به آزمایشات تجربی بسیاری دست زده و فرضیههایی ارائه دادهاند. از طرف دیگر
محققان هوش مصنوعی نیز در شاخههای زیر تحقیقات ارزندهای انجام دادهاند:
ساخت و ترکیب حالات گفتار، بازشناسی حالات گفتار و بهره گیری از نرمافزارهایی برای رمزگشایی و اظهار
حالات بهره گیری میشوند. هدف، پژوهش و کاوش در راههای بهره گیری از بازشناسی حالات گفتار می باشد که
درتجارت، یک کاربرد بالقوه آن، میتواند تشخیص حالت گفتاری، در یک مکالمه تلفنی و ایجاد فیدبک
به یک اپراتور یا سرپرست، به مقصود نمایش باشد. کاربرد دیگر آن ذخیره پیامهای صوتی طبق حالت اظهار
شده توسط تماس گیرنده میباشد. کاربردی دیگر از آن، بهره گیری از محتوای حالت احساسی مکالمات،
جهت ارزیابی عملکرد اپراتور می باشد.
شناسایی خودکارحالت گفتار، با توجه با حالات صورت، حرکات بدن و یا ویژگیهای گفتار یکی از
روشهای بازشناسی حالت گفتار میباشد. بخصوص در زمینه سیستمهای امنیتی علاقهمندیهای بسیاری
نظاره شده می باشد.
حال بایستی دید، مقصود از حالت در گفتار چیست؟ اگر تاکنون در چند سخنرانی شرکت کرده باشید
خواهید دید که بعضی از سخنرانیها جذاب و بعضی خستهکننده میباشند. این مشکل علاوه بر موضوع
سخنرانی به چگونگی اظهار سخنران نیز بستگی دارد. اگر سخنران گفتاری یکنواخت داشته باشد همانند یک
روبات خواهد بود، که باعث خوابآلودگی شنونده میشود. پس سخنرانان حرفهای با تغییر آهنگ
گفتار خویش و با حرکات به موقع دست، سر و بدن خویش، با تاکید روی بعضی کلمات، اظهار بعضی
جملات با تعجب بعضی با افسوس و… حال و هوای سخنرانی را تغییر میدهند. این تغییرات در چگونگی
اظهار جملات و کلمات را “حالت در گفتار” گویند. بعبارت دیگر ادای جملات به هر شکلی غیر از حالت
عادی و یکنواخت بعنوان یک حالت شناخته میشود. حالات مختلف از قبیل: خشم، تنفر، ترس، شادی،
غم، هیجان، آرامش، کسالت، افسردگی و … میباشند. حتی در بعضی از مواقع در مورد اندازه یک حالت
بحث میشود، مثلا شاد با خیلی شاد در نظر گرفته میشود. اضافه کردن حالت عادی به این حالتها
معقول بنظر میرسد تا هر کدام از این حالتها درک شوند. یعنی برای در نظر گرفتن یک حالت جدید
یک سری تغییرات بایستی نسبت به یک مبدا وجود داشته باشد و در اینگونه کارها مبنا حالت عادی و بدون
حالت میباشد. این طبقهبندی بعنوان اساس مقایسه بهره گیری میشود. امروزه آمار عمومی از یک عبارت
بعنوان اساس کار می باشد، اگر چه کوشش در بهره گیری از ویژگیهای ذاتی موجود را دارند.
برای اطمینان از تشخیص صحیح، معقول می باشد که تعداد و نوع حالتهای قابل تشخیص محدود و
متناسب با نیاز در آن کاربرد خاص باشد(برای طبقهبندی مناسب). هنوز بصورت فنی هیچ استاندارد
مشخصی برای تشخیص و طبقهبندی حالتهای گفتار موجود نیست. اغلب تمیز دادن، میان یک مجموعه
تعریف شده از حالتهای گفتار مجزا می باشد، و برای تعداد و اسامی آنها ایدهء یکسانی موجود نیست. از
طرفی این تحقیقات در هر زبان و لهجهای خاص خود میباشد و چنانچه برای سایر زبانها بهره گیری گردد،
دقت بازشناسی کاهش مییابد. مثلا نمیتوان سیستمی که برای زبان انگلیسی طراحی شده می باشد را برای
زبان فارسی بکار برد. زیرا پایگاه دادهای که برای زبان انگلیسی طراحی شده ویژگیهای خاص خود را
دارد که برای زبان فارسی متفاوت می باشد و کاربردی ندارد. البته ممکن می باشد الگوریتم کاری آنها مشابه
باشد.
افراد با بهره گیری از اطلاعات حالت یا عاطفی راحتتر با یکدیگر ارتباط مستقر میکنند. و اهمیت آن در
بعضی مواقع بیش از اطلاعات کلامی میباشد. با افزایش اهمیت اطلاعات غیر کلامی در زمینه ارتباط
بشر با ماشین، مدتی می باشد که این امر بعنوان موضوع تحقیقی در حوزه مهندسی مورد بحث و مطالعه
قرار گرفته می باشد. اگر رایانهای بتواند هیجانات و حالات انسانی را بهخوبی خود انسانها درک کند ارتباط
فوق بهبود خواهد داشت.
برای مثال، ارتباط میان بشر و رایانه را میتوان به گونهای ترتیب داد که واکنشهایی که در برابر کاربران
نشان میدهند، برحسب حالات عاطفی کاربر باشد. برای آگاهی از اینکه در یک عبارت چه نوع حالتی
نهفته می باشد، ترکیبی از فونتیکها (آواشناسیها)، و فیزیولوژی تکنولوژی بازشناسی حالت میتواند مبنایی
برای یک مدل صوتی(گفتار) آماده سازد، که بتواند کیفیت بازشناسی و سنتز گفتار را بهبود دهد.
بعضی کاربردهای مهم دیگر برای تکنولوژی بازشناسی حالات شامل سیستم گفتگوی خودکار در مراکز
تلفن و بعضی استفادههای ویژه برای افراد ناتوان و پیر نیز میتوان نام برد. امروزه پژوهش حالت در گفتار
بطور عمده بر نمونههای تک زبانه متمرکز شده و کمتر در زمینه چند زبانه کار شده می باشد. نوای گفتار یک
نمایشگر اولیه اطلاعات حالت گوینده می باشد.
راهحلهای بازشناسی حالت بستگی به حالتهایی دارد که دستگاه میخواهد بازشناسی نماید. همچنین
علاقهمندی به کاربرد تکنولوژیهای بازشناسی حالت برای سیستمهای پاسخگویی صوتی متقابل،
مخصوصا برای مراکز تلفن میباشد. این سیستمها محاورهای و از این رو جملات معمولا کوتاه هستند.
برای طبیعیتر بودن مسئله، مسیرتحقیق بازشناسی حالت از واکاوی گفتار ناآگاهانه گرفته میشود. حرکت
بعدی، معمولاً کوشش برای افزایش عملکرد سیستمهای رابط ماشین و بشر مانند خدمات تلفنی کنترل
صوتی می باشد.
از معضلات حالات ناآگاهانه در مقایسه با گفتارحقیقی برچسبزنی آنها می باشد ، زیر ا دانستن حالات
حقیقی بطور قطعی غیر ممکن میشود.
مقایسه عملکرد بازشناسی حالت بدلیل نبود پایگاه داده مشترک سخت می باشد. نتایج دستههای حالت پایه
مشترک، وابستگی به گوینده، حرفهای یا مردمان عادی، سن فرد گوینده، محیط ضبط صدا، یا نوع
جملات و (کلمات یا عبارات) را در پایگاه داده بایستی در نظر گرفت. مشکل میتوان گفت که کدام سیستم
در کل بهتر می باشد. عملکرد بازشناسی حالت تا حد زیادی وابسته به این می باشد که چگونه میتوان ویژگی –
های مناسب مستقل از گوینده، زبان و متن را استخراج نمود.
برای بازشناسی از شبکههای هوشمند بهره گیری میشود که از آن جمله شبکههای عصبی مصنوعی، مدل-
های مارکوف مخفی، مدلهای مخلوطکننده گوسی، درختهای تصمیمگیری، ماشینهای بردار پشتیبان،
واکاوی تفکیککننده خطی، واکاوی تفکیککننده درجه دوم و … میباشد.
در ادامه نتایج چند پژوهش که از روشهای مختلف برای منظورهای متفاوت بهره گیری کرده می باشد، مطالعه
شده و بعضی نکات دیگر در آنها مطرح خواهد گردید.
تعداد صفحات: 112
قیمت : 14700 تومان

این مطلب رو هم توصیه می کنم بخونین:   سمینار ارشد مهندسی برق قدرت: بررسی روش های نوین condition monitoring در ماشین های القایی

 

***

—-

پشتیبانی سایت :       

****         serderehi@gmail.com

دسته‌ها: مهندسی برق

دیدگاهتان را بنویسید