استاد راهنما:

آقای دکتر مروی

 

استاد مشاور:

آقای دکتر احمدی فرد

 

پایان نامه ارشد جهت اخذ درجه کارشناسی ارشد

تکه هایی از متن به عنوان نمونه :
چکیده
در این پایان­نامه روشی برای شناسایی مصوت­های فارسی در کلمات تک سیلابی ارائه می­گردد. برای این مقصود پس از جداسازی فریم­های تصویر و انتخاب فریم­هایی که مربوط به تلفظ مصوت موجود در کلمه تک سیلابی بودند و نیز استخراج ناحیه­ای پیرامون لب­ها، ویژگی­های مختلفی همچون ضرایب کسینوسی و ضرایب موجک و ضرایب MFCC برای تشخیص مصوت­ها در کلمات تک سیلابی استخراج گردید. پس از آن توسط روش کاهش ویژگی LSDA، ویژگی­ها را کاهش داده و سایز ویژگی­ها را به 25 تغییر دادیم. در نهایت موثرترین ویژگی­ها برای شناسایی مشخص گردید. در این پژوهش از پایگاه داده­ای شامل کلمات تک سیلابی، که توسط گویندگان مختلفی ادا شده بود و شامل 580 ویدیو بود بهره گیری گردید. از 381 ویدیو برای آموزش و از 199 ویدیو برای آزمایش بهره گیری نمودیم. ویژگی­های استخراجی به عنوان ورودی به شبکه عصبی دو لایه با 20 نرون در لایه میانی و یک نرون در خروجی اعمال شدند. از تابع فعالسازی تانژانت سیگموید در لایه میانی و تابع خطی در خروجی بهره گیری کردیم و برای آموزش شبکه از روش گرادیان نزولی با نرخ آموزش متغیر بهره گیری نمودیم. بهترین نرخ شناسایی 95.75 بود که از محاسبه ضرایب MFCC از 4/1 بردار ضرایب DCT بعد از اسکن زیگزاگ ماتریس ضرایب کسینوسی به دست آمد.
کلمات کلیدی:
لب خوانی، شناسایی مصوت، ویژگی های زمانی- فرکانسی، کاهش ابعاد ویژگی، شبکه های عصبی
 
 
 
 
 
فهرست مطالب
فصل اول : مقدمه ………………………………………………………………………………………………………………1
1-1 مقدمه ……………………………………………………………………………………………………………………….2
1-2 ساختار پایان نامه ………………………………………………………………………………………………………4
فصل دوم : مروری بر تحقیقات انجام شده ……………………………………………………………………….5
2-1 مقدمه ………………………………………………………………………………………………………………………6
2-2 مدل­های مرز فعال …………………………………………………………………………………………………….6
2-2-1 تابع انرژی ………………………………………………………………………………………………………….7
2-2-2 حداقل سازی انرژی ……………………………………………………………………………………………..9
2-3 مدل­های شکل فعال ………………………………………………………………………………………………..12
2-4 مدل­های انعطاف­پذیر ………………………………………………………………………………………………16
2-4-1 مدل لب ………………………………………………………………………………………………………….16
2-4-2 فرمول­بندی تابع هزینه ………………………………………………………………………………………17
2-4-3 بهینه سازی پارامترهای مدل ……………………………………………………………………………….18
2-5 الگوهای انعطاف­پذیر ……………………………………………………………………………………………….19
2-6 موجک هار ……………………………………………………………………………………………………………..21
2-6-1 پیش پردازش …………………………………………………………………………………………………..21
2-6-2 تبدیل رنگی ……………………………………………………………………………………………………..22
2-6-3 قطعه­بندی ……………………………………………………………………………………………………….22
2-7 واکاوی مؤلفه­های خاص ……………………………………………………………………………………………..23
2-7-1 زمینه ریاضی EM-PCA ………………………………………………………………………………….24
2-7-2 تولید منیفولد از تصویر ورودی………………………………………………………………………………24
2-8 تبدیل کسینوسی گسسته ………………………………………………………………………………………..26
2-8-1 مدلسازی بر اساس 3-D DCT…………………………………………………………………………..26
2-8-1-1 استخراج ویژگی حرکتی لب ……………………………………………………………………….27
2-8-1-2 استخراج ویژگی حرکت مبتنی بر شبکه …………………………………………………………27
2-8-1-3 استخراج ویژگی حرکت مبتنی بر کانتور ………………………………………………………..28
2-8-2 استخراج ویژگی از ناحیه مورد نظر……………………………………………………………………….29
2-8-2-1 استخراج ویژگی­های دیداری………………………………………………………………………..30
2-8-3 تبدیل کسینوسی و LSDA………………………………………………………………………………31
2-8-3-1 پیش پردازش ………………………………………………………………………………………….31
2-8-3-2 روش DCT……………………………………………………………………………………………31
2-8-3-3 DCT + PCA ……………………………………………………………………………………..31
2-8-3-4 DCT +LDA ………………………………………………………………………………………32
2-8-3-5 DCT +LSDA……………………………………………………………………………………32
2-8-3-6 ماتریس انتقال ویژگی…………………………………………………………………………………35
2-9 مدل لب با منحنی بیزیر ………………………………………………………………………………………….35
2-10 جداسازی ناحیه لب با کا- منیز ………………………………………………………………………………37
فصل سوم : روش­های استخراج ناحیه دهان و سیستم­های تشخیص …………………………..39
3-1 مقدمه ……………………………………………………………………………………………………………………40
3-2 آشکارسازی ناحیه لب ……………………………………………………………………………………………..41
3-2-1 واکاوی ترکیب رنگ لب و پوست ……………………………………………………………………………41
3-2-2 رنگ و اشباع و شدت روشنایی (HSV) ………………………………………………………………42
3-2-3 حذف مؤلفه قرمز ……………………………………………………………………………………………..43
3-2-4 الگوریتم کا- مینز …………………………………………………………………………………………….43
3-2-4-1 پیاده­سازی الگوریتم …………………………………………………………………………………44
3-2-5 شدت روشنایی و باینری کردن ……………………………………………………………………………45
3-2-6 روش­های ترکیبی ………………………………………………………………………………………………45
3-3 روش­های کلاسه­بندی و شناسایی …………………………………………………………………………….47
3-3-1 شبکه عصبی …………………………………………………………………………………………………….47
3-3-1-1 شبکه­های پیش­خور ………………………………………………………………………………….48
3-3-1-2 الگوریتم پس انتشار خطا ……………………………………………………………………………48
3-3-2 مدل مخفی مارکوف …………………………………………………………………………………………..48
فصل چهارم : ویژگی­های استخراجی وپیاده­سازی روش پیشنهادی و معرفی پایگاه داده …………………………………………………………………………………………………………………………………….51
4-1 پایگاه داده ……………………………………………………………………………………………………………..52
4-1-1 جداسازی ویدیوهای ضبط شده ……………………………………………………………………………53
4-2 ویژگی­های استخراج شده ………………………………………………………………………………………..53
4-3 جداسازی ناحیه لب ………………………………………………………………………………………………..54
4-3-1 آستانه­گذاری ……………………………………………………………………………………………………54
4-3-2 بهره گیری از روش حذف رنگ قرمز ………………………………………………………………………….56
4-3-3 واکاوی ترکیب رنگ لب و پوست ……………………………………………………………………………..57
4-3-4 برچسب­گذاری اجزا ……………………………………………………………………………………………58
4-3-5 جعبه محاطی …………………………………………………………………………………………………..59
4-4 ضرایب مل فرکانسی ………………………………………………………………………………………………60
4-4-1 فریم بندی ……………………………………………………………………………………………………….61
4-4-2 پنجره­گذاری …………………………………………………………………………………………………….62
4-4-3 تبدیل فوریه گسسته ………………………………………………………………………………………….62
4-4-4 مقیاس مل ………………………………………………………………………………………………………62
4-4-5 تبدیل کسینوسی گسسته …………………………………………………………………………………..64
4-4-5-1 محاسبه ضرایب کسینوسی و ویولت ……………………………………………………………..65
4-4-5-2 محاسبه ضرایب مل فرکانسی ………………………………………………………………………65
4-5 یافتن مرکز لب و استخراج ناحیه­ای حول لب ……………………………………………………………..66
4-5-1 اسکن زیگزاگ …………………………………………………………………………………………………..67
4-5-2 کاهش ویژگی با LSDA ……………………………………………………………………………………68
4-5-2-1 بهره گیری از تابع Logsigmoid و تغییر الگوریتم آموزش ………………………………..70
4-5-2-2 بهره گیری از تابع Tansigmoid و الگوریتم ممنتوم …………………………………………70
4-6 استخراج ویژگی از تصاویر مختلف …………………………………………………………………………….72
4-6-1 استخراج ویژگی از تصاویر جدید …………………………………………………………………………..72
4-6-2 ضرایب مل فرکانسی و ضرایب کسینوسی ……………………………………………………………….72
4-7 کاهش تعداد فریم­ها و کاهش سایز تصاویر…………………………………………………………………73
4-7-1 محاسبه ضرایب MFCC …………………………………………………………………………………..73
4-7-2 ضرایب DCT , DWT …………………………………………………………………………………….73
4-7-3 کاهش تعداد فریم­ها و کاهش سایز تصاویر با دستور ری­سایز ……………………………………..76
4-8 نتیجه­گیری ……………………………………………………………………………………………………………81
4-9 پیشنهاد ادامه کار ……………………………………………………………………………………………………82
مراجع ………………………………………………………………………………………………………………………………83
 
 
 
فهرست جدول­ها
جدول 1-1 گروه­بندی ویزم­ها در انگلیسی …………………………………………………………………………………………3
جدول 1-2 گروه­بندی ویزم­ها در زبان فارسی ……………………………………………………………………………………3
جدول 4-1 کلمات تک سیلابی در بانک اطلاعاتی ……………………………………………………………………………..52
جدول 4-2 نتایج قبل از تنظیم نقاط انتهایی …………………………………………………………………………………… 71
جدول 4- 3 نتایج بعد از تنظیم نقاط انتهایی …………………………………………………………………………………….71
جدول 4- 4 نتایج حاصل از ویژگی های استخراجی از تصاویر اصلی با 20 فریم …………………………………..74
جدول 4- 5 نتایج حاصل از ویژگی­های استخراجی از تصاویر نرمالیزه شده با ارتباط (4-7) با 20 فریم ….74
جدول 4- 6 نتایج حاصل از ویژگی های استخراجی از تصاویر کوچک شده با 20 فریم …………………………75
جدول 4- 7 نتایج حاصل از 10 ضریب اول از ضرایب DCT تصاویر اصلی با 20 فریم ………………………….75
جدول 4- 8 نتایج حاصل از 10 ضریب اول از ضرایب DCT تصاویر نرمالیزه شده با 20 فریم ……………….76
جدول 4- 9 نتایج حاصل از 10 ضریب اول از ضرایب DCT تصاویر کوچک شده با 20 فریم ………………..76
 
 
 
 
 
 
فهرست شکل­ها
شکل 2- 1 مدل کانتور فعال نمونه­گیری شده ……………………………………………………………………………………..11
شکل 2- 2 علامت گذاری انجام شده بر روی لب ……………………………………………………………………………….13
شکل 2- 3 مدل توزیع نقطه­ای، هر حالت با σ2 ± اطراف متوسط رسم شده می باشد ……………………………….14
شکل 2- 4 مدل هندسی لب …………………………………………………………………………………………………………… 16
شکل 2- 5 الگوی لب …………………………………………………………………………………………………………………….. 19
شکل 2- 6 فرآیند تولید منیفولد …………………………………………………………………………………………………….25
شکل 2- 7 (a) نتیجه درون­یابی منیفولد (b) نمونه­گیری دوباره از منیفولد درون­یابی شده با 20 نقطه کلیدی ……………………………………………………………………………………………………………………………………………26
شکل 2- 8 نمودار بلوکی برای استخراج ویژگی­های حرکت مبتنی بر شبکه ……………………………………….28
شکل 2- 9 استخراج ویژگی حرکت مبتنی بر کانتور ………………………………………………………………………….29
شکل 2-10 تصویر اصلی و چهار ناحیه پردازش شده برای استخراج ویژگی …………………………………………30
شکل 2-11 (الف) نقاط با رنگ و شکل مشابه در یک کلاس قرار می گیرند. (ب) گراف درون کلاس نقاط با برچسب یکسان را متصل می کند. (ج) گراف بین کلاس نقاط با بر چسب متفاوت را متصل می کند. (د) بعد از اعمال LSDA فاصله بین کلاس های متفاوت ماکزیمم شده می باشد……………………………………………………33
شکل 2- 12 سمت چپ منحنی بیزیر و سمت راست مدل لب …………………………………………………………….36
شکل 2- 13 زاویه گشودگی افقی 2α و زاویه گشودگی عمودی 1α ……………………………………………………..38
شکل 31 نتیجه حاصل از واکاوی ترکیب رنگ پوست و لب و نقاط گوشه لب ………………………………………..42
شکل 3-2 الگوریتم جداسازی ناحیه لب ………………………………………………………………………………………….46
شکل 4-1 آستانه گذاری با ترشلد 0.4 ………………………………………………………………………………………………55
شکل 4-2 آستانه گذاری با ترشلد 0.5 …………………………………………………………………………………………….55
شکل 4-3 بهره گیری از الگوریتم حذف رنگ قرمز با 0.5=β ……………………………………………………………….56
شکل 4-4 تصاویر مربوط به گوینده ها ………………………………………………………………………………………….. 57
شکل 4- 5 شکل لب استخراج شده بعد از اعمال الگوریتم ……………………………………………………………….58
شکل 4- 6 شکل لب استخراج شده بعد از برچسب­گذاری ……………………………………………………………….. 59
شکل 4-7 مستطیل محاطی لب …………………………………………………………………………………………………….. 60
شکل 4-8 مراحل محاسبه ضرایب مل ……………………………………………………………………………………………. 61
شکل 4-9 فیلتر بانک مثلثی …………………………………………………………………………………………………………. 63
شکل 4-10 ناحیه مورد نظر پیرامون لب ………………………………………………………………………………………….. 66
شکل 4-11 تعداد 25 فریم مربوط به کلمه خرس بعد از یافتن ناحیه مورد نظر …………………………………… 67
شکل 4-12 چگونگی اسکن زیگزاگ ماتریس ……………………………………………………………………………………….. 68
شکل 4-13 نتایج حاصل از ویژگی­ها + LSDA ………………………………………………………………………………..70
شکل 4-14 نتایج حاصل از تصاویر کوچک شده با مقیاس 0.5و تعداد 25 فریم…………………………………. 77
شکل 4- 15 نتایج حاصل از تصاویر کوچک شده با مقیاس 0.7و تعداد 25 فریم…………………………………. 78
شکل 4- 16 نتایج حاصل از ضرایب مختلف DCT با مقیاس 0.5 ……………………………………………………… 79
شکل 4-17 نتایج حاصل از ضرایب مختلف DCT با مقیاس 0.7………………………………………………………. 80


 
 
 
فصل اول : مقدمه
 
 
 
 
 
 
 
 

این مطلب رو هم توصیه می کنم بخونین:   پایان نامه ارشد کارشناسی ارشد رشته مهندسی برق الکترونیک گرایش قدرت:جبران سازی کمبود و بیشبود ولتاژ در شبکه‌های توزیع نیروی برق با استفاده از بازیاب دینامیکی ولتاژ مبتنی بر مبدل‌های چند سطحی با ساختار مدولار شده و اتصال آبشاری

1-1 مقدمه

از دیر باز بشر، با این واقعیت آشنا بوده می باشد که برای درک بهتر گفتار می­تواند به حرکات لب و دهان گوینده در حین گفتار و هنگام ادای کلمات توجه کند. احتمالاً همه ما به گونه ناخودآگاه تا حدی از این جنبه غیر صوتی گفتار بهره گیری کرده و هنگامی که محیط شنوایی، دچار همهمه و سر و صدا و آغشته به نویز صوتی می گردد، به حرکات لب گوینده توجه بیشتری می‌کنیم. این امر در مورد مخاطبینی که دارای نقص در سیستم شنوایی خود هستند از اهمیت بالاتری برخوردار می­باشد. ضمناً حرکات لب یا سیگنال تصویری گفتار می­تواند به گونه قابل ملاحظه­ای دقت سیستم­های تشخیص گفتار صوتی را خصوصاً در محیط­های نویزی بهبود بخشد. همزمان کردن حرکات لب و صدای گفتار، برطرف کردن خطای تأخیر بین صوت و تصویر و دوبله خودکار تصویری از دیگر کاربردهای این مقوله می­باشد.
افرادی زیادی هستند که دچار آسیب در سیستم صوتی بوده و به دلیل عدم برخورداری از صدای مناسب، قادر به برقراری ارتباط با دیگران نیستند این افراد معمولاً توانایی انجام صحیح حرکات لب به شکلی که برای تکلم لازم می باشد را داشته و در حالت ایده­آل می­توان با انجام لب­خوانی به مقصود آن­ها پی برد. گفتار بشری بارها و بارها به صورت صوتی و تصویری در طبیعت تکرار شده می باشد. گفتار صوتی به شکل موج تولید شده توسط گوینده و گفتار دیداری به حرکات لب و زبان و ماهیچه­هایی که در صورت می باشد تصریح دارد. در گفتار صوتی واحد اصلی واج[1] نامیده می­گردد. در حوزه تصویری واحد اصلی از حرکات دهان ویزم[2] نامیده می­گردد که کوچک‌ترین جزء دیداری صحبت می باشد. بسیاری از صداهای صوتی هستند که از نظر دیداری مبهم هستند این صداها به کلاس مشابه­ای گروه­بندی شده که یک ویزم را نشان می­دهد. یک نگاشت چند به یک بین واج­ها و ویزم­ها هست یعنی می­توان مجموعه­ای از واج­ها را در نظر گرفت که تأثیر مشابه­ای بر روی شکل دهان دارند. در جدول­های زیر گروه­بندی ویزم­ها در زبان انگلیسی و فارسی آورده شده می باشد [1] , [2].
جدول 1- 1 گروه­بندی ویزم­ها در انگلیسی

n,l 8 p,b,m 1
R 9 f,v 2
A 10 th,dh 3
E 11 t,d 4
I 12 k,g 5
O 13 sh,zh 6
U 14 s,z 7


جدول 1- 2 گروه­بندی ویزم­ها در زبان فارسی

1. ف، و 5. ر 9. آ
2. ث، س، ص، ز، ذ، ظ، ض 6.ج، چ، گ، ک، ن، ت، د، ی، ط 10. ٳ
3. ژ، ش 7. ای 11. ٱ
4. ب، پ، م 8. ٲ 12. او

به گونه کلی سه روش برای شناسایی صحبت هست شامل شناسایی صوتی صحبت[3]، شناسایی تصویری صحبت[4]، شناسایی صوتی و تصویری صحبت[5]، که در این­ پژوهش به شناسایی تصویری صحبت پرداخته می­­گردد.

1-2 ساختار پایان نامه

در فصل­های مختلف این پایان نامه روش­های شناسایی دیداری صحبت مطالعه شده می باشد. در فصل اول مقدمه­ای در مورد شناسایی گفتار اظهار گردید. در فصل دوم به مطالعه تحقیقات انجام شده در زمینه شناسایی دیداری صحبت و روش­های مختلف برای انجام این کار پرداخته شده می باشد. در فصل سوم روش­های مختلف جداسازی دهان از بقیه قسمت­های صورت معرفی شده می باشد تا با بهره گیری از این روش­ها بتوانیم علاوه برکوچک کردن اندازه تصاویر، از پیچیدگی­ و نیز ابعاد زیاد ویژگی­ها جلوگیری نماییم. در فصل چهارم چگونگی محاسبه و استخراج ویژگی­های فرکانسی – زمانی از ناحیه مورد نظر از دهان از فریم­های مختلف ویدیو و نیز عملکرد آن­ها با تغییر تعداد فریم­های انتخابی و سایز تصاویر با یکی از روش­های کاهش ویژگی نیز مطالعه شده می باشد. که این ویژگی­های استخراجی برای تشخیص به شبکه عصبی اعمال شده­اند و همچنین پایگاه داده­ای که ما در این پژوهش از آن بهره گیری نمودیم معرفی شده می باشد.
[1] phonem
[2] viseme
[3] Audio Speech Recognition
[4] Visual Speech Recognition
[5] Audio-Visual Speech Recognition
***ممکن می باشد هنگام انتقال از فایل اصلی به داخل سایت بعضی متون به هم بریزد یا بعضی نمادها و اشکال درج نشود اما در فایل دانلودی همه چیز مرتب و کامل و با فرمت ورد موجود می باشد***

متن کامل را می توانید دانلود نمائید

زیرا فقط تکه هایی از متن پایان نامه در این صفحه درج شده (به گونه نمونه)

اما در فایل دانلودی متن کامل پایان نامه

 با فرمت ورد word که قابل ویرایش و کپی کردن می باشند

موجود می باشد

تعداد صفحه :124
قیمت : 14700 تومان

***

—-

پشتیبانی سایت :       (فقط پیامک)        serderehi@gmail.com

در صورتی که مشکلی با پرداخت آنلاین دارید می توانید مبلغ مورد نظر برای هر فایل را کارت به کارت کرده و فایل درخواستی و اطلاعات واریز را به ایمیل ما ارسال کنید تا فایل را از طریق ایمیل دریافت کنید.

***  **** ***

 

دسته‌ها: مهندسی برق