عنوان : تشخیص گوینده در محیط شامل  چند گوینده با بهره گیری از ماشین بردار پشتیبان

دانشگاه صنعتی شاهرود

دانشکده برق و رباتیک

الکترونیک گروه

پایان نامه کارشناسی ارشد

عنوان:

تشخیص گوینده در محیط شامل  چند گوینده با بهره گیری از ماشین بردار پشتیبان

استاد راهنما:

دکتر حسین مروی

استاد مشاور:

دکتر حسین صامتی

برای رعایت حریم خصوصی نام نگارنده پایان نامه درج نمی گردد
(در فایل دانلودی نام نویسنده موجود می باشد)
تکه هایی از متن پایان نامه به عنوان نمونه :
(ممکن می باشد هنگام انتقال از فایل اصلی به داخل سایت بعضی متون به هم بریزد یا بعضی نمادها و اشکال درج نشود اما در فایل دانلودی همه چیز مرتب و کامل می باشد)
فهرست مطالب:
فصل اول: معرفی سیستم های تشخیص گوینده
1-1 –مقدمه………………………………………………………………………………………….2
1-2-مراحل مختلف کاری سیستم های تشخیص گوینده………………………………….6
1-2-1- قطعه بند آکوستیکی…………………………………………………………………..7
1-2-2-تشخیص گفتار از غیر گفتار………………………………………………………………..8
1-2-3-تشخیص جنسیت گوینده………………………………………………………………9
1-2-4-تشخیص تغییر گوینده………………………………………………………………….9
1-3-روش های بخش بندی و خوشه بندی گویندگان……………………………………..10
1-3-1-روش­های بر اساس فاصله…………………………………………………………………10
1-3-2-روش­های بر اساس مدل………………………………………………………………….11
1-3-3-روش­های هیبرید یا ترکیبی……………………………………………………………..11
1-4-خوشه بندی کردن…………………………………………………………………………11
1-5- اختصار………………………………………………………………………………………12
فصل دوم: تشخیص گفتار از نواحی غیرگفتاری
2-1-مقدمه…………………………………………………………………………………………14
2-2-ساختار قسمت تشخیص گفتار از غیر گفتار………………………………………16
2-2-1-پیش پردازش………………………………………………………………………….16
2-2-2-استخراج ویژگی………………………………………………………………………..17
2-2-2-1-انرژی……………………………………………………………………………….18
2-2-2-2-نرخ عبور از صفر……………………………………………………………………19
2-2-2-3- استخراج ویژگی به کمک ضرایب کپسترال فرکانسی در مقیاس مل………19
2-2-2-4- ضرایب LPC…………………………………………………………………
2-2-2-5- آنتروپی……………………………………………………………………………24
2-2-2-6- اندازه متناوب بودن………………………………………………………………26
2-2-2-7- اطلاعات زیر باند…………………………………………………………………28
2-2-2-8- سایر پارامترها……………………………………………………………………….28
2-2-3- محاسبه آستانه………………………………………………………………………..29
2-2-4- تصمیمات VAD………………………………………………………………………..
2-2-4-1- تصمیم گیری مبتنی بر مدل مخفی مارکوف…………………………………30
2-2-4-2- تصمیم گیری مبتنی بر شبکه های عصبی……………………………………31
2-2-5- تصحیح نتایج VAD……………………………………………………………
2-3- بلوک دیاگرام چند VAD استاندارد…………………………………………………….33
2-3-1-استاندارد ETSI AMR……………………………………………………………
2-3-2- الگوریتم GSM…………………………………………………………………….
2-4-اختصار……………………………………………………………………………………….35
فصل سوم: آشکارسازی تغییر گوینده
3-1-مقدمه………………………………………………………………………………………..37
3-2-بخش بندی گوینده………………………………………………………………………..38
3-2-1-بخش بندی بر اساس فاصله……………………………………………………..38
3-2-2-بخش بندی  بر اساس مدل……………………………………………………40
3-2-3-بخش بندی هیبرید…………………………………………………………………..40
3-3-مقایسه روش­های بخش بندی………………………………………………………40
3-4-روش­های متداول آشکارسازی گوینده…………………………………………..41
3-4-1- معیار اطلاعات بیزین( (BIC……………………………………………………
3-4-1-2- بخش بندی با بهره گیری از مدل آماری گوینده…………………………..42
3-4-2- ترکیب آماره T2 و BIC………………………….…………………………….
3-4-2-1- سرعت و بهره بیشتر در بخش بندی T2-BIC……………………...
3-4-3- فاصله نرخ درستنمایی عمومی((GLR…………………………………..
3-4-4-فاصله KL2…………………………………………………………………….
3-4-5- آشکارسازی تغییر گوینده با بهره گیری از DSD……………………
3-4-6- BIC متقاطع(Cross-BIC (XBIC))………………………………………..52
3-4-7-درستنمایی مدل مخلوط گوسی..(GMM-L) ………………………….53
3-5-اختصار…………………………………………………………………………….53
فصل چهارم: روش­های دسته­بندی
4-1-مقدمه…………………………………………………………………………..55
4-2-اجزا سیستم خوشه بندی………………………………………………….56
4-3-روش های خوشه بندی……………………………………………………57
4-3-1-روش های خوشه بندی سلسله مراتبی…………………………58
4-3-1-1-تکنیک­های خوشه­ بندی بالارونده………………………………….59
4-3-1-2-تکنیک­های خوشه ­بندی پایین رونده…………………………………..60
4-3-2-روش های خوشه بندی افرازی………………………………………….61
4-4- روش های خوشه بندی متداول در سیستم های خوشه بندی گوینده…..61
4-5- دسته­ بندی کننده ماشین­ های بردار پشتیبان……………………………….63
4-5-1- دسته ­بندی کننده­ ماشین بردار پشتیبان خطی……………………………63
4-5-1-1- دسته­ بندی کلاس­های جداپذیر………………………………………………………..63
4-5-1-2- دسته ­بندی کلاس­های جدا ناپذیر…………………………………………………….68
4-5-1-3- دسته­بندی داده­های چند کلاسه با ماشین­های بردار پشتیبان…………………71
4-5-2- ماشین­های بردار پشتیبان غیر خطی………………………………………72
4-6- اختصار………………………………………………………………………………………74
فصل پنجم: پیاده سازی و مشاهدات سیستم ترکیبی پیشنهادی
5-1-مقدمه…………………………………………………………………………………….76
5-2-ساختار سیستم پیاده سازی شده…………………………………………………….77
5-3-پایگاه داده……………………………………………………………………….80
5-4-استخراج ویژگی………………………………………………………………………82
5-5-معیار ارزیابی سیستم های تشخیص گوینده…………………………….84
5-6-نتایج آزمایشات…………………………………………………………………..88
5-6-1- اثر اعمال VAD بر روی سیگنال گفتار…………………………………….88
5-6-2- اثر تغییر طول پنجره VAD بر روی دقت سیستم………………..89
5-6-3- اثر تغییر طول پنجره BIC بر روی نتایج بخش بندی…………………..89
5-6-4-دقت.حاصل.از.بخش.بندی.بر.دو.نوع.از.دادگان با بهره گیری از MFCC………..
5-6-5-اثرتغییر.بردار.ویژگی.بر.روی.دقت.مرحله.بخش بندی………………….93
5-6-6-مقایسه.نتایج.مرحله.بخش­بندی.با.بکارگیری.بردارهای.ویژگی متفاوت………95
5-6-7-اثرجنسیت،گویندگان.برتشخیص.درست.مرزهای.بخش بندی………………96
5-6-8-دقت مرحله خوشه­بندی بکارگیری ماشین بردار پشتیبان(SVM) با بردار ویژگی MFCC…………
5-6-9-دقت مرحله خوشه بندی ماشین بردار پشتیبان با بکارگیری بردار ویژگی root-MFCC …………………
5-6-10- اثر تغییر نوع تابع کرنل ماشین بردار پشتیبان بر روی دقت مرحله خوشه­ بندی…………98
5-7-اختصار…………………………………………………………………………………..98
فصل ششم: جمع بندی و پیشنهادات
6-1-جمع بندی  و اختصار نتایج……………………………………………………….100
6-2-پیشنهادات………………………………………………………………………………101
منابع……………………………………………………………………………………………103
چکیده:
شناسایی گوینده یکی از موضوعات مطرح در بحث پردازش گفتار می باشد. شناسایی گوینده عبارت می باشد از فرآیندی که طی آن با بهره گیری از سیگنال صحبت تشخیص دهیم چه کسی چه موقع واقعا صحبت می کند. هدف طراحی سیستمی می باشد که بتواند تغییر در گوینده را مشخص نماید و گفتار هرگوینده را برای سیستم برچسب گذاری نماید. یعنی مشخص نماید که کدام گوینده، در چه بازه هایی صحبت کرده می باشد. امروزه این اقدام با یک عنوان جدید که هر دو فرآیند جداسازی و برچسب گذاری را در بر می گیرد بنام Speaker Diarization معروف گشته می باشد. هدف از بخش بندی تقسیم سیگنال گفتاری به بخش هایی می باشد که تنها شامل گفتار یک گوینده هستند و هدف از خوشه بندی نیز شناسایی بخش های گفتاری مربوط به یک گوینده و اختصاص یک برچسب واحد به آنهاست.
هدف از انجام این پایان نامه طراحی و پیاده سازی یک سیستم بخش بندی و خوشه بندی گوینده با بهره گیری از الگوریتم های جدید و همچنین  بهبود نتایج این الگوریتم ها برای این موضوع می باشد. این سیستم بایستی بطور صحیح نقاط تغییر گوینده را بدون دانستن اطلاعات قبلی از گوینده تشخیص داده و در نهایت تمام قسمت های صوتی مربوط به یک گوینده را در یک خوشه قرار می دهد.
در این پایان نامه، سیستم تشخیص گوینده، از سه مرحله اصلی تشکیل شده می باشد. درمرحله اول قسمت- های غیر گفتاری، از بخش های گفتاری فایل صوتی حذف می شوند، تا دقت و سرعت عملیات سیستم در مراحل بعدی افزایش پیدا کند. سپس فایل گفتاری به بخش هایی همگن که در آن فقط گفتار یک گوینده هست، تقسیم می گردد. در مرحله سوم با بهره گیری از خوشه بندی مناسب، بخش های گفتاری مرحله قبل، که متعلق به یک گوینده هستند، در یک خوشه جای می گیرند. جهت پیاده سازی سیستم از چهار نوع بردار ویژگی MFCC root-MFCC, TDC, و root-TDC و سه نوع پایگاه داده بهره گیری شده می باشد و دقت مرحله بخش بندی 80% بوده می باشد و دقت مرحله خوشه بندی نیز 59% با بهره گیری از ماشین بردار پشتیبان بدست آمده می باشد.
فصل اول: معرفی سیستم های تشخیص گوینده
امروزه داده های چند رسانه ای بخش قابل توجهی از دانش بشر را در بر می گیرند. حجم پرونده های چند رسانه ای آرشیو شده در موسسه های مختلف در سال های اخیر افزایش چشمگیری داشته می باشد. دسترسی و وضوح بالای این پرونده ها می تواند کمک شایانی به افرادی کند که در جستجوی اطلاعات باشند. پس عملیات جستجو و بازیابی اطلاعات در این حجم بالا کاری می باشد که خود احتیاج به سیستم کامپیوتری دارد. و درنتیجه یکی از حوزه های تحقیقاتی که به تازگی مورد توجه قرار گرفته می باشد، مربوط به ساختاربندی پرونده- های چند رسانه ای می باشد. در میان این داده ها، اطلاعات صوتی اهمیت بالاتری دارد. زیرا بخش اعظم آرشیوها حاوی داده های صوتی از گزارش های تلویزیونی، رادیویی و همچنین مکالمات تلفنی می باشد. در سالهای اخیر تحقیقات وسیعی در این حوزه آغاز شده و نتایج قابل قبولی نیز حاصل شده می باشد. از دیگر کاربردهای این حوزه در تشخیص مجرم، جدا کردن صحبت های مهم یک شاهد یا متهم در دادگاه و … میتوان تصریح نمود.
در کاربرد صوتی، عمده اطلاعات موجود در پرونده ها، صحبت های تعدادی گوینده می باشد و هدف از سیستم نهایی، پاسخ به این سوال می باشد که چه کسی در چه زمانهایی صحبت کرده می باشد؟ بخش های مختلف این حوزه تحقیقاتی به نامهای مختلفی مانند: قطعه بند گوینده ای[1]، تشخیص گوینده[2] ،رونویسی قوی[3]، و اندیس گذاری گوینده ای[4] نامیده شده اند. از چنین سیستم هایی برای جابجایی راحت در داده های صوتی، در فایل های صوتی طولانی (مانند: اخبار و ملاقات ها و جلسات یک شرکت و …) که متعلق به چند گوینده باشند بهره- برداری می گردد. مکالمات و محاسبات رادیویی طولانی از محیط هایی هستند که در آنها چند گوینده حضور داشته و با هم صحبت می کنند. هدف نهایی چنین سیستم هایی، پیاده سازی روش هایی مناسب برای افراز پرونده صوتی به نواحی می باشد که در آنها گوینده ای خاص صحبت کرده باشد. دسترسی راحت به بخش هایی از صحبت یک گوینده توسط این سیستم فراهم می گردد. با داشتن حجم بالایی از داده های صوتی اهمیت این سیستم ها بیشتر می گردد.
با افزایش تعداد مدارک متنی موجود در اینترنت، نیاز به تکنیک هایی نظیر فهرست نگاری متن به مقصود تسهیل دسترسی و جستجو در این مدارک افزایش پیدا نمود. نظیر همین نیاز نیز با افزایش تعداد مدارک صوتی نظیر سخنرانی ها، مصاحبه ها و گردهمایی ها و … ایجاد گردید. بطور مشخص دسترسی به مدارک صوتی بسیار سخت تر از دسترسی به متن می باشد و گوش دادن به یک فایل صوتی ضبط شده بیشتر از خواندن متن زمان بر می باشد و فهرست نگاری دستی مدارک صوتی در مقایسه با فهرست نگاری متن، مشکل می باشد. راه حل پیشنهادی جهت رفع این مشکل، فهرست نگاری خودکار مدارک صوتی[5] می باشد.
اولین بار سیستم هایی تشخیص گوینده توسط کمپانیNIST در سال 1999 ارایه گردید. در سال2001،  پلکان و سیدهارون به همراه گروهشان با بهره گیری از کم کردن اثر نویز بر روی سیگنال بهبودهایی در نتایج سیستم دادند و جداسازی بهتر گویندگان را باعث شدند. در سال 2005، بولیان  و کنی با بکارگیری بردارهای ویژگی دیگر (یا ادغام روش های قبلی) و بهره گیری از مدل های گوسی در سیستم نتایج متفاوتی بدست آوردند. در سال 2005 توسط یاماشیتا و ماتسوناگا با بهره گیری از ویژگی های سیگنال صوتی مانند فرکانس پیچ سیگنال، انرژی، فرکانس های ماکزیمم سیگنال، و سه ویژگی دیگر نتایج در قسمت بخش بندی گوینده این سیستم بهبود داده گردید.[1] و در سال های بعدی با انجام روش های مختلف برروی قسمت های متفاوت آن تا به امروز این سیستم ها در حال تکمیل شدن و بهتر شدن نتایج بوده اند.
هدف از این پایان نامه، طراحی و پیاده سازی سیستمی می باشد که بتواند در یک فایل صوتی که شامل گفتار چندین گوینده می باشد، تغییر در گوینده را مشخص نماید و تا حد امکان، گفتار هر گوینده را بدون دانستن اطلاعات قبلی از وی، دسته بندی نماید. این سیستم می تواند شامل دو بخش اساسی باشد که عبارتند از:
-بخش بندی گوینده
-خوشه بندی گوینده
کار قسمت بخش بندی[6]، تقسیم سیگنال گفتاری به سگمنت هایی می باشد که تنها شامل گفتار یک گوینده هستند. در مرحله خوشه بندی[7]، شناسایی و دسته بندی بخش های گفتاری مربوط به یک گوینده و اختصاص یک برچسب واحد به آن انجام می گردد. این مطلب در بسیاری از کاربردهای گفتاری که مربوط به بازشناسی یا فهرست نگاری[8] گفتار در محیطی که چندین گوینده ممکن می باشد در آن اقدام به سخن گفتن بنمایند، مانند یک جلسه، کنفرانس، اخبار و نظایر آن کاربرد دارد. این کار نه تنها می تواند به سیستم های بازشناسی گفتار پیشرفته جهت بهبود نتایج بازشناسی گروهی کمک نماید بلکه در شناسایی و متن نگاری مکالمه ها نیز به آنها کمک می نماید. همانطور که قبلا نیز ذکر گردید، امکان بهره گیری از آن در فهرست نگاری صوتی که امکان جستجو در فایل های صوتی را فراهم می نماید نیز ممکن می باشد. شکل (1-1) چگونگی کار این سیستم را بخوبی نشان می- دهد.
فایل صوتی مورد مطالعه یک صوت ضبط شده تک کاناله می باشد که شامل چندین منبع صوتی می باشد. این منابع صوتی  متفاوتند و می توانند شامل چند گوینده، موسیقی، انواع نویز و … باشند. نوع و جزییات منابع صوتی موجود در فایل به ویژگی کاربردی آن فایل بستگی دارد.
بطور کلی سیستم های بخش بندی و خوشه بندی گوینده در سه حوزه زیر دارای کاربرد می باشند:

  • دادگان اخباری
  • جلسات ضبط شده
  • مکالمات تلفنی

همانطور که قبلا نیز تصریح گردید این سه حوزه تفاوت هایی مانند کیفیت ضبط صوت (پهنای باند، میکروفون ها و نویز) و اندازه و نوع منابع غیرگفتاری، تعداد گویندگان، سبک و ساختار گفتار (طول مدت گفتار، ترتیب گویندگان) دارند و هر حوزه جهت کار بخش بندی و خوشه بندی گوینده، مسائل و معضلات خاص خود را دارد. البته در سیستم های تشخیص گوینده کوشش بر آن می باشد تا برای هر سه حوزه کاری، نتایج قابل قبول و مناسبی حاصل گردد.[1]
در سطح پایین تر کار چنین سیستمی دسته بندی داده های صوتی در خوشه هایی می باشد که هر یک متعلق به یک گوینده باشد. در همین جا به راحتی میتوان دید که دو دیدگاه ناظرانه[1] (با سرپرست) و غیر ناظرانه[2] (بدون سرپرست) در این بخش نظاره می گردد. در دیدگاه اول از پیش اطلاعاتی از اینکه چه کسانی در فایل صوتی صحبت می کنند، هست. اما در دیدگاه دوم کار سیستم دسته بندی فایل به بازه های زمانی می باشد که در آنها تنها یک گوینده که هویت آن بر ما پوشیده می باشد، صحبت می کند. توجه گردد که میتوان از خروجی یک دسته بند غیرناظرانه به عنوان ورودی سیستم های شناسایی[3]، بهره گیری نمود و به این ترتیب یک سیستم دسته بندی ناظرانه خواهیم داشت. پس کارایی و همچنین زمان اجرای سیستم ناظرانه بدست آمده بهتر می باشد. از سوی دیگر، عملکرد این سیستم ها، به اندازه اطلاعات قبلی مجاز نیز بستگی دارد. این اطلاعات قبلی می تواند نمونه گفتار از گویندگان، تعداد گویندگان موجود در فایل صوتی، یا اطلاعاتی از ساختار فایل ضبط شده باشد. اما در اکثر سیستم های بخش بندی و خوشه بندی گوینده فرض بر نبود هیچگونه اطلاعات قبلی راجع به گویندگان و تعداد آنهاست. در این پروژه نیز با روش های بکار گرفته شده، فرض بر اینست که هیچگونه اطلاعات قبلی از گویندگان، مانند تعداد آنها، هویت آنها و داده آموزشی موجود نمی باشد و پس مدل های گویندگان را نمیتوان از قبل آماده نمود. شکل (1-2) ساختار کلی سیستم های بخش بندی و خوشه بندی گوینده را نشان می دهد.
چنین سیستمی شامل مراحل کاری مختلفی می باشد و میتوان بخش های ذکر گردیده در قسمت های بعدی را برای آنها در نظر گرفت.
1.Supervised
2.Unsupervised
3.Identification
1.Speaker Segmentation
2.Speaker Diarization
3.Rich Transcription
4.Speaker Indexing
1 .Automatic Audio Indexing
[6] .Segmentation
[7] .Clustering
[8] .Indexing
تعداد صفحه : 116
قیمت : 14700 تومان

این مطلب رو هم توصیه می کنم بخونین:   سمینار کارشناسی ارشد رشته برق کنترل: طراحی کنترل بهینه سیستم های دور عملیات

بلافاصله پس از پرداخت لینک دانلود فایل در اختیار شما قرار می گیرد

و در ضمن فایل خریداری شده به ایمیل شما ارسال می گردد.

پشتیبانی سایت :        ****       serderehi@gmail.com

در صورتی که مشکلی با پرداخت آنلاین دارید می توانید مبلغ مورد نظر برای هر فایل را کارت به کارت کرده و فایل درخواستی و اطلاعات واریز را به ایمیل ما ارسال کنید تا فایل را از طریق ایمیل دریافت کنید.

***  **** ***

دسته‌ها: مهندسی برق