در ادامه مطلب می توانید تکه هایی از ابتدای این پایان نامه را بخوانید

دانشگاه آزاد اسلامی

واحد تهران جنوب

دانشکده تحصیلات تکمیلی

“M.Sc” پایان نامه برای دریافت درجه کارشناسی ارشد

مهندسی برق – الکترونیک

عنوان:

ارتقای فشرده سازی سیگنال گفتار با بهره گیری از چندی کننده های برداری عصبی

برای رعایت حریم خصوصی اسامی استاد راهنما،استاد مشاور و نگارنده درج نمی گردد

تکه هایی از متن به عنوان نمونه :
(ممکن می باشد هنگام انتقال از فایل اصلی به داخل سایت بعضی متون به هم بریزد یا بعضی نمادها و اشکال درج نشود اما در فایل دانلودی همه چیز مرتب و کامل می باشد)
چکیده
پارامترهای کدکردن براساس پیشبینی خطی یا ضرایب LPC بطور گسترده در فشرده سازی سیگنال گفتار مورد بهره گیری قرار میگیرد. از سوی دیگر، شبکه های عصبی مصنوعی به عنوان سیستم هوشمندی هستند که میتوانند در سیستمهای خطی و غیرخطی مانند کدینگ گفتار و تصویر بکار طریقه. در این پژوهش دو نمونه از شبکه های عصبی مبتنی بر تکنیک چندی سازی برداری به نامهای شبکه کوهنن و ARTMAP معرفی میشوند، که از آنها برای دسته بندی بردارهای حاصل از پردازش سیگنال گفتار ورودی بهره گیری میشود، در این تکنیک با بهره گیری از زوجهای خط طیفی (LSP) بعنوان یک پارامتر قابل جایگزینی بجای ضرایب LPC میتوان نرخ بیت را کاهش داد در حالیکه کیفیت گفتار سنتز شده تقریباً حفظ میشود و این بدلیل این می باشد که وقتی از پارامترهای LSP بهره گیری میشود، فرکانس های فرمنت (Formant) خوبی بدست می آید که مشابه فرکانسهای اصلی سیگنال گفتار میباشد. با این روش، نرخ بیت با در نظر داشتن واکدار یا بی واک بودن قاب گفتار مربوطه بین 2 تا 33 درصد کاهش می یابد. همچنین در این پژوهش شبکه های عصبی کوهنن و نظریه تشدید تطبیقی به عنوان دو شبکه عصبی بدون سرپرست و روش چندی سازی بردارهای یادگیری به عنوان یک شبکه عصبی با سرپرست معرفی و نتایج حاصل از هریک با هم مقایسه میشوند. نمونه های صوتی بکار رفته نیز به زبان فارسی میباشند.
مقدمه
اخیراً اکثر تکنیک هایی که برای فشرده سازی سیگنال گفتار بکار میروند، براساس پیش بینی خطی ساختار یافته اند. سیگنال گفتار بعنوان یک ابزار مهم در ارتباطات بشر در فناوری های دیجیتالی مورد توجه خاص قرار گرفته می باشد. نرخ بیت سیگنال گفتار ارسال شده بایستی کاهش یابد. سیگنال گفتار یک سیگنال پیوسته و غیرخطی بوده که بصورت فیزیکی توسط لوله صوتی بشر تولید و شکل داده میشود، پس ویژگی های سیگنال گفتار به حرکات لوله صوتی در طول زمان و همچنین مشخصات گوینده بستگی دارد. تبدیل پارامترهای LPC به LSP کارایی کدکننده های با نرخ بیت کم را بهبود میبخشد.
پارامترهای LSP فرکانس های فرمنت لوله صوتی را بصورت ریاضی مدلسازی میکنند. ازسوی دیگر شبکه های عصبی به عنوان ابزاری موفق تاکنون در کاربردهای گوناگونی از پردازش گفتار و زبان مورد بهره گیری قرار گرفته اند. در این راستا کاربردهای بازشناسی خودکار گفتار (ASR)، سنتز گفتار طبیعی و پردازش زبان طبیعی (NLP) به عنوان نمونه هایی که توسط مؤلف برای زبان فارسی تجربه شده اند، قابل ذکر می باشد. برای کدکننده های گفتار نیز شبکه های عصبی در حوزه کاری مورد بهره گیری قرار گرفته اند: پیش بینی کننده های نورونی برای بهبود کیفیت و کاهش پیچیدگی محاسباتی در کدکننده ها. در این پژوهش یک روش جدید برای کد کردن گفتار با نرخ بیت کم معرفی میشود که از پارامترهای LSP برای استخراج و نگاشت ویژگیهای سیگنال گفتار با بهره گیری از نوعی شبکه عصبی مصنوعی بنام شبکه خود سازمانده (SOM) بهره گیری می ‌کند. بهره گیری از این روش نرخ بیت گفتار بازسازی شده را کاهش می دهد، در حالی که کیفیت سیگنال تفاوت آشکاری با گفتار اصلی ندارد. برای اندازه گیری کیفیت گفتار سنتز شده از معیار میانگین امتیاز آرا داده شده (MOS) بهره گیری می گردد.
فصل اول: کلیات
1-1) هدف
یکی از ابزارهای ارتباطی بشر، گفتار می باشد. سیستمهای ارتباطی جدید و پیشرفته بطور گستردهای براساس پردازش و ارسال گفتار بنا نهاده شده اند. خطوط تلفن دیجیتال، شبکه های اینترنت، ویدیو کنفرانسها و پیام های صوتی تنها تعدادی از کاربردهای روزمره چنین سیستمهایی می باشد. با وجود چنین کاربردهای وسیعی، ناگزیر نیاز به گفتاری باکیفیت بالا در پهنای باند ارسال کمتر هست. کار اصلی کدکننده های گفتار پیشرفته، رقمی کردن سیگنال گفتار آنالوگ با بهره گیری از فرآیند نمونه برداری می باشد. پس یک کدکننده برای تولید شکل کدشده از یک سیگنال گفتار، یک دنباله ی عددی را پردازش می ‌کند. گفتار کد شده بسته به کاربردی که دارد، ارسال یا ذخیره میشود. کار هر واکدکننده نیز بازسازی گفتار اصلی از دنباله های کدشده می باشد. کد کردن گفتار یک فشرده سازی همراه با اتلاف می باشد، یعنی مقداری از کیفیت سیگنال گفتار اصلی در طی عملیات فشرده سازی به ازای کاهش حجم اطلاعات و افزایش سرعت ارسال، کاسته میشود. برای بهبود کیفیت گفتار فشرده شده روشهای مختلفی هست، در این پژوهش، از یک شبکه عصبی با قابلیت خودسازماندهی برای این کار بهره گیری شده می باشد. از این شبکه عصبی مصنوعی همان گونه که تبیین داده خواهد گردید، برای دسته بندی بردارهای حاصل از پردازش گفتار بهره گیری میشود. دسته بندی بردارهای بدست آمده از پردازش و چندیسازی گفتار باعث کاهش بیت های بکار رفته در گفتار کد شده و در نتیجه فشرده سازی بیشتر آن میشود، در حالی که کیفیت گفتار حاصل بر اساس معیارهای MOS حفظ می گردد.
تعداد صفحه : 102
قیمت : 14700 تومان

 

این مطلب رو هم توصیه می کنم بخونین:   سمینار ارشد مهندسی برق: لیزر و تمام نگاری و کاربردهای لیزر

***

—-

پشتیبانی سایت :       

****         serderehi@gmail.com

دسته‌ها: مهندسی برق

دیدگاهتان را بنویسید