در ادامه مطلب می توانید تکه هایی از ابتدای این پایان نامه را بخوانید

دانشگاه آزاد اسلامی

واحد تهران جنوب

دانشکده تحصیلات تکمیلی

پایان نامه برای دریافت درجه کارشناسی ارشد

الکترونیک – مهندسی برق

عنوان:

به کارگیری ساختار آمیختار عصبی – آماری برای به هنجارسازی اطلاعات فرمنت ها در بازشناسی گفتار

برای رعایت حریم خصوصی اسامی استاد راهنما،استاد مشاور و نگارنده درج نمی گردد

تکه هایی از متن به عنوان نمونه :
(ممکن می باشد هنگام انتقال از فایل اصلی به داخل سایت بعضی متون به هم بریزد یا بعضی نمادها و اشکال درج نشود اما در فایل دانلودی همه چیز مرتب و کامل می باشد)
چکیده
علیرغم تاثیر مثبت حالت گفتار در انتقال مفهوم درست جمله به شنونده، این تغییر به سبب تحول بنیادینی که در پارامترهای گفتار ایجاد می نماید، موجب افت شدید نرخ بازشناسی گفتار با مدل های عادی می گردد. به مقصود رشد نرخ بازشناسی گفتار فارسی با حالت، از چند سال گذشته تحقیقاتی آغاز شده و در نخستین گام با افزودن فرمنت های اول تا سوم – یا شیب آنها – به انتهای بردار ویژگی نرخ بازشناسی گفتار کمی بهبود یافته می باشد.
در این گزارش آغاز با بهره گیری از شبکه های عصبی مصنوعی، فرمنت های گفتار با حالت را به فرمنت گفتار عادی به هنجار نموده و با اضافه کردن فرمنت به هنجار شده به انتهای بردار ویژگی، رشد نرخ بازشناسی نظاره شده می باشد. در ادامه با بهره گیری از نسبت فرمنت های گفتار با حالت به گفتار عادی در تکنیک های پیچش فرکانسی و به هنجارسازی طول لوله صوتی – به هنجارسازی گوینده – به صورت مستقیم، بلوک های سیستم بازشناسی گفتار را تغییر داده و با استخراج ضرایب جدید کپسترال، درصد جملات صحیح شناخته شده افزایش یافته می باشد.
مقدمه
بازشناسی خودکار گفتار (ASR) به فرایندی گفته می گردد که گفتار بشر را به متن یا فرمان معادل تبدیل می کند. این مسئله رایانه ها یا ماشین ها را قادر می سازد تا گفتار بشر را بشنوند و پیش روی آن واکنش مناسب نشان دهند، مسئله ای که منجر به برقراری ارتباط سریع و آسان با ماشین های اطراف شده و بشر را از دکمه ها و کلیدها برای برقراری ارتباط بی نیاز می سازد.
در حقیقت بازشناسی گفتار تبدیل یک سیگنال صوتی به رشته ای از لغات می باشد. این کار فرآیندی بسیار پیچیده می باشد که علت آن پیچیدگی اندام های تولید کننده و تشخیص دهنده گفتار در بشر و ناشناخته بودن چگونگی عملکرد آنهاست. مسائل مختلفی مانند تفاوت صدای کاربران مختلف، نوع اظهار کلمات، نویزها و شرایط محیطی، تعداد کلمات مورد نظر و معنی و مفهوم گفتار، پیچیدگی سیستم های تشخیص گفتار را تعیین می کنند.
از میان رویکردهای مختلفی که برای بازشناسی گفتار هست، رویکرد مبتنی بر بازشناسی الگو موفق ترین آنهاست و تقریبا تمامی سیستم های موفق امروزی براساس آن اقدام می کنند. در این رویکرد، گفتار به کمک تعدادی واحد آوایی (مانند کلمه، هجا، سه واجی یا واج) مدل می گردد و در بازشناسی نیز از تشخیص این واحدها و کنار هم قرار دادن آنها، متن متناسب با گفتار تشخیص داده می گردد. سیستم های بازشناسی گفتار با این رویکرد دارای دو فاز آموزش و آزمون می باشند که در فاز آموزش الگوهای مربوط به هر کلاس که همان واحدهای آوایی هستند، با بهره گیری از روش هایی مدلسازی می شوند. مقایسه گفتار ورودی با الگوهای آموزش داده شده جهت تشخیص واحدهای آوایی موجود در گفتار ورودی، در فاز آزمون انجام می گردد. در فاز آموزش معمولا دو نوع مدل آوایی و زبانی آماده می گردد که در فاز آزمون از آنها بهره گیری گردد. استخراج مدل های آوایی از روی دادگان گفتاری با بهره گیری از روش های مختلفی امکانپذیر می باشد که از مهمترین آنها می توان روش های مدل پیچش زمانی پویا یا DTW (که در گوشی های تلفن همراه برای شماره گیری صوتی با اظهار نام فرد به کار می رود)، شبکه عصبی مصنوعی و مدل مخفی مارکوف (HMM) را نام برد. از میان این روش ها، مدل مخفی مارکوف به نسبت سایرین موفق تر اقدام کرده و عمده سیستم های کاربردی امروزی از آن بهره گیری می نمایند.
یکی از ویژگی های مهم گفتار، حالت گفتار فرد می باشد. به بیانی دیگر انتقال حالت درونی فرد به شنونده در مکالمات اهمیت بسزایی دارد زیرا اگر حالت اظهار یک جمله تغییر کند، آن عبارت می تواند مفهوم متفاوت و یا حتی متناقض پیدا کند. اعمال حالت و یا تاکید به گفتار موجب تغییرات اساسی در پارامترهای استخراج شده از گفتار گردیده و بازشناسی گفتار با حالت را با چالشی بزرگ مواجه نموده و نرخ بازشناسی را کاهش می دهد.
برخلاف زبان انگلیسی که سابقه کار در زمینه بازشناسی گفتار برای آن به حدود پنج دهه پیش برمی گردد، کارهای انجام شده در این زمینه برای زبان فارسی قدمتی به اندازه کمتر از دو دهه دارد. شروع فعالیت های تحقیقاتی در زمینه بازشناسی گفتار روی زبان فارسی در داخل کشور به اوایل دهه 70 شمسی برمی گردد که عمده کارهای انجام شده نیز به صورت تحقیقات دانشگاهی پراکنده بوده می باشد. با تاسیس “پژوهشکده پردازش هوشمند علائم” در اواسط سال 1371 و شکل گیری پردازش گفتار به همراه گروهی جهت تهیه دادگان صوتی، جهشی نسبتا جدی به سوی داشتن چنین تکنولوژی برای زبان فارسی صورت گرفت. تهیه دادگان های گفتاری مختلف مانند فارس دات (FarsDat) برای محیط عادی در سال 1375 و برای گفتار تلفنی (TFarsDat) در سال 1378 از کارهای اساسی این پژوهشکده در این زمینه بوده می باشد.
از چند سال قبل تحقیقات مستقلی در خصوص بازشناسی گفتار فارسی با حالت در دانشکده تحصیلات تکمیلی دانشگاه آزاد اسلامی – واحد تهران جنوب آغاز شده و با آماده سازی دیتابیس اختصاصی از گویندگان متفاوت، گام های مهمی در این تکنیک نوظهور برداشته شده می باشد. در این گزارش کوشش گردیده تا با بهره گیری از نتایج تجربیات و پروژه های پیشین و افزودن ویژگی های جدید به سیستم بازشناسی، نرخ بازشناسی این نوع از گفتار بهبود یابد.
هدف ما در این پروژه توسعه سیستم های آمیختار برای به هنجارسازی فرمنت ها در بازشناسی گفتار با حالت می باشد. در طراحی بخش شبکه عصبی از شبکه MLP برای نگاشت فرمنت های مختلف بهره گیری کرده و با مقایسه عملکرد، بهترین روش انتخاب شده می باشد. برای آموزش و آزمون نیز از دادگان تهیه شده در دانشکده تحصیلات تکمیلی واحد تهرا نجنوب که مبتنی بر جملات فارس دات می باشد، بهره گیری گردیده می باشد.
ساختار این گزارش به صورت اختصار به این تبیین می باشد: در فصل اول به پیشینه این پژوهش تصریح گذرایی خواهد گردید. در فصل دوم تبیین مختصری درمورد انواع فایل هایی که در این پژوهش بهره گیری خواهیم نمود، ارائه می دهیم. در فصل سوم به چگونگی هنجارسازی فرمنت ها و بهره گیری از نتیجه به دست آمده در سیستم بازشناسی گفتار مورد مطالعه قرار می گیرد. در فصل چهارم با بهره گیری از نتایج فصل سوم، روش های مختلف پیچش فرکانسی مطالعه شده و ضرایب کپسترال جدید باز تولید خواهد گردید. در فصل پنجم نیز در مورد روش های ذکر گردیده نتیجه گیری صورت گرفته می باشد. در فصل ششم، متن کامل کدهای نوشته شده برای این پژوهش ضمیمه گردیده می باشد.
تعداد صفحه : 100
قیمت : 14700 تومان

 

این مطلب رو هم توصیه می کنم بخونین:   دانلود پایان نامه مهندسی برق : شبیه سازی و کنترل یک سیستم تولید توان ترکیبی پیل سوختی/باطری/ ابر خازن

***

—-

پشتیبانی سایت :       

****         serderehi@gmail.com

دسته‌ها: مهندسی برق

دیدگاهتان را بنویسید