دانلود مقاله در مورد صحت گفتار
دسته بندي :
مقاله »
مقالات فارسی مختلف
لینک دانلود و خرید پایین توضیحات
دسته بندی : وورد
نوع فایل : word (..doc) ( قابل ويرايش و آماده پرينت )
تعداد صفحه : 138 صفحه
قسمتی از متن word (..doc) :
2
فصل اول مقدمه:
صحت و گفتار نقش اساسي در ارتباط انسانها ايفا ميكنند و يكي از دلايل پيشرفت انسانها است.
براي برقراري ارتباط كامپيوتر با انسان بوسيلة گفتار در كار لازم است انجام شود. يكي سنتزل گفتار است. و ديگري بازشناسي گفتار، سنتز گفتار بيان گفتار بوسيلة كامپيوتر ميباشد و بازشناسي يعني فهميدن گفتار در بازشناسي گفتار. هدف بدست آوردن دنبالة آوايي يك گفتار ميباشد و اين دنبالة آوايي ميتواند بر اساس واج، سيلاب، كلمه، جمله و ... باشد. بازشناسي گفتار عكس عمل سنتز است و گفتار را به متن تبديل ميكند. اما انجام بازشناسي گفتار به دليل خاصيت صداي انسانها، داراي پيچيدگيهاي زيادي است. اما اغلب بازشناسي كامل و درست غير ممكن است. حتي خود انسانها هم نميتوانند به طور كامل همه صداها را بفهمند و ميزان، درك گوش انسانها حدود 70% ميباشد. شكل 1-1 ارتباط گفتاري بين انسانها و كامپيوتر را نشان ميدهد. به دليل نقش مهم و كاربردهاي فراواني كه بازشناسي گفتار دارد، تحقيقات و مقالههاي زيادي در اين زمينه انجام شده و راه حلهاي متفاوتي پيشنهاد شده است، ولي بازشناسي گفتار كاملاً درست هنوز امكانپذير نميباشد.
بازشناسي گفتار داراي كاربردهاي زيادي است. از جمله كاربردهاي بازشناسي گفتار، حل مشكل تايپ است، با كمك بازشناسي گفتار ميتوان جملهها را يكي پس از ديگري خواند و كامپيوتر آنها را تايپ كند. يكي ديگر از كاربردهاي بازشناسي گفتار، حل مشكل صحبت دو فرد مختلف همزبان است. يكي از مشكلات انسانها ارتباط با افرادي است كه با زبانهاي متفاوت صحبت ميكنند. ارتباط بدون دانستن زبان مشكل است. و يادگيري يك زبان ديگر كار وقت گير و پر زحمتي است ولي به كمك بازشناسي گفتار به يادگيري زبانهاي مختلف احتياجي نخواهد بود و ميتوان با يك دستگاه كوچك با فردي كه با زبان ديگري صحبت ميكند، صحبت نمود. يك كامپيوتر كوچك صداي شما را گرفته و به تعدادي از كلمات تبديل مينمايد. سپس اين كلمات به زبان ديگر ترجمه شده و در نهايت با زبان جديد گفته ميشوند. دو مرحلة آخر اين سيستم جزو مسايل انجام شده گفتار هستند و با كامل نمودن مسئله بازشناسي گفتار بدون دانستن زبان
2
هاي ديگر به آنها تكلم نمود.
شكل 1-2 نشان دهنده ارتباط دو فرد با زبانهاي مختلف است. يكي از كاربردهاي ديگر بازشناسي گفتار، برقراري ارتباط با كامپيوتر است. همان گونه كه به انسانهاي ديگر دسترس ميدهيد، به كامپيوتر هم ميتوان دستور داد و با آن صحبت كرد. يا حتي ميتوانيد از او بخواهيد كاري برايتان انجام دهد.
حتي با كمك بازشناسي گفتار ميتوان به انسانهاي نابينا و ناشنوا كمك كرد. به طور مثال نابينايان ميتوانند با صحبت كردن و دادن دستور به كامپيوتر با آن كار كنند.
از دستاوردهاي جديد بازشناسي گفتار و پردازش مدت كاربرد آن در آموزشهاي زبان دوم ميباشد. بدين ترتيب كه با ايجاد سيستميكه قابليت آشكارسازي خطاي تلفظ بين لهجههاي زبان اصلي و لهجة يك فردي كه به زبان دوم فرد سخن ميگويد، وي را در يادگيري و تصحيح تلفظ و لهجه آن زبان كمك نميكنند.
بازشناسي گفتار ميتواند براي شرايط مختلفي انجام گيرد. هر كدام از اين شرايط ميتوانند باعث مشكل شدن، پيچيدگي بازشناسي شوند. يكي از اين شرايط، وابسته بودن بازشناسي به يك گوينده يا مستقل بودن آن از گوينده است. مستقل بودن از گوينده به معناي آن است كه بتوان كار بازشناسي را براي هر فرد انجام داد. از ديگر شرايط بازشناسي گسسته يا پيوسته بودن گفتار است. راحتي بازشناسي گفتار گسسته، داشتن ابتدا و انتهاي عصر كلمه يا اساساً خود كلمه يا همان واحد آوايي ميباشد. همچنين از ديگر شرايطي كه در بازشناسي مطرح است،تعداد واژگان ميباشد. يعني بازشناسي گفتار براي چه تعداد كلمهاي صورت ميپذيرد.
هدف از انجام پروژة فوق در ابتدا بازشناسي كلمات گسسته قراني و در مرحلة دوم ارزيابي نحوة بيان و تلفظ كلمات قرآني ميباشد. از آنجائيكه براي مقايسه بين كلمة ادا شده توسط كاربر و صداي استاد بايد يك سيستم بهينه وجود داشته باشد. در مرحلة اول سعي ميكنيم، سيستم را به حالت بهينه خود برسانيم و سپس پارامترهاي اين سيستم جهت انجام مرحلة دوم استفاده كنيم.
3
اما چون در هنگام ارزيابي نحوة بيان كلمه قرآني، كلمه مورد نظر از قبل مشخص است، بناباين در مرحله دوم احتياجي به بازشناسي گفتار نميباشد.
در بخش اول براي بهتر درك كردن مفهوم بازشناسي به بررسي سيستم توليد صوت و شنوايي انسان ميپردازيم. سپس وارد مفاهيم بازشناسي گفتار خواهيم شد. در اين مرحله روشهاي جداسازي سيگنال زمينه از روي سيگنال صحبت مورد بررسي قرار ميگيرد. سپس نحوة استخراج ماتري ضرائب كپستروم و در نهايت بازشناسي گفتار بوسيلة الگوريتم انحراف زماني پويا (DTU) و مدل مخفي ماركوف مورد بررسي قرار ميگيرد.
پس از آشنايي با ابزارهاي بازشناسي گفتار، نحوة پياده سازي الگوريتمهاي فوق ذكر خواهد شد. بعد از راهاندازي سيستم بازشناسي گفتار كلمات مقطع، بوسيلة الگوريتم DTN مشاهده شد نرخ بازشناسي گفتار پائيني است و حدود %47 ميباشد. از اين رو در جهت بهبود پارامترهاي سيستم و بهينه كردن آن در مراحل بازشناسي و پارامترهاي آن تغييراتي داده شد، كه به ذكر آنها پرداخته خواهد شد.
پس از بهينه كردن پارامترهاي سيستم بازشناسي گفتار و رسانيدن نرخ بازشناسي گفتار به 99% براي 20 كلمه قرآني الگوريتمهاي ارزيابي نحوة بيان بوسيلة روش DTA بحث خواهد شد.
در بخش انتهايي به بررسي مدل مخفي ماركوف خواهيم پرداخت. سپس مراحل پياده سازي الگوريتم فوق بوسيلة نرم افزار و نكات عملي آن گفته خواهد شد. در نهايت سيستم بازشناسي گفتار كلمات مقطع قرآني و نحوة پياده سازي آن مورد بررسي قرار خواهد گرفت و در مرحلة بعدي الگوريتم ارزيابي نحوة بيان بوسيلة ذكر خواهد شد.
تغيير محيط اكوستيكي روي نتيجه بازشناسي اثر خواهد گذاشت. از آنجائيكه سيستم فوق براي نمونههاي آزمايشگاهي آموزش داده شده با تغيير محيط اكوستيكي مطمئناً نتايج بازشناسي تغيير خواهد كرد و نمونههاي واقعي داراي نوين ميكروفن، محيط و همچنين برگشت صدا خواهند بود.
5
در انتها به بررسي سيستمهاي بهبود گفتار خواهيم پرداخت، هدف از اين بخش حذف هزينه ورودي از طريق ميكروفن و از بين بردن تأثيرهاي محيط بر روي سيگنال صدا ميباشد.
در اين بخش به دو روش اشاره خواهيم: ابتدا روش spectral subtraction
كه به ميزان يك روش عمدي براي حذف نويز ميرود ذكر خواهد شد.
سپس به معرفي يك الگوريتم جديد در حذف نويز ميكروفن خواهيم پرداخت.
مدل اعضاي صوتي انسان
در شكل (1-2) يك دياگرام شماتيك از مكانيزم توليد صحبت انسان نشان داده شده است. هنگام صحبت معمولي، قفسه سين با فشار وارد كردن به ششها باعث ميشود كه هواي فشرده از ششها از طريق حنجره بيرون رانده شود. تارهاي صوتي كه درست در پشت غدة تيروئيد قرار گرفتهاند، اگر تحت تنش قرار گيرند، با عبور هوا مرتعش ميشوند و بدين ترتيب هوا نيز متناسب با فركانس ارتعاش تارهاي صوتي مرتعش شده و در اين حالت حروف صدادار توليد ميگردند.
اگر تارهاي صوتي از هم جدا شوند، جريان هوا از درون فاصلة بين تارهاي صوتي عبور ميكند و تأثير آن ايجاد نميشود. جريان هوا سپس از فضاي حلق عبور نموده و بسته به موقعيت دريچة تنظيم عبور هوا از دهان يا بيني از فضاي اين دو عبور مينمايد. جريان هوا از طريق دهان و بيني يا هر دو مشتركاً به بيرون داده ميشود و هنگام صحبت اين كاملاً قابل حس كردن است.
در حالت توليد حرف بي صدا مانند «س» يا «پ» تارهاي صوتي در هم باز ميشوند و يكي از دو حالت زير غالب است. يا يك جريان مغشوش هوا توليد ميشود، هنگاميكه هوا از درون فضاي نيمه بسته باريك در نقطهاي از اعضاي صوتي عبور ميكند (مانري) و يا يك تحريك گذري مختصر بدنبال ايجاد فشار پشت يك نقطة كاملاً بسته در اعضاي صوتي انسان اتفاق ميافتد (مانند p).
وقتيكه جز جز كنندههاي مختلف مانند زبان، لبها، آروارهها و پردة تفكيك بيني و دهان در حين صحبت مدام حالتشان عوض ميشود. شكل قسمتهاي مختلف فضاي داخل ناخيه صوتي تغيير مي