Speech recognition सिस्टम म्हणजे काय 2021

speech  recognition:- चला तर मित्रांनो आपल्या ज्ञात भर म्हणून आज एक लेख घेऊन आलो आहे  सिस्टीम म्हणजे काय? जी आपण बगीतली पण असावी किंवा हा शब्द कुठे तरी एकला पण असावा speech  recognition सिस्टीमही एक अशी प्रणाली आहे.

जी आपण  बोललेला आवाज सहजपणे समजू शकते आणि त्यानुसार कार्य करते. यामध्ये हे यंत्र अशा प्रकारे प्रोग्राम केलेले आहे की ते बोलल्या गेलेल्या शब्दांचा अर्थ समजू शकेल आणि त्याचा योग्य अर्थ लावू शकेल आणि त्या प्रमाणे त्या गोष्टी करू शकेल किंवा त्या प्रमाणे आपल्याला हव्या असलेल्या योग्य पर्याय निवडण्यास मद्दत करू शकेल.

speech recognition सिस्टीम म्हणजे काय?

Voice recognition सिस्टम म्हणजे काय (मराठी  भाषण ओळख)

speech  recognition सिस्टीम म्हणजे काय आणि ती कशी काम करते हे तुम्हाला माहिती आहे का. यासोबतच आज आम्ही तुम्हाला या तंत्रज्ञानाचे फायदे आणि तोटे काय आहेत ते सांगणार आहोत. मी तुम्हाला त्याचा इतिहास देखील सांगेन. आज आम्ही तुम्हाला ही सर्व माहिती आपल्या मराठी भाषेत देणार आहोत, चला तर मग जाणून घेऊया.

speech  recognitionला स्पीच रेकग्निशन असेही म्हणतात. हा एक संगणक सॉफ्टवेअर प्रोग्राम आहे, तो एक हार्डवेअर उपकरण देखील आहे ज्यामध्ये मानवी आवाज समजण्याची क्षमता आहे.स्पीच रेकग्निशन हे एक असे तंत्रज्ञान आहे, जे आपण बोललेले शब्द इनपुट म्हणून घेते आणि त्या शब्दांचे डिजिटल स्वरूपात रूपांतर करते, ते समजून घेते आणि त्यावर कृती करते.

What is a Speech recognition? in Marathi

मोबाईल फोन ऑपरेट करण्यासाठी, मोबाईलला कमांड देण्यासाठी आणि आवाजाद्वारे शोधण्यासाठी या तंत्रज्ञानाचा वापर केला जातो. यामध्ये तुम्हाला कोणताही कीबोर्ड, माउस वापरण्याची गरज नाही आणि तुम्हाला कोणतेही बटण दाबण्याची गरज नाही. यासाठी ASR (ऑटोमॅटिक स्पीच रिकग्निशन) नावाचा प्रोग्राम वापरला जातो. यासाठी तुम्हाला ASR प्रोग्रामचे प्रशिक्षण (शिकवणे) आवश्यक आहे.

ज्याच्या मदतीने तो तुमचा आवाज ओळखेल आणि तुमच्या प्रश्नांची उत्तरे देईल आणि तुम्ही कोणतेही काम करण्याची आज्ञा दिली असेल तर ते काम दाखवेल. उदाहरण घ्या, तुम्ही म्हणाल “Whats app उघडा” मग मोबाईल तुमची दिलेली आज्ञा समजेल आणि व्हॉट्स अॅप उघडेल.या तंत्रज्ञानाचे उत्तम उदाहरण म्हणजे “गुगल असिस्टंट” हे गुगलचे अॅप्लिकेशन आहे. SIRI हे आवाज ओळख तंत्रज्ञान सॉफ्टवेअरचे देखील एक उदाहरण आहे.

हे ऍपलचे ऍप्लिकेशन आहे. स्पीच रेकग्निशनने चालणारी अनेक सॉफ्टवेअर्स तुम्हाला मार्केटमध्ये मिळतील. यातील बहुतेक व्हॉईस रेकग्निशन तंत्रज्ञान बायो मॅट्रिक्स, ऑफिस, मेडिकलमध्ये वापरले जाते. तर आता ते कसे काम करते ते जाणून घेऊया..

आवाज ओळख तंत्रज्ञान कसे कार्य करते? |How does voice recognition technology work?

ते कसे कार्य करते हे जाणून घेणे खूप महत्वाचे आहे. जेव्हा तुम्ही काही बोलता, तेव्हा तुमचे शब्द ऑन-स्क्रीन-टेक्स्ट (तुम्ही म्हणता ते मोबाइल स्क्रीनवर दिसेल) किंवा कमांडमध्ये रुपांतरित करण्यासाठी speech  recognitionला अनेक जटिल पायऱ्या पार कराव्या लागतात.

जेंव्हा तुम्ही काही बोलता तेंव्हा एक कंपन निर्माण होते. हे कंपन एनालॉग सिग्नलशिवाय दुसरे काहीही नाही. अॅनालॉग लहरींना डिजिटलमध्ये रूपांतरित करण्यासाठी मोबाइल किंवा संगणक ADC अनुवादक वापरतात. तुम्हाला हे माहित असलेच पाहिजे की संगणक फक्त डिजिटल सिग्नल समजतो.

ADC अॅनालॉगला डिजिटलमध्ये रूपांतरित करण्यासाठी या सर्व पायऱ्या फॉलो करते. विशिष्ट अंतराने ध्वनी लहान नमुन्यांमध्ये विभागतो. तो आवाज डिजिटाइझ करतो. डिजिटाइझ साउंड वेव्ह फिल्टर करून सिस्टम अवांछित आवाज काढून टाकते.

तसेच, आवाज सामान्य करून, आवाज स्थिर पातळीवर नेला जातो. ध्वनीची पातळी स्थिर ठेवण्याची गरज आहे कारण प्रत्येकजण त्याच वेगाने उच्चारत नाही. तथापि, साउंड सिस्टम मेमरीमध्ये आधीपासून असलेल्या ध्वनीशी इनपुट ध्वनी सहजपणे जुळतो.

यानंतर हे ध्वनी लहान भागांमध्ये विभागले जातात आणि लहान भाग म्हणजे आठवा भाग किंवा 1 सेकंदाचा हजारवा भाग. ज्याच्या सहाय्याने ही काही अक्षरे P, B, T सारखी सहज ओळखता येतात कारण ती समजणे आपल्यासाठी सोपे असते परंतु संगणक आणि स्मार्टफोनच्या क्षेत्रात हे खूप अवघड काम असते. म्हणूनच ते अशा लहान भागांमध्ये विभागले गेले आहे.

आता शेवटची पायरी बाकी आहे, या ध्वनींचे छोटे तुकडे सिस्टीममध्ये साठवलेल्या डिजिटल सिग्नलशी जुळतात. जसा ‘G’ सिग्नलचा सामना G, O बरोबर O, D बरोबर D आहे.

जर तुम्ही या तिन्हींचे मिश्रण केले तर तुम्ही “देव” व्हाल. जर आपण गुगल असिस्टंटबद्दल बोललो तर त्यात देव हा शब्द बोलल्याने देवाचा अर्थ दिसून येतो. तर आता काही speech  recognition सॉफ्टवेअरच्या उदाहरणाबद्दल बोलूया. ,

speech  recognition सॉफ्टवेअरची उदाहरणे

यामध्ये आपण 1 स्पेशल ऍप्लिकेशन बद्दल बोलू जे “speech  recognition टेक्नॉलॉजी” ऍप्लिकेशनद्वारे चालते.

Google सहाय्यक

हे लोकांचे आवडते अॅप्लिकेशन आहे. हे असिस्टंट गुगलने विकसित केले आहे. याची घोषणा मे २०१६ मध्ये Google I/O परिषदेत करण्यात आली होती. यामध्ये तुम्ही टू वे कन्व्हर्जन करू शकता, म्हणजे तुम्ही तुमच्या मितभाषी  जमेल तसे बोलू शकता. आणि तुम्ही तुमच्या मोबाईलला हात न लावता चालवू शकता.

आता तुमच्या मनात प्रश्न आला असेल की हे ऍप्लिकेशन काय करू शकते. तर खाली काही कमांड्स आहेत ज्या तुम्ही Google Assistant मध्ये वापरू शकता. तुम्हालाही लगेच उत्तर मिळेल. लक्षात ठेवा, सर्वप्रथम, मोबाइलमधील होम बटण दाबून, खाली दिलेल्या सर्व कमांड्स वापरा. किंवा ओके गुगल बोलून ते वापरा.

Google सहाय्यक आदेश

whats The Temperature: या कमांडद्वारे तुम्हाला संपूर्ण दिवसाचे तापमान आणि हवामानाची माहिती मिळते. मला गेट ऑफ इंडिया ची  दिशा दाखवा: हा आदेश तुम्हाला तुमच्या स्थानापासून गेट ऑफ इंडिया पर्यंतचा सर्वात लहान मार्ग Google Map मध्ये दाखवेल. तुम्हाला हवे असेल तर तुम्ही गेट ऑफ इंडिया ऐवजी दुसरे नाव देखील घेऊ शकता.

प्ले म्युझिक: तुम्हाला गाणी ऐकायला नक्कीच आवडत असेल, म्हणूनच. ही आज्ञा फक्त तुमच्यासाठी आहे. ‘प्ले म्युझिक’ बोलताच मोबाईलमध्ये गाणे वाजू लागेल. तुम्हाला हवे असल्यास, तुम्ही प्ले म्युझिक नंतर गाण्याचे नाव देखील देऊ शकता. जर तुम्ही  म्युझिक एखादे मराठी गाणे म्हणत असाल तर हे गाणे गुगल म्युझिक प्लेयरमध्ये प्ले होईल.

आपला एकध्या मित्राला टेक्स्ट मेसेज पाठवा: या कमांडद्वारे तुम्ही मित्राला  कोणताही टेक्स्ट मेसेज पाठवू शकता. मेसेज लिहिण्याची गरज नाही, तुम्ही काहीही म्हणा, तोच मेसेज मित्राच्या  नावाच्या संपर्क क्रमांकावर जाईल.

व्हॉट्सअॅप उघडा: ही एक अद्भुत कमांड आहे ज्याद्वारे तुम्ही बोलून कोणतेही अॅप उघडू शकता. तुम्ही ओपन मॅप, ओपन फेसबुक असेही म्हणू शकता.

एक रिमाइंडर करा: तुम्ही खूप विसरला असाल, तुम्हाला काही आठवतही नसेल. त्यामुळे तुम्ही या कमांडद्वारे कोणतेही रिमाइंडर सेव्ह करू शकता. तुम्ही मला माझे स्मरणपत्र दाखवा द्वारे स्मरणपत्र पाहू शकता.

गुड मॉर्निंग / गुड इव्हिनिंग: ही गुगल असिस्टंटची उत्तम आज्ञा आहे. जेव्हा तुम्ही गुड मॉर्निंग म्हणता तेव्हा तुम्हाला उत्तरात दिवसाचा संपूर्ण तपशील मिळेल.

मला माझे ईमेल दाखवा: Gmail मध्ये आलेले ईमेल. त्यांना दाखवतो. जेव्हा तुम्ही तुमच्या मोबाईलमध्ये या सर्व कमांड्स वापरता तेव्हा तुम्हाला speech  recognition कसे कार्य करते हे समजेल.

अॅपलचे सिरीज चे अॅप्लिकेशन अशा प्रकारे काम करते. आता जाणून घेऊया, काय आहे स्पीच रेकग्निशनचे अॅप्लिकेशन्स

स्पीच रेकग्निशनचे अॅप्लिकेशन्स |Applications of speech recognition 

हे तंत्रज्ञानाच्या क्षेत्रात खूप लोकप्रिय होत आहे, आम्हाला कळवा आणि त्याचा अनुप्रयोग कुठे आहे.उपकरण नियंत्रित करण्यात खूप योगदान आहे. जसे की ओके गुगल म्हटल्याने, तुम्ही तुमचा मोबाइल व्हॉइसद्वारे पूर्णपणे नियंत्रित करू शकता आणि तुम्ही कोणतीही कमांड देऊ शकता.

अशाप्रकारे, तुम्ही ब्लुटूथद्वारे तुमचा मोबाइल कार शी कनेक्ट करून व्हॉईस कमांडद्वारे कॉल रिसीव्ह, म्युझिक आणि मॅप नियंत्रित करू शकता. तुम्हाला मोबाईलला स्पर्श करण्याची अजिबात गरज नाही.

व्हॉइस टायपिंग – तुम्हाला गुगल व्हॉइस टायपिंग बद्दल माहिती असणे आवश्यक आहे, ज्यामध्ये तुम्ही बोलून काहीही लिहू शकता. तुम्ही कमी वेळात खूप काही लिहू शकता. व्हॉइस टायपिंग देखील खूप वेगवान आहे आणि तुम्ही स्पेलिंग चुकल्याशिवाय लिहू शकता.

कॉल सेंटर – जेव्हा तुम्ही कस्टमर केअर नंबरवर कॉल करता, तेव्हा तिथे असे लिहिलेले असते, तुमचा संदेश व्हॉईस कमांडद्वारे द्या. हेही या तंत्रज्ञानामुळे शक्य आहे.

बायो मॅट्रिक्सचे नाव तुम्ही ऐकले असेलच – जिथे हे तंत्रज्ञान जास्त वापरले जाते. मोठ मोठ्या  सॉफ्टवेअर कंपन्यांमध्ये आयडी व्हेरिफिकेशनसाठी आवाजाचा वापर केला जातो. या तंत्रज्ञानाचा इतिहास जाणून घेण्याची वेळ आली आहे. तर जाणून घेऊया.

मराठीमध्ये आवाज ओळख तंत्रज्ञानाचा इतिहास |History of voice recognition technology in Marathi
  1. 1950 ते 1960 चे दशक

हा तो काळ होता जेव्हा व्हॉईस रेकग्निशन टेक्नॉलॉजी सुरू होण्याची वेळ होती. त्यावेळी व्हॉईस रेकग्निशन फक्त नंबर आणि डिजिटवर काम करत असे. 1952 मध्ये ‘ऑड्रे’ नावाच्या शास्त्रज्ञाने बेल्स प्रयोगशाळेत याचा शोध लावला. पण हे देखील फक्त संख्या समजू शकत होते.

  1. 1960 ते 1970

यानंतर, 1962 मध्ये शूबॉक्स नावाच्या कंपनीने त्याचा पुनर्विकास केला. काही काळानंतर, काळाबरोबर 9 व्यंजन आणि स्वर समजून घेण्याची क्षमता देखील आली होती.

  1. 1970 चे दशक

यूएस संरक्षण विभागाने आपली विचारसरणी बदलली आणि स्पीच रेकग्निशन टेक्नॉलॉजीमध्ये आपले योगदान वाढवले. 1971 ते 1976 दरम्यान त्यांनी DARPA SUR (स्पीच अंडरस्टँडिंग रिसर्च) नावाचा एक संशोधन कार्यक्रम सुरू केला. या कार्यक्रमाचा परिणाम खूप चांगला होता. कार्नेगी मेलॉनने हार्पीचा विकास केला. ज्यामध्ये त्याच्याकडे 1011 शब्द समजण्याची क्षमता होती. लॉजिकल वाक्य समजू शकणारी प्रणाली त्यांनी शोधून काढली.

बेल्स प्रयोगशाळेतील प्रगतीमुळे, 1970 मध्ये दोन लोकांची भाषा सहज समजण्यासाठी ती अपग्रेड करण्यात आली.

  1. 1980 चे दशक

हे मार्कोव्ह मॉडेलचे युग होते, ते काहीतरी वेगळे होते ज्यामध्ये अज्ञात आवाज निर्धारित करण्यासाठी डेटा वापरला जात होता. ज्यामध्ये स्पीच पॅटर्न किंवा फिक्स्ड टेम्प्लेटचे कोणतेही योगदान नव्हते. व्यवसाय उद्योग आणि व्यवसाय अनुप्रयोगांमध्ये या तंत्रज्ञानाचे चांगले योगदान होते.

या तंत्रज्ञानाच्या मदतीने 1987 मध्ये मुलांसाठी एक बाहुली तयार करण्यात आली. ज्याचे नाव ज्युली होते, ही बाहुली अशा प्रकारे व्यायामासाठी बनविली गेली होती की ती मुलांच्या शब्दांना उत्तर देऊ शकेल. 80 च्या दशकात आवाज ओळखण्यात एक समस्या अशी होती की काही बोलल्यानंतर तुम्हाला ब्रेक घ्यावा लागला.

  1. 1990 चे दशक

१९९० चे दशक हे मायक्रोप्रोसेसरचे युग होते. आणि स्पीच रेकग्निशन सॉफ्टवेअरही लोकांसमोर येऊ लागले. ड्रॅगन नावाची एक कंपनी होती जी. ‘ड्रॅगन डिक्टेट’ नावाचे सॉफ्टवेअर जारी केले, ते जगातील पहिले speech  recognition सॉफ्टवेअर होते. सामान्य लोक देखील हे सॉफ्टवेअर वापरू शकतात.

1997 मध्ये त्यात सुधारणा करत असताना आणखी एक सॉफ्टवेअर विकसित करण्यात आले ज्याचे नाव होते “ड्रॅगन नॅचरली स्पीकिंग” सॉफ्टवेअर. ज्यामध्ये त्याच्याकडे 100 शब्द समजण्याची क्षमता होती. BellSouth ने व्हॉईस अ‍ॅक्टिव्हेटेड पोर्टल (VAL) सादर केले आणि त्यात अनेक चुका होत्या.

  1. 2000 चे दशक

2001 पर्यंत, ते speech  recognition तंत्रज्ञानाच्या शिकवणीवर होते, जेव्हा Google ने प्रवेश केला. गुगलने आयफोनसाठी गुगल व्हॉईस सर्च ऍप्लिकेशनचा शोध लावला. जे, डेटा सेंटरचा वापर करून, डेटा सेंटर असलेल्या डेटाशी मानवाने बोललेले शब्द जुळवून वापरकर्त्यांच्या प्रश्नांची उत्तरे दिली.तुम्हाला माहित असेलच की गुगल खूप हुशार आहे. 2010 मध्ये, Google ने Android साठी वैयक्तिकृत ओळख अनुप्रयोग जारी केला. ज्याद्वारे गुगलने चांगले स्पीच मॉडेल बनवण्यासाठी व्हॉइस क्वेरी रेकॉर्ड करणे सुरू केले. यामुळे 230 अब्ज शब्दांचा डेटाबेस तयार झाला. सध्या त्या अॅप्लिकेशनचे नाव आहे गुगल असिस्टंट, ज्याबद्दल मी तुम्हाला आधीच माहिती दिली आहे.

हा पर्सनल असिस्टंट खूप हुशार आणि मजेदार आहे कारण तुम्ही त्याच्याशी व्हॉइसद्वारे मजेदार बोलू शकता. अॅपलनेही विलंब न लावता आपल्या पिअर्सनल असिस्टंटचा शोध लावला, ज्याला सिरी नाव देण्यात आले आहे. आशा आहे की तुम्हाला इतिहासाची माहिती नक्कीच आवडली असेल, आता तुम्हाला त्याचे फायदे आणि तोटे माहित आहेत.

speech  recognitionचे फायदे आणि तोटे काय आहेत

जसे प्रत्येक तंत्रज्ञानाचे फायदे आणि तोटे असतात, त्याचप्रमाणे या व्हॉईस रेकग्निशन टेक्नॉलॉजीचेही फायदे आहेत. मला माहित आहे की जर तुम्हाला हे जाणून घेण्याची उत्सुकता असेल तर चला चांगुलपणापासून सुरुवात करूया.

आवाज ओळखण्याचे फायदे

  • तुम्ही तुमचे काम सहज आणि कमी वेळेत पूर्ण करू शकता.
  • तुम्हाला खूप कमी वेळ किंवा खूप कमी वेळ मिळावा यासाठी तुम्हाला मोबाईलला स्पर्श करावा लागेल. तुम्ही फक्त व्हॉइसद्वारे बोलून सर्व कामे करू शकता.
  • शारीरिकदृष्ट्या अक्षम असलेल्या व्यक्तीसाठी ते खूप उपयुक्त आणि सोबती असू शकते आणि त्याचे सर्व काम करू शकते. ना त्याला कोणताही माऊस धरण्याची गरज आहे ना कीबोर्ड. जर तुम्हाला काही मजकूर लिहायचा असेल तर ते व्हॉईस कमांडद्वारे शक्य आहे.
  • ज्यांना हातच नाहीत त्यांच्यासाठी उपयुक्त.
  • तुम्हाला व्याकरणातील त्रुटी आणि शुद्धलेखनाची अजिबात काळजी करण्याची गरज नाही.
  • जर आपण वेगाबद्दल बोललो तर ते खूप वेगवान आहे. ज्याबद्दल तुम्ही विचारही करू शकत नाही, तुम्ही बोलत राहाल आणि लिहित राहाल.
  • विद्यार्थ्यांसाठी तो देवदूत आहे, त्यांना काहीही टाईप करण्याची गरज नाही, फक्त ज्यांना प्रश्न विचारला, त्यांना लगेच उत्तर मिळेल.

आवाज ओळखण्याचे तोटे

  • तुम्हाला सांगितल्याप्रमाणे, Google तुमचा आवाज रेकॉर्ड करते. तुमचा आवाज चुकीच्या पद्धतीने वापरला जात आहे असेही होऊ शकते.
  • सुरुवातीला आवाज समजणे थोडे कठीण आहे.
  • उच्चार चुकीचे असल्यामुळे शब्दाचे इनपुट देखील चुकीचे घेतले जाऊ शकते आणि ज्याचे आउटपुट देखील चुकीचे असू शकते.
  • जेव्हा पार्श्वभूमी आवाज असतो, तेव्हा डेटा कमी अचूक आणि उलट लिहायला लागतो.
  • शांत ठिकाणी तुम्हाला मोठ्याने बोलावे लागेल, त्यामुळे अशांतता पसरू शकते.
  • तुमच्या टोनमध्ये जरी बदल झाला तरी बोलणे समजणे थोडे कठीण आहे.

शेवट

speech  recognition रेकग्निशन टेक्नॉलॉजीमध्ये झालेले  हे बद्दल आपण स्वीकारले  पाहिजे हे बद्दल एक काळाची गरज आहे. यात मानवाने केलेले हे बद्दल मानसा ला समोर ठेवून आणि त्याच्या येणाऱ्या भविष्यकाळचा विचार डोळ्यासमोर ठेऊन घेण्यात आलेले आहे.

जसे की  वैद्यकीय कागदपत्रे उपचारात्मक वापर, सैन्य, उच्च कार्यक्षमता असलेले लढाऊ विमान, हेलिकॉप्टर, हवाई वाहतूक नियंत्रकांना प्रशिक्षण देणे, शिक्षण आणि दैनंदिन जीवनातील वापर, टेलिफोनी आणि इतर डोमेन,  अपंग लोक, अपंग लोकांना स्पीच रेकग्निशन प्रोग्रामचा फायदा होऊ शकतो.

कर्णबधिर किंवा श्रवणक्षम नसलेल्या व्यक्तींसाठी हे फायद्याचे आहे. आपण हा लेख आवडला असेल तर आपण आम्हाला नक्कीच कमेन्ट मध्ये कळवा. ही माहिती तुम्ही तुमच्या मित्राण मध्ये पण शेयर करू शकतात.आपल्या ला हे माहीतच आहे

की एकेकाळी हे सर्व करता येणे शक्यच नव्हते, पण हळूहळू जेव्हा संगणक तंत्रज्ञानात आणि गणितज्ञ या संकल्पनेवर शास्त्रज्ञ  रात्रंदिवस काम करू लागले तेव्हा एका तंत्रज्ञानाचा शोध लावला त्यालाच आपण speech  recognition असे नाव देण्यात आले.आजकाल आपण  हे तंत्रज्ञान प्रत्येक मोबाईल फोन आणि कॉम्प्युटरमध्ये बगतो आहे. तर मित्रांनो, स्पीच रेकग्निशन म्हणजे काय ते जाणून घेऊया.

Leave a Comment

This site uses Akismet to reduce spam. Learn how your comment data is processed.