speech recognition:- चला तर मित्रांनो आपल्या ज्ञात भर म्हणून आज एक लेख घेऊन आलो आहे सिस्टीम म्हणजे काय? जी आपण बगीतली पण असावी किंवा हा शब्द कुठे तरी एकला पण असावा speech recognition सिस्टीमही एक अशी प्रणाली आहे.
जी आपण बोललेला आवाज सहजपणे समजू शकते आणि त्यानुसार कार्य करते. यामध्ये हे यंत्र अशा प्रकारे प्रोग्राम केलेले आहे की ते बोलल्या गेलेल्या शब्दांचा अर्थ समजू शकेल आणि त्याचा योग्य अर्थ लावू शकेल आणि त्या प्रमाणे त्या गोष्टी करू शकेल किंवा त्या प्रमाणे आपल्याला हव्या असलेल्या योग्य पर्याय निवडण्यास मद्दत करू शकेल.
Voice recognition सिस्टम म्हणजे काय (मराठी भाषण ओळख)
speech recognition सिस्टीम म्हणजे काय आणि ती कशी काम करते हे तुम्हाला माहिती आहे का. यासोबतच आज आम्ही तुम्हाला या तंत्रज्ञानाचे फायदे आणि तोटे काय आहेत ते सांगणार आहोत. मी तुम्हाला त्याचा इतिहास देखील सांगेन. आज आम्ही तुम्हाला ही सर्व माहिती आपल्या मराठी भाषेत देणार आहोत, चला तर मग जाणून घेऊया.
speech recognitionला स्पीच रेकग्निशन असेही म्हणतात. हा एक संगणक सॉफ्टवेअर प्रोग्राम आहे, तो एक हार्डवेअर उपकरण देखील आहे ज्यामध्ये मानवी आवाज समजण्याची क्षमता आहे.स्पीच रेकग्निशन हे एक असे तंत्रज्ञान आहे, जे आपण बोललेले शब्द इनपुट म्हणून घेते आणि त्या शब्दांचे डिजिटल स्वरूपात रूपांतर करते, ते समजून घेते आणि त्यावर कृती करते.
What is a Speech recognition? in Marathi
मोबाईल फोन ऑपरेट करण्यासाठी, मोबाईलला कमांड देण्यासाठी आणि आवाजाद्वारे शोधण्यासाठी या तंत्रज्ञानाचा वापर केला जातो. यामध्ये तुम्हाला कोणताही कीबोर्ड, माउस वापरण्याची गरज नाही आणि तुम्हाला कोणतेही बटण दाबण्याची गरज नाही. यासाठी ASR (ऑटोमॅटिक स्पीच रिकग्निशन) नावाचा प्रोग्राम वापरला जातो. यासाठी तुम्हाला ASR प्रोग्रामचे प्रशिक्षण (शिकवणे) आवश्यक आहे.
ज्याच्या मदतीने तो तुमचा आवाज ओळखेल आणि तुमच्या प्रश्नांची उत्तरे देईल आणि तुम्ही कोणतेही काम करण्याची आज्ञा दिली असेल तर ते काम दाखवेल. उदाहरण घ्या, तुम्ही म्हणाल “Whats app उघडा” मग मोबाईल तुमची दिलेली आज्ञा समजेल आणि व्हॉट्स अॅप उघडेल.या तंत्रज्ञानाचे उत्तम उदाहरण म्हणजे “गुगल असिस्टंट” हे गुगलचे अॅप्लिकेशन आहे. SIRI हे आवाज ओळख तंत्रज्ञान सॉफ्टवेअरचे देखील एक उदाहरण आहे.
हे ऍपलचे ऍप्लिकेशन आहे. स्पीच रेकग्निशनने चालणारी अनेक सॉफ्टवेअर्स तुम्हाला मार्केटमध्ये मिळतील. यातील बहुतेक व्हॉईस रेकग्निशन तंत्रज्ञान बायो मॅट्रिक्स, ऑफिस, मेडिकलमध्ये वापरले जाते. तर आता ते कसे काम करते ते जाणून घेऊया..
आवाज ओळख तंत्रज्ञान कसे कार्य करते? |How does voice recognition technology work?
ते कसे कार्य करते हे जाणून घेणे खूप महत्वाचे आहे. जेव्हा तुम्ही काही बोलता, तेव्हा तुमचे शब्द ऑन-स्क्रीन-टेक्स्ट (तुम्ही म्हणता ते मोबाइल स्क्रीनवर दिसेल) किंवा कमांडमध्ये रुपांतरित करण्यासाठी speech recognitionला अनेक जटिल पायऱ्या पार कराव्या लागतात.
जेंव्हा तुम्ही काही बोलता तेंव्हा एक कंपन निर्माण होते. हे कंपन एनालॉग सिग्नलशिवाय दुसरे काहीही नाही. अॅनालॉग लहरींना डिजिटलमध्ये रूपांतरित करण्यासाठी मोबाइल किंवा संगणक ADC अनुवादक वापरतात. तुम्हाला हे माहित असलेच पाहिजे की संगणक फक्त डिजिटल सिग्नल समजतो.
ADC अॅनालॉगला डिजिटलमध्ये रूपांतरित करण्यासाठी या सर्व पायऱ्या फॉलो करते. विशिष्ट अंतराने ध्वनी लहान नमुन्यांमध्ये विभागतो. तो आवाज डिजिटाइझ करतो. डिजिटाइझ साउंड वेव्ह फिल्टर करून सिस्टम अवांछित आवाज काढून टाकते.
तसेच, आवाज सामान्य करून, आवाज स्थिर पातळीवर नेला जातो. ध्वनीची पातळी स्थिर ठेवण्याची गरज आहे कारण प्रत्येकजण त्याच वेगाने उच्चारत नाही. तथापि, साउंड सिस्टम मेमरीमध्ये आधीपासून असलेल्या ध्वनीशी इनपुट ध्वनी सहजपणे जुळतो.
यानंतर हे ध्वनी लहान भागांमध्ये विभागले जातात आणि लहान भाग म्हणजे आठवा भाग किंवा 1 सेकंदाचा हजारवा भाग. ज्याच्या सहाय्याने ही काही अक्षरे P, B, T सारखी सहज ओळखता येतात कारण ती समजणे आपल्यासाठी सोपे असते परंतु संगणक आणि स्मार्टफोनच्या क्षेत्रात हे खूप अवघड काम असते. म्हणूनच ते अशा लहान भागांमध्ये विभागले गेले आहे.
आता शेवटची पायरी बाकी आहे, या ध्वनींचे छोटे तुकडे सिस्टीममध्ये साठवलेल्या डिजिटल सिग्नलशी जुळतात. जसा ‘G’ सिग्नलचा सामना G, O बरोबर O, D बरोबर D आहे.
जर तुम्ही या तिन्हींचे मिश्रण केले तर तुम्ही “देव” व्हाल. जर आपण गुगल असिस्टंटबद्दल बोललो तर त्यात देव हा शब्द बोलल्याने देवाचा अर्थ दिसून येतो. तर आता काही speech recognition सॉफ्टवेअरच्या उदाहरणाबद्दल बोलूया. ,
speech recognition सॉफ्टवेअरची उदाहरणे
यामध्ये आपण 1 स्पेशल ऍप्लिकेशन बद्दल बोलू जे “speech recognition टेक्नॉलॉजी” ऍप्लिकेशनद्वारे चालते.
Google सहाय्यक
हे लोकांचे आवडते अॅप्लिकेशन आहे. हे असिस्टंट गुगलने विकसित केले आहे. याची घोषणा मे २०१६ मध्ये Google I/O परिषदेत करण्यात आली होती. यामध्ये तुम्ही टू वे कन्व्हर्जन करू शकता, म्हणजे तुम्ही तुमच्या मितभाषी जमेल तसे बोलू शकता. आणि तुम्ही तुमच्या मोबाईलला हात न लावता चालवू शकता.
आता तुमच्या मनात प्रश्न आला असेल की हे ऍप्लिकेशन काय करू शकते. तर खाली काही कमांड्स आहेत ज्या तुम्ही Google Assistant मध्ये वापरू शकता. तुम्हालाही लगेच उत्तर मिळेल. लक्षात ठेवा, सर्वप्रथम, मोबाइलमधील होम बटण दाबून, खाली दिलेल्या सर्व कमांड्स वापरा. किंवा ओके गुगल बोलून ते वापरा.
Google सहाय्यक आदेश
whats The Temperature: या कमांडद्वारे तुम्हाला संपूर्ण दिवसाचे तापमान आणि हवामानाची माहिती मिळते. मला गेट ऑफ इंडिया ची दिशा दाखवा: हा आदेश तुम्हाला तुमच्या स्थानापासून गेट ऑफ इंडिया पर्यंतचा सर्वात लहान मार्ग Google Map मध्ये दाखवेल. तुम्हाला हवे असेल तर तुम्ही गेट ऑफ इंडिया ऐवजी दुसरे नाव देखील घेऊ शकता.
प्ले म्युझिक: तुम्हाला गाणी ऐकायला नक्कीच आवडत असेल, म्हणूनच. ही आज्ञा फक्त तुमच्यासाठी आहे. ‘प्ले म्युझिक’ बोलताच मोबाईलमध्ये गाणे वाजू लागेल. तुम्हाला हवे असल्यास, तुम्ही प्ले म्युझिक नंतर गाण्याचे नाव देखील देऊ शकता. जर तुम्ही म्युझिक एखादे मराठी गाणे म्हणत असाल तर हे गाणे गुगल म्युझिक प्लेयरमध्ये प्ले होईल.
आपला एकध्या मित्राला टेक्स्ट मेसेज पाठवा: या कमांडद्वारे तुम्ही मित्राला कोणताही टेक्स्ट मेसेज पाठवू शकता. मेसेज लिहिण्याची गरज नाही, तुम्ही काहीही म्हणा, तोच मेसेज मित्राच्या नावाच्या संपर्क क्रमांकावर जाईल.
व्हॉट्सअॅप उघडा: ही एक अद्भुत कमांड आहे ज्याद्वारे तुम्ही बोलून कोणतेही अॅप उघडू शकता. तुम्ही ओपन मॅप, ओपन फेसबुक असेही म्हणू शकता.
एक रिमाइंडर करा: तुम्ही खूप विसरला असाल, तुम्हाला काही आठवतही नसेल. त्यामुळे तुम्ही या कमांडद्वारे कोणतेही रिमाइंडर सेव्ह करू शकता. तुम्ही मला माझे स्मरणपत्र दाखवा द्वारे स्मरणपत्र पाहू शकता.
गुड मॉर्निंग / गुड इव्हिनिंग: ही गुगल असिस्टंटची उत्तम आज्ञा आहे. जेव्हा तुम्ही गुड मॉर्निंग म्हणता तेव्हा तुम्हाला उत्तरात दिवसाचा संपूर्ण तपशील मिळेल.
मला माझे ईमेल दाखवा: Gmail मध्ये आलेले ईमेल. त्यांना दाखवतो. जेव्हा तुम्ही तुमच्या मोबाईलमध्ये या सर्व कमांड्स वापरता तेव्हा तुम्हाला speech recognition कसे कार्य करते हे समजेल.
अॅपलचे सिरीज चे अॅप्लिकेशन अशा प्रकारे काम करते. आता जाणून घेऊया, काय आहे स्पीच रेकग्निशनचे अॅप्लिकेशन्स
स्पीच रेकग्निशनचे अॅप्लिकेशन्स |Applications of speech recognition
हे तंत्रज्ञानाच्या क्षेत्रात खूप लोकप्रिय होत आहे, आम्हाला कळवा आणि त्याचा अनुप्रयोग कुठे आहे.उपकरण नियंत्रित करण्यात खूप योगदान आहे. जसे की ओके गुगल म्हटल्याने, तुम्ही तुमचा मोबाइल व्हॉइसद्वारे पूर्णपणे नियंत्रित करू शकता आणि तुम्ही कोणतीही कमांड देऊ शकता.
अशाप्रकारे, तुम्ही ब्लुटूथद्वारे तुमचा मोबाइल कार शी कनेक्ट करून व्हॉईस कमांडद्वारे कॉल रिसीव्ह, म्युझिक आणि मॅप नियंत्रित करू शकता. तुम्हाला मोबाईलला स्पर्श करण्याची अजिबात गरज नाही.
व्हॉइस टायपिंग – तुम्हाला गुगल व्हॉइस टायपिंग बद्दल माहिती असणे आवश्यक आहे, ज्यामध्ये तुम्ही बोलून काहीही लिहू शकता. तुम्ही कमी वेळात खूप काही लिहू शकता. व्हॉइस टायपिंग देखील खूप वेगवान आहे आणि तुम्ही स्पेलिंग चुकल्याशिवाय लिहू शकता.
कॉल सेंटर – जेव्हा तुम्ही कस्टमर केअर नंबरवर कॉल करता, तेव्हा तिथे असे लिहिलेले असते, तुमचा संदेश व्हॉईस कमांडद्वारे द्या. हेही या तंत्रज्ञानामुळे शक्य आहे.
बायो मॅट्रिक्सचे नाव तुम्ही ऐकले असेलच – जिथे हे तंत्रज्ञान जास्त वापरले जाते. मोठ मोठ्या सॉफ्टवेअर कंपन्यांमध्ये आयडी व्हेरिफिकेशनसाठी आवाजाचा वापर केला जातो. या तंत्रज्ञानाचा इतिहास जाणून घेण्याची वेळ आली आहे. तर जाणून घेऊया.
मराठीमध्ये आवाज ओळख तंत्रज्ञानाचा इतिहास |History of voice recognition technology in Marathi
- 1950 ते 1960 चे दशक
हा तो काळ होता जेव्हा व्हॉईस रेकग्निशन टेक्नॉलॉजी सुरू होण्याची वेळ होती. त्यावेळी व्हॉईस रेकग्निशन फक्त नंबर आणि डिजिटवर काम करत असे. 1952 मध्ये ‘ऑड्रे’ नावाच्या शास्त्रज्ञाने बेल्स प्रयोगशाळेत याचा शोध लावला. पण हे देखील फक्त संख्या समजू शकत होते.
- 1960 ते 1970
यानंतर, 1962 मध्ये शूबॉक्स नावाच्या कंपनीने त्याचा पुनर्विकास केला. काही काळानंतर, काळाबरोबर 9 व्यंजन आणि स्वर समजून घेण्याची क्षमता देखील आली होती.
- 1970 चे दशक
यूएस संरक्षण विभागाने आपली विचारसरणी बदलली आणि स्पीच रेकग्निशन टेक्नॉलॉजीमध्ये आपले योगदान वाढवले. 1971 ते 1976 दरम्यान त्यांनी DARPA SUR (स्पीच अंडरस्टँडिंग रिसर्च) नावाचा एक संशोधन कार्यक्रम सुरू केला. या कार्यक्रमाचा परिणाम खूप चांगला होता. कार्नेगी मेलॉनने हार्पीचा विकास केला. ज्यामध्ये त्याच्याकडे 1011 शब्द समजण्याची क्षमता होती. लॉजिकल वाक्य समजू शकणारी प्रणाली त्यांनी शोधून काढली.
बेल्स प्रयोगशाळेतील प्रगतीमुळे, 1970 मध्ये दोन लोकांची भाषा सहज समजण्यासाठी ती अपग्रेड करण्यात आली.
- 1980 चे दशक
हे मार्कोव्ह मॉडेलचे युग होते, ते काहीतरी वेगळे होते ज्यामध्ये अज्ञात आवाज निर्धारित करण्यासाठी डेटा वापरला जात होता. ज्यामध्ये स्पीच पॅटर्न किंवा फिक्स्ड टेम्प्लेटचे कोणतेही योगदान नव्हते. व्यवसाय उद्योग आणि व्यवसाय अनुप्रयोगांमध्ये या तंत्रज्ञानाचे चांगले योगदान होते.
या तंत्रज्ञानाच्या मदतीने 1987 मध्ये मुलांसाठी एक बाहुली तयार करण्यात आली. ज्याचे नाव ज्युली होते, ही बाहुली अशा प्रकारे व्यायामासाठी बनविली गेली होती की ती मुलांच्या शब्दांना उत्तर देऊ शकेल. 80 च्या दशकात आवाज ओळखण्यात एक समस्या अशी होती की काही बोलल्यानंतर तुम्हाला ब्रेक घ्यावा लागला.
- 1990 चे दशक
१९९० चे दशक हे मायक्रोप्रोसेसरचे युग होते. आणि स्पीच रेकग्निशन सॉफ्टवेअरही लोकांसमोर येऊ लागले. ड्रॅगन नावाची एक कंपनी होती जी. ‘ड्रॅगन डिक्टेट’ नावाचे सॉफ्टवेअर जारी केले, ते जगातील पहिले speech recognition सॉफ्टवेअर होते. सामान्य लोक देखील हे सॉफ्टवेअर वापरू शकतात.
1997 मध्ये त्यात सुधारणा करत असताना आणखी एक सॉफ्टवेअर विकसित करण्यात आले ज्याचे नाव होते “ड्रॅगन नॅचरली स्पीकिंग” सॉफ्टवेअर. ज्यामध्ये त्याच्याकडे 100 शब्द समजण्याची क्षमता होती. BellSouth ने व्हॉईस अॅक्टिव्हेटेड पोर्टल (VAL) सादर केले आणि त्यात अनेक चुका होत्या.
- 2000 चे दशक
2001 पर्यंत, ते speech recognition तंत्रज्ञानाच्या शिकवणीवर होते, जेव्हा Google ने प्रवेश केला. गुगलने आयफोनसाठी गुगल व्हॉईस सर्च ऍप्लिकेशनचा शोध लावला. जे, डेटा सेंटरचा वापर करून, डेटा सेंटर असलेल्या डेटाशी मानवाने बोललेले शब्द जुळवून वापरकर्त्यांच्या प्रश्नांची उत्तरे दिली.तुम्हाला माहित असेलच की गुगल खूप हुशार आहे. 2010 मध्ये, Google ने Android साठी वैयक्तिकृत ओळख अनुप्रयोग जारी केला. ज्याद्वारे गुगलने चांगले स्पीच मॉडेल बनवण्यासाठी व्हॉइस क्वेरी रेकॉर्ड करणे सुरू केले. यामुळे 230 अब्ज शब्दांचा डेटाबेस तयार झाला. सध्या त्या अॅप्लिकेशनचे नाव आहे गुगल असिस्टंट, ज्याबद्दल मी तुम्हाला आधीच माहिती दिली आहे.
हा पर्सनल असिस्टंट खूप हुशार आणि मजेदार आहे कारण तुम्ही त्याच्याशी व्हॉइसद्वारे मजेदार बोलू शकता. अॅपलनेही विलंब न लावता आपल्या पिअर्सनल असिस्टंटचा शोध लावला, ज्याला सिरी नाव देण्यात आले आहे. आशा आहे की तुम्हाला इतिहासाची माहिती नक्कीच आवडली असेल, आता तुम्हाला त्याचे फायदे आणि तोटे माहित आहेत.
speech recognitionचे फायदे आणि तोटे काय आहेत
जसे प्रत्येक तंत्रज्ञानाचे फायदे आणि तोटे असतात, त्याचप्रमाणे या व्हॉईस रेकग्निशन टेक्नॉलॉजीचेही फायदे आहेत. मला माहित आहे की जर तुम्हाला हे जाणून घेण्याची उत्सुकता असेल तर चला चांगुलपणापासून सुरुवात करूया.
आवाज ओळखण्याचे फायदे
- तुम्ही तुमचे काम सहज आणि कमी वेळेत पूर्ण करू शकता.
- तुम्हाला खूप कमी वेळ किंवा खूप कमी वेळ मिळावा यासाठी तुम्हाला मोबाईलला स्पर्श करावा लागेल. तुम्ही फक्त व्हॉइसद्वारे बोलून सर्व कामे करू शकता.
- शारीरिकदृष्ट्या अक्षम असलेल्या व्यक्तीसाठी ते खूप उपयुक्त आणि सोबती असू शकते आणि त्याचे सर्व काम करू शकते. ना त्याला कोणताही माऊस धरण्याची गरज आहे ना कीबोर्ड. जर तुम्हाला काही मजकूर लिहायचा असेल तर ते व्हॉईस कमांडद्वारे शक्य आहे.
- ज्यांना हातच नाहीत त्यांच्यासाठी उपयुक्त.
- तुम्हाला व्याकरणातील त्रुटी आणि शुद्धलेखनाची अजिबात काळजी करण्याची गरज नाही.
- जर आपण वेगाबद्दल बोललो तर ते खूप वेगवान आहे. ज्याबद्दल तुम्ही विचारही करू शकत नाही, तुम्ही बोलत राहाल आणि लिहित राहाल.
- विद्यार्थ्यांसाठी तो देवदूत आहे, त्यांना काहीही टाईप करण्याची गरज नाही, फक्त ज्यांना प्रश्न विचारला, त्यांना लगेच उत्तर मिळेल.
आवाज ओळखण्याचे तोटे
- तुम्हाला सांगितल्याप्रमाणे, Google तुमचा आवाज रेकॉर्ड करते. तुमचा आवाज चुकीच्या पद्धतीने वापरला जात आहे असेही होऊ शकते.
- सुरुवातीला आवाज समजणे थोडे कठीण आहे.
- उच्चार चुकीचे असल्यामुळे शब्दाचे इनपुट देखील चुकीचे घेतले जाऊ शकते आणि ज्याचे आउटपुट देखील चुकीचे असू शकते.
- जेव्हा पार्श्वभूमी आवाज असतो, तेव्हा डेटा कमी अचूक आणि उलट लिहायला लागतो.
- शांत ठिकाणी तुम्हाला मोठ्याने बोलावे लागेल, त्यामुळे अशांतता पसरू शकते.
- तुमच्या टोनमध्ये जरी बदल झाला तरी बोलणे समजणे थोडे कठीण आहे.
शेवट
speech recognition रेकग्निशन टेक्नॉलॉजीमध्ये झालेले हे बद्दल आपण स्वीकारले पाहिजे हे बद्दल एक काळाची गरज आहे. यात मानवाने केलेले हे बद्दल मानसा ला समोर ठेवून आणि त्याच्या येणाऱ्या भविष्यकाळचा विचार डोळ्यासमोर ठेऊन घेण्यात आलेले आहे.
जसे की वैद्यकीय कागदपत्रे उपचारात्मक वापर, सैन्य, उच्च कार्यक्षमता असलेले लढाऊ विमान, हेलिकॉप्टर, हवाई वाहतूक नियंत्रकांना प्रशिक्षण देणे, शिक्षण आणि दैनंदिन जीवनातील वापर, टेलिफोनी आणि इतर डोमेन, अपंग लोक, अपंग लोकांना स्पीच रेकग्निशन प्रोग्रामचा फायदा होऊ शकतो.
कर्णबधिर किंवा श्रवणक्षम नसलेल्या व्यक्तींसाठी हे फायद्याचे आहे. आपण हा लेख आवडला असेल तर आपण आम्हाला नक्कीच कमेन्ट मध्ये कळवा. ही माहिती तुम्ही तुमच्या मित्राण मध्ये पण शेयर करू शकतात.आपल्या ला हे माहीतच आहे
की एकेकाळी हे सर्व करता येणे शक्यच नव्हते, पण हळूहळू जेव्हा संगणक तंत्रज्ञानात आणि गणितज्ञ या संकल्पनेवर शास्त्रज्ञ रात्रंदिवस काम करू लागले तेव्हा एका तंत्रज्ञानाचा शोध लावला त्यालाच आपण speech recognition असे नाव देण्यात आले.आजकाल आपण हे तंत्रज्ञान प्रत्येक मोबाईल फोन आणि कॉम्प्युटरमध्ये बगतो आहे. तर मित्रांनो, स्पीच रेकग्निशन म्हणजे काय ते जाणून घेऊया.