सवाल जावा: टेक्स्ट टू स्पीच इंजन अवलोकन [बंद]


अब मैं जावा टेक्स्ट टू स्पीच (टीटीएस) ढांचे की तलाश में हूं। मेरी जांच के दौरान मुझे कई JSAPI1.0- (आंशिक रूप से) -संगत रूपरेखा सूचीबद्ध हैं जेएसएपीआई कार्यान्वयन पृष्ठ, साथ ही जावा टीटीएस ढांचे की जोड़ी जो जेएसएपीआई स्पेक का पालन नहीं करती है (मैरी, अभी कहो)। मैंने यह भी नोट किया है कि वर्तमान में JSAPI के लिए कोई संदर्भ कार्यान्वयन मौजूद नहीं है।

फ्रीटीटीएस के लिए मैंने किए गए संक्षिप्त परीक्षण (जेएसएपीआई इंप्स पेज में सूचीबद्ध पहला) दिखाता है कि यह सरल और स्पष्ट शब्दों (उदाहरण: एबीसी, ब्लैकबोर्ड) पढ़ने से बहुत दूर है। अन्य परीक्षण वर्तमान में प्रगति पर हैं।

और यहां सवाल चला जाता है (6, वास्तव में):

  1. आपने जावा-आधारित टीटीएस ढांचे का उपयोग किस प्रकार किया है?
  2. आपकी राय से कौन सा सबसे बड़ा वर्डबेस पढ़ने में सक्षम हैं?
  3. उनकी आवाज की गुणवत्ता के बारे में क्या?
  4. उनके प्रदर्शन के बारे में क्या?
  5. दृश्य पर जावा बाइंडिंग के साथ कौन से गैर-जावा ढांचे हैं?
  6. आप उनमें से किसकी सिफारिश करेंगे?

आपकी टिप्पणियों और सुझावों के लिए अग्रिम धन्यवाद।


46
2017-09-27 10:43


मूल


देख यह जेएसएपीआई अकसर किये गए सवाल और कार्यान्वयन की सूची, ओरेकल साइट पर। - Basil Bourque


जवाब:


मैं वास्तव में के साथ बहुत अच्छी किस्मत है FreeTTS


18
2017-09-27 11:36



मैंने नहीं। यह लिनक्स जावा ध्वनि बग हिट करता है, यहां वर्णित है stackoverflow.com/questions/2486985/freetts-problem-in-java - Ondra Žižka
2014 तक फ्रीटीएसएस मृत लगता है। (en.wikipedia.org/wiki/FreeTTS) - Stephan
फ्रीटीटीएस यूएस के बगल में किसी भी एमबीओआरए आवाज पंजीकृत नहीं कर सकता है, भले ही वे अपने पृष्ठ पर अन्य आवाज़ें प्रदान करते हैं। कुल असफल, बिल्कुल इसकी सिफारिश नहीं कर सकते हैं। - jAC


Google अनुवाद में एक गुप्त tts api है: https://translate.google.com/translate_tts?ie=utf-8&tl=en&q=Hello%20World


14
2017-09-13 15:36



लेकिन मुझे शक है कि यह उपयोगी है - Nabin
मुझे 403 त्रुटि मिली। - ᴇʟᴇvᴀтᴇ


मैंने पहले मैरी का उपयोग किया था और मैं आवाज़ की गुणवत्ता से बहुत प्रभावित था। दुर्भाग्यवश, मैंने किसी अन्य का उपयोग नहीं किया है।


6
2017-09-27 10:58



मैरी का उपयोग करना आसान नहीं है। यह खराब दस्तावेज है और स्थापना प्रक्रिया अबाध है (निर्देशिका नामों में रिक्त स्थान, जो क्लास फ़ाइलों को यूनिक्स-आधारित सिस्टम पर पाए जाने से रोकता है)। - Dave Jarvis
mary.dfki.de - Ondra Žižka
मैंने विभिन्न टीटीएस समाधानों की कोशिश की और अंत में मैरीटीटीएस के साथ अटक गया। यह काफी अच्छी तरह से काम करता है और मेवेन के साथ सेटअप मुश्किल नहीं है। इसकी सिफारिश कर सकते हैं। - jAC


असल में, कोई बड़ी पसंद नहीं है:

  • महोत्सव, सबसे पुराना। सी ++ में लिखा गया है लेकिन जावा के लिए बाइंडिंग है।
  • eSpeak, qucik और simple, Google अनुवाद द्वारा उपयोग किया जाता है
  • mbrola

शुद्ध जावा:

  • फ्रीटीटीएस, जो कोड महोत्सव से पोर्ट किया गया था, और फिर खुला-सोर्स किया गया था और विकास रोक दिया गया था।
  • मैरीटीटीएस - अधिक शक्तिशाली और उत्पादन तैयार दिखता है।

इसके अलावा अन्य मालिकाना कार्यक्रम भी हैं:

  • Acapella
  • Nuance Vocalizer

यदि आपका सॉफ़्टवेयर केवल विंडोज है, तो आप माइक्रोसॉफ्ट स्पीच एपीआई का उपयोग कर सकते हैं।


5
2017-12-25 14:55





मैंने उपयोग किया है एटी एंड टी प्राकृतिक आवाज़ें जो जेएसएपीआई और एमएस एसएपीआई हुक प्रदान करता है। यह उत्कृष्ट गुणवत्ता वाली आवाज, एक अच्छा "सामान्य" भाषण शब्दकोश, उच्चारण पर कई नियंत्रण, और कई भाषाओं प्रदान करता है। यह थोड़ा महंगा है, लेकिन बहुत अच्छी तरह से काम करता है।

मैंने मोबाइल सेंसर एप्लिकेशन में ड्राइवरों को महत्वपूर्ण सेंसर टेलीमेट्री पढ़ने के लिए इसका इस्तेमाल किया। हमें आवाज़ की गुणवत्ता के बारे में कोई शिकायत नहीं थी। इसमें वैज्ञानिक शर्तों के साथ लगभग 75% आउट-ऑफ-द-बॉक्स सटीकता थी और सामान्य संवाद के साथ बहुत अधिक (शायद 90% +) था। मार्कअप का उपयोग करके हमें 99 +% सटीकता तक पहुंच गई (अधिकांश त्रुटियां असामान्य फोनेम संयोजनों के साथ वैज्ञानिक शर्तों पर थीं)।

प्रोसेसर पर यह थोड़ा मुश्किल था (हम एक पेंटियम -3 समकक्ष मशीन पर चल रहे थे और यह 50% -75% पीक सीपीयू को दबा रहा था)। यह एक जावा इंटरफेस के साथ एक मूल भाषण इंजन (विंडोज, लिनक्स, और मैक संगत) का उपयोग करता है।

आवाजों और भाषाओं की एक बड़ी विविधता है ...


4
2017-09-29 19:30





मैंने फ्रीटीटीएस का इस्तेमाल किया लेकिन मेरी मैकबुकप्रो पर चलने के लिए एमबीरोला आवाजों को प्राप्त करने में बड़ी समस्या थी। मुझे विंडोज़ (दर्दनाक) और लिनक्स पर चलाने के लिए एमबीरोला आवाजें मिलीं। मुझे फ्रीटीटीएस पर किसी भी अन्य वॉयस पैकेज लोड करने की कोई किस्मत नहीं है जो शर्म की बात है क्योंकि आपूर्ति की गई आवाजें भयानक आईएमओ हैं। इसके बाहर मुझे क्लाउडगार्डन के साथ भी थोड़ी सी सफलता मिली लेकिन यह केवल विंडोज AFAIK पर चलता है। मुझे वॉयस इंजन के साथ दूसरों की सफलता / विफलताओं को सुनने में दिलचस्पी होगी क्योंकि इस प्रकार का काम विशेष चुनौतीपूर्ण है। मैं स्फिंक्स 4 के साथ थोड़ा सा भी कर रहा हूं। मैंने कल रात जेवीएक्सएमएल (जो स्फिंक्स 4 पर आधारित प्रतीत होता है) को खींच लिया लेकिन कुछ अजीब कारणों से इसे चलाने के लिए नहीं मिला।


1
2018-04-10 13:32





मैंने मैरी में योगदान दिया है। मुझे लगता है कि अगर इसकी क्षमता है तो कोई व्यक्ति मुझसे ज्यादा स्मार्ट ने एचएमएम आवाज को कोर से अलग कर दिया (उन आवाजों को बड़े डेटा सेट और ध्वनि ठीक नहीं है)। मैं घटनाओं को भेजने के लिए इवेंट सिस्टम करने की भी कोशिश कर रहा हूं जब यह एक शब्द कहता है। मुझे सफलता मिली है, लेकिन अब लिनक्स में टूट गया है। (शायद टाइमर बग की वजह से)।


1
2018-02-27 14:19





बहुत बहुत धन्यवाद, चाल फ्रीटीएस स्रोत में है। संक्षेप में: अगर चल रहा है java -jar freetts.jar some-more-args-here, यह bin / server.jar और bin / Client.jar के तरीके में निष्पादित होने से कम शब्दों का मंत्रमुग्ध करता है।


1
2017-09-29 09:28