Diferencia entre revisiones de «Omnisuite STT y TTS»
De VIVAitwiki
Ir a la navegaciónIr a la búsqueda| Línea 10: | Línea 10: | ||
== ElevenLabs == | == ElevenLabs == | ||
| − | + | Se dispone de los programas | |
| − | + | :* <code>/opt/omnisuite/bin/omnisuiteSTT11p</code> para '''Speech to Text (STT)''' que deberá ser invocado desde un comando "system" de Cally Square | |
| − | + | :* <code>/opt/omnisuite/bin/omnisuiteTTS11p</code> para '''Text To Speech (TTS)''' que deberá ser invocado desde un comando "system" de Cally Square | |
| − | + | <br> | |
| − | + | El programa lleva asociado un fichero <code>/etc/MDtel/elevenlabs.ini</code>, que contiene: | |
| − | El programa lleva asociado un fichero <code>/etc/MDtel/elevenlabs.ini</code>, | ||
| − | |||
| − | |||
| − | |||
| − | |||
:* Una sección <code>comun</code> en la que habrá que cambiar el <code>api_key</code> | :* Una sección <code>comun</code> en la que habrá que cambiar el <code>api_key</code> | ||
:* Una sección <code>stt</code>, para "speech to text" en la que se configurarán los keyterms del proyecto | :* Una sección <code>stt</code>, para "speech to text" en la que se configurarán los keyterms del proyecto | ||
:* Una sección <code>tts</code>, para "text to speech" | :* Una sección <code>tts</code>, para "text to speech" | ||
| − | + | <br> | |
<pre style="background-color: #f6f8fa; border: 1px solid #d1d5da; padding: 1em; border-radius: 4px; width: fit-content; margin-left: 50px; font-family: 'Ubuntu Mono', 'Consolas', monospace; white-space: pre-wrap;"> | <pre style="background-color: #f6f8fa; border: 1px solid #d1d5da; padding: 1em; border-radius: 4px; width: fit-content; margin-left: 50px; font-family: 'Ubuntu Mono', 'Consolas', monospace; white-space: pre-wrap;"> | ||
[comun] | [comun] | ||
Revisión del 10:53 14 may 2026
Se han desarrollado conectores propios para
- Speech To Text (STT)
- Text To Speech (TTS)
Para los proveedores
- Evelenlabs
La configuración eficiente es usar STT de ElevenLabs y TTS de Google
ElevenLabs
Se dispone de los programas
/opt/omnisuite/bin/omnisuiteSTT11ppara Speech to Text (STT) que deberá ser invocado desde un comando "system" de Cally Square/opt/omnisuite/bin/omnisuiteTTS11ppara Text To Speech (TTS) que deberá ser invocado desde un comando "system" de Cally Square
El programa lleva asociado un fichero /etc/MDtel/elevenlabs.ini, que contiene:
- Una sección
comunen la que habrá que cambiar elapi_key - Una sección
stt, para "speech to text" en la que se configurarán los keyterms del proyecto - Una sección
tts, para "text to speech"
- Una sección
[comun] proxy=no api_key=APIKEYDELPROYECTO [stt] # enable_logging=false solo enterprise url=https://api.elevenlabs.io/v1/speech-to-text?enable_logging=true to_ms=10000 # temperature=0.0 a 2.0 temperature=0.1 # keyterms_XX: pueden estar todos vacios o no existir. 00<=XX<=09 keyterms_00= keyterms_01= keyterms_02= keyterms_03= keyterms_04= keyterms_05= keyterms_06= keyterms_07= keyterms_08= keyterms_09= [tts] url=https://api.elevenlabs.io/v1/text-to-speech/%s?output_format=%s_8000 to_ms=10000