Diferencia entre revisiones de «Omnisuite STT y TTS»
De VIVAitwiki
Ir a la navegaciónIr a la búsqueda| Línea 13: | Línea 13: | ||
:* <code>/opt/omnisuite/bin/omnisuiteSTT11p</code> para '''Speech to Text (STT)''' | :* <code>/opt/omnisuite/bin/omnisuiteSTT11p</code> para '''Speech to Text (STT)''' | ||
:* <code>/opt/omnisuite/bin/omnisuiteTTS11p</code> para '''Text To Speech (TTS)''' | :* <code>/opt/omnisuite/bin/omnisuiteTTS11p</code> para '''Text To Speech (TTS)''' | ||
| − | + | <br> | |
| − | + | que deberán ser invocado desde un comando "system" de Cally Square | |
| + | <br> | ||
::[[Archivo:System STT 11labs.png|550px|miniaturadeimagen|no|Invocación a TTS de 11labs]] | ::[[Archivo:System STT 11labs.png|550px|miniaturadeimagen|no|Invocación a TTS de 11labs]] | ||
| − | |||
<br> | <br> | ||
En la invocación incluiremos | En la invocación incluiremos | ||
| Línea 24: | Línea 24: | ||
* idioma a unar | * idioma a unar | ||
* fichero a convertir a texto | * fichero a convertir a texto | ||
| − | Ejemplo | + | <br> |
| + | '''Ejemplo''' | ||
:: <code>/usr/bin/omnisuiteSTT11p /etc/MDtel/elevenlabs.ini stt scribe_v2 es /var/lib/asterisk/sounds/{id_llamada}_stt.wav | jq -r '.text'</cde> | :: <code>/usr/bin/omnisuiteSTT11p /etc/MDtel/elevenlabs.ini stt scribe_v2 es /var/lib/asterisk/sounds/{id_llamada}_stt.wav | jq -r '.text'</cde> | ||
| − | + | <br> | |
En el ejemplo vemos que del resultado obtenido "parseamos" solo el campo <code>'.text'</code> | En el ejemplo vemos que del resultado obtenido "parseamos" solo el campo <code>'.text'</code> | ||
| − | + | <br> | |
El programa lleva asociado un fichero <code>/etc/MDtel/elevenlabs.ini</code>, que contiene: | El programa lleva asociado un fichero <code>/etc/MDtel/elevenlabs.ini</code>, que contiene: | ||
:* Una sección <code>comun</code> en la que habrá que cambiar el <code>api_key</code> | :* Una sección <code>comun</code> en la que habrá que cambiar el <code>api_key</code> | ||
Revisión del 11:04 14 may 2026
Se han desarrollado conectores propios para
- Speech To Text (STT)
- Text To Speech (TTS)
Para los proveedores
- Evelenlabs
La configuración eficiente es usar STT de ElevenLabs y TTS de Google
ElevenLabs
Se dispone de los programas
/opt/omnisuite/bin/omnisuiteSTT11ppara Speech to Text (STT)/opt/omnisuite/bin/omnisuiteTTS11ppara Text To Speech (TTS)
que deberán ser invocado desde un comando "system" de Cally Square
En la invocación incluiremos
- Fichero ".ini"
stt--> comando para speech a text- Modelo a usar
- idioma a unar
- fichero a convertir a texto
Ejemplo
/usr/bin/omnisuiteSTT11p /etc/MDtel/elevenlabs.ini stt scribe_v2 es /var/lib/asterisk/sounds/{id_llamada}_stt.wav | jq -r '.text'</cde>
En el ejemplo vemos que del resultado obtenido "parseamos" solo el campo '.text'
El programa lleva asociado un fichero /etc/MDtel/elevenlabs.ini, que contiene:
- Una sección
comun en la que habrá que cambiar el api_key
- Una sección
stt, para "speech to text" en la que se configurarán los keyterms del proyecto
- Una sección
tts, para "text to speech"
[comun]
proxy=no
api_key=APIKEYDELPROYECTO
[stt]
# enable_logging=false solo enterprise
url=https://api.elevenlabs.io/v1/speech-to-text?enable_logging=true
to_ms=10000
# temperature=0.0 a 2.0
temperature=0.1
# keyterms_XX: pueden estar todos vacios o no existir. 00<=XX<=09
keyterms_00=
keyterms_01=
keyterms_02=
keyterms_03=
keyterms_04=
keyterms_05=
keyterms_06=
keyterms_07=
keyterms_08=
keyterms_09=
[tts]
url=https://api.elevenlabs.io/v1/text-to-speech/%s?output_format=%s_8000
to_ms=10000