Diferencia entre revisiones de «Omnisuite STT y TTS»

De VIVAitwiki
Ir a la navegaciónIr a la búsqueda
Línea 15: Línea 15:
 
Se dispone del programa <code>omnisuiteSTT11p</code> que deberá ser invocado desde un comando "system" de Cally Square
 
Se dispone del programa <code>omnisuiteSTT11p</code> que deberá ser invocado desde un comando "system" de Cally Square
  
El programa lleva asociado un fichero ".ini" <code>elevenlabs.ini</code> en el que habitualmente cambiarán:
+
El programa lleva asociado un fichero <code>elevenlabs.ini</code>, explicado más adelante
:* API key de Elevenlabs
 
:* Los keyterms asociados al proyecto
 
 
 
Más adelante se muestra dicho fichero
 
  
 
=== configuración de elevenlabs.ini ===
 
=== configuración de elevenlabs.ini ===

Revisión del 10:46 14 may 2026

Se han desarrollado conectores propios para

  • Speech To Text (STT)
  • Text To Speech (TTS)


Para los proveedores

  • Evelenlabs
  • Google

La configuración eficiente es usar STT de ElevenLabs y TTS de Google

1 ElevenLabs

1.1 Speech to Text

Se dispone del programa omnisuiteSTT11p que deberá ser invocado desde un comando "system" de Cally Square

El programa lleva asociado un fichero elevenlabs.ini, explicado más adelante

1.2 configuración de elevenlabs.ini

El fichero de configuración contiene:

  • Una sección comun>/code> en la que habrá que cambiar el api_key
  • Una sección stt, para "speech to text" en la que se configurarán los keyterms del proyecto
  • Una sección tts, para "text to speech"
[comun]
proxy=no
api_key=APIKEYDELPROYECTO

[stt]
# enable_logging=false solo enterprise
url=https://api.elevenlabs.io/v1/speech-to-text?enable_logging=true
to_ms=10000
# temperature=0.0 a 2.0
temperature=0.1
# keyterms_XX: pueden estar todos vacios o no existir. 00<=XX<=09
keyterms_00=
keyterms_01=
keyterms_02=
keyterms_03=
keyterms_04=
keyterms_05=
keyterms_06=
keyterms_07=
keyterms_08=
keyterms_09=

[tts]
url=https://api.elevenlabs.io/v1/text-to-speech/%s?output_format=%s_8000
to_ms=10000