Diferencia entre revisiones de «Omnisuite STT y TTS»
De VIVAitwiki
Ir a la navegaciónIr a la búsqueda| Línea 1: | Línea 1: | ||
Se han desarrollado conectores propios para | Se han desarrollado conectores propios para | ||
| − | + | :* Speech To Text (STT) | |
| − | + | :* Text To Speech (TTS) | |
<br> | <br> | ||
Para los proveedores | Para los proveedores | ||
| − | ::* Google | + | :* Evelenlabs |
| − | ::* | + | :* Google |
| + | |||
| + | La configuración eficiente es usar STT de ElevenLabs y TTS de Google | ||
| + | |||
| + | == ElevenLabs == | ||
| + | |||
| + | === Speech to Text === | ||
| + | |||
| + | Se dispone del programa <code>omnisuiteSTT11p</code> que deberá ser invocado desde un comando "system" de Cally Square | ||
| + | |||
| + | El programa lleva asociado un fichero ".ini" <code>elevenlabs.ini</code> en el que habitualmente cambiarán: | ||
| + | :* API key de Elevenlabs | ||
| + | :* Los keyterms asociados al proyecto | ||
| + | |||
| + | Más adelante se muestra dicho fichero | ||
| + | |||
| + | === configuración de elevenlabs.ini === | ||
| + | |||
| + | El fichero de configuración contiene: | ||
| + | :* Una sección <code>comun>/code> en la que habrá que cambiar el <code>api_key</code> | ||
| + | :* Una sección <code>stt</code>, para "speech to text" en la que se configurarán los keyterms del proyecto | ||
| + | :* Una sección <code>tts</code>, para "text to speech" | ||
| + | |||
| + | <pre style="background-color: #f6f8fa; border: 1px solid #d1d5da; padding: 1em; border-radius: 4px; width: fit-content; margin-left: 50px; font-family: 'Ubuntu Mono', 'Consolas', monospace; white-space: pre-wrap;"> | ||
| + | [comun] | ||
| + | proxy=no | ||
| + | api_key=APIKEYDELPROYECTO | ||
| + | |||
| + | [stt] | ||
| + | # enable_logging=false solo enterprise | ||
| + | url=https://api.elevenlabs.io/v1/speech-to-text?enable_logging=true | ||
| + | to_ms=10000 | ||
| + | # temperature=0.0 a 2.0 | ||
| + | temperature=0.1 | ||
| + | # keyterms_XX: pueden estar todos vacios o no existir. 00<=XX<=09 | ||
| + | keyterms_00= | ||
| + | keyterms_01= | ||
| + | keyterms_02= | ||
| + | keyterms_03= | ||
| + | keyterms_04= | ||
| + | keyterms_05= | ||
| + | keyterms_06= | ||
| + | keyterms_07= | ||
| + | keyterms_08= | ||
| + | keyterms_09= | ||
| + | |||
| + | [tts] | ||
| + | url=https://api.elevenlabs.io/v1/text-to-speech/%s?output_format=%s_8000 | ||
| + | to_ms=10000 | ||
| + | </pre> | ||
Revisión del 10:42 14 may 2026
Se han desarrollado conectores propios para
- Speech To Text (STT)
- Text To Speech (TTS)
Para los proveedores
- Evelenlabs
La configuración eficiente es usar STT de ElevenLabs y TTS de Google
1 ElevenLabs
1.1 Speech to Text
Se dispone del programa omnisuiteSTT11p que deberá ser invocado desde un comando "system" de Cally Square
El programa lleva asociado un fichero ".ini" elevenlabs.ini en el que habitualmente cambiarán:
- API key de Elevenlabs
- Los keyterms asociados al proyecto
Más adelante se muestra dicho fichero
1.2 configuración de elevenlabs.ini
El fichero de configuración contiene:
- Una sección
comun>/code> en la que habrá que cambiar elapi_key - Una sección
stt, para "speech to text" en la que se configurarán los keyterms del proyecto - Una sección
tts, para "text to speech"
- Una sección
[comun]
proxy=no
api_key=APIKEYDELPROYECTO
[stt]
# enable_logging=false solo enterprise
url=https://api.elevenlabs.io/v1/speech-to-text?enable_logging=true
to_ms=10000
# temperature=0.0 a 2.0
temperature=0.1
# keyterms_XX: pueden estar todos vacios o no existir. 00<=XX<=09
keyterms_00=
keyterms_01=
keyterms_02=
keyterms_03=
keyterms_04=
keyterms_05=
keyterms_06=
keyterms_07=
keyterms_08=
keyterms_09=
[tts]
url=https://api.elevenlabs.io/v1/text-to-speech/%s?output_format=%s_8000
to_ms=10000