Diferencia entre revisiones de «Omnisuite STT y TTS»

De VIVAitwiki
Ir a la navegaciónIr a la búsqueda
Línea 1: Línea 1:
 
Se han desarrollado conectores propios para
 
Se han desarrollado conectores propios para
::* Speech To Text (STT)
+
:* Speech To Text (STT)
::* Text To Speech (TTS)
+
:* Text To Speech (TTS)
 
<br>
 
<br>
 
Para los proveedores
 
Para los proveedores
::* Google
+
:* Evelenlabs
::* Evelenlabs
+
:* Google
 +
 
 +
La configuración eficiente es usar STT de ElevenLabs y TTS de Google
 +
 
 +
== ElevenLabs ==
 +
 
 +
=== Speech to Text ===
 +
 
 +
Se dispone del programa <code>omnisuiteSTT11p</code> que deberá ser invocado desde un comando "system" de Cally Square
 +
 
 +
El programa lleva asociado un fichero ".ini" <code>elevenlabs.ini</code> en el que habitualmente cambiarán:
 +
:* API key de Elevenlabs
 +
:* Los keyterms asociados al proyecto
 +
 
 +
Más adelante se muestra dicho fichero
 +
 
 +
=== configuración de elevenlabs.ini ===
 +
 
 +
El fichero de configuración contiene:
 +
:* Una sección <code>comun>/code> en la que habrá que cambiar el <code>api_key</code>
 +
:* Una sección <code>stt</code>, para "speech to text" en la que se configurarán los keyterms del proyecto
 +
:* Una sección <code>tts</code>, para "text to speech"
 +
 
 +
<pre style="background-color: #f6f8fa; border: 1px solid #d1d5da; padding: 1em; border-radius: 4px; width: fit-content; margin-left: 50px; font-family: 'Ubuntu Mono', 'Consolas', monospace; white-space: pre-wrap;">
 +
[comun]
 +
proxy=no
 +
api_key=APIKEYDELPROYECTO
 +
 
 +
[stt]
 +
# enable_logging=false solo enterprise
 +
url=https://api.elevenlabs.io/v1/speech-to-text?enable_logging=true
 +
to_ms=10000
 +
# temperature=0.0 a 2.0
 +
temperature=0.1
 +
# keyterms_XX: pueden estar todos vacios o no existir. 00<=XX<=09
 +
keyterms_00=
 +
keyterms_01=
 +
keyterms_02=
 +
keyterms_03=
 +
keyterms_04=
 +
keyterms_05=
 +
keyterms_06=
 +
keyterms_07=
 +
keyterms_08=
 +
keyterms_09=
 +
 
 +
[tts]
 +
url=https://api.elevenlabs.io/v1/text-to-speech/%s?output_format=%s_8000
 +
to_ms=10000
 +
</pre>

Revisión del 10:42 14 may 2026

Se han desarrollado conectores propios para

  • Speech To Text (STT)
  • Text To Speech (TTS)


Para los proveedores

  • Evelenlabs
  • Google

La configuración eficiente es usar STT de ElevenLabs y TTS de Google

1 ElevenLabs

1.1 Speech to Text

Se dispone del programa omnisuiteSTT11p que deberá ser invocado desde un comando "system" de Cally Square

El programa lleva asociado un fichero ".ini" elevenlabs.ini en el que habitualmente cambiarán:

  • API key de Elevenlabs
  • Los keyterms asociados al proyecto

Más adelante se muestra dicho fichero

1.2 configuración de elevenlabs.ini

El fichero de configuración contiene:

  • Una sección comun>/code> en la que habrá que cambiar el api_key
  • Una sección stt, para "speech to text" en la que se configurarán los keyterms del proyecto
  • Una sección tts, para "text to speech"
[comun]
proxy=no
api_key=APIKEYDELPROYECTO

[stt]
# enable_logging=false solo enterprise
url=https://api.elevenlabs.io/v1/speech-to-text?enable_logging=true
to_ms=10000
# temperature=0.0 a 2.0
temperature=0.1
# keyterms_XX: pueden estar todos vacios o no existir. 00<=XX<=09
keyterms_00=
keyterms_01=
keyterms_02=
keyterms_03=
keyterms_04=
keyterms_05=
keyterms_06=
keyterms_07=
keyterms_08=
keyterms_09=

[tts]
url=https://api.elevenlabs.io/v1/text-to-speech/%s?output_format=%s_8000
to_ms=10000