Diferencia entre revisiones de «Omnisuite STT y TTS»

De VIVAitwiki
Ir a la navegaciónIr a la búsqueda
Línea 10: Línea 10:
  
 
== ElevenLabs ==
 
== ElevenLabs ==
 
+
Se dispone de los programas
=== Speech to Text ===
+
:* <code>/opt/omnisuite/bin/omnisuiteSTT11p</code> para '''Speech to Text (STT)''' que deberá ser invocado desde un comando "system" de Cally Square
 
+
:* <code>/opt/omnisuite/bin/omnisuiteTTS11p</code> para '''Text To Speech (TTS)''' que deberá ser invocado desde un comando "system" de Cally Square
Se dispone del programa <code>/opt/omnisuite/bin/omnisuiteSTT11p</code> que deberá ser invocado desde un comando "system" de Cally Square
+
<br>
 
+
El programa lleva asociado un fichero <code>/etc/MDtel/elevenlabs.ini</code>, que contiene:
El programa lleva asociado un fichero <code>/etc/MDtel/elevenlabs.ini</code>, explicado más adelante
 
 
 
=== configuración de elevenlabs.ini ===
 
 
 
El fichero de configuración contiene:
 
 
:* Una sección <code>comun</code> en la que habrá que cambiar el <code>api_key</code>
 
:* Una sección <code>comun</code> en la que habrá que cambiar el <code>api_key</code>
 
:* Una sección <code>stt</code>, para "speech to text" en la que se configurarán los keyterms del proyecto
 
:* Una sección <code>stt</code>, para "speech to text" en la que se configurarán los keyterms del proyecto
 
:* Una sección <code>tts</code>, para "text to speech"  
 
:* Una sección <code>tts</code>, para "text to speech"  
 
+
<br>
 
<pre style="background-color: #f6f8fa; border: 1px solid #d1d5da; padding: 1em; border-radius: 4px; width: fit-content; margin-left: 50px; font-family: 'Ubuntu Mono', 'Consolas', monospace; white-space: pre-wrap;">
 
<pre style="background-color: #f6f8fa; border: 1px solid #d1d5da; padding: 1em; border-radius: 4px; width: fit-content; margin-left: 50px; font-family: 'Ubuntu Mono', 'Consolas', monospace; white-space: pre-wrap;">
 
[comun]
 
[comun]

Revisión del 10:53 14 may 2026

Se han desarrollado conectores propios para

  • Speech To Text (STT)
  • Text To Speech (TTS)


Para los proveedores

  • Evelenlabs
  • Google

La configuración eficiente es usar STT de ElevenLabs y TTS de Google

ElevenLabs

Se dispone de los programas

  • /opt/omnisuite/bin/omnisuiteSTT11p para Speech to Text (STT) que deberá ser invocado desde un comando "system" de Cally Square
  • /opt/omnisuite/bin/omnisuiteTTS11p para Text To Speech (TTS) que deberá ser invocado desde un comando "system" de Cally Square


El programa lleva asociado un fichero /etc/MDtel/elevenlabs.ini, que contiene:

  • Una sección comun en la que habrá que cambiar el api_key
  • Una sección stt, para "speech to text" en la que se configurarán los keyterms del proyecto
  • Una sección tts, para "text to speech"


[comun]
proxy=no
api_key=APIKEYDELPROYECTO

[stt]
# enable_logging=false solo enterprise
url=https://api.elevenlabs.io/v1/speech-to-text?enable_logging=true
to_ms=10000
# temperature=0.0 a 2.0
temperature=0.1
# keyterms_XX: pueden estar todos vacios o no existir. 00<=XX<=09
keyterms_00=
keyterms_01=
keyterms_02=
keyterms_03=
keyterms_04=
keyterms_05=
keyterms_06=
keyterms_07=
keyterms_08=
keyterms_09=

[tts]
url=https://api.elevenlabs.io/v1/text-to-speech/%s?output_format=%s_8000
to_ms=10000