Diferencia entre revisiones de «Omnisuite STT y TTS»

Revisión del 14:24 14 may 2026

Se han desarrollado conectores propios para

Speech To Text (STT)
Text To Speech (TTS)

Para los proveedores

Evelenlabs
Google

La configuración eficiente es usar STT de ElevenLabs y TTS de Google

1 ElevenLabs

Se dispone de los programas

/opt/omnisuite/bin/omnisuiteSTT11p para Speech to Text (STT)
/opt/omnisuite/bin/omnisuiteTTS11p para Text To Speech (TTS)

En la invocación para Speech to Text incluiremos

Fichero ".ini"
stt --> comando para speech a text
Modelo a usar
idioma a usar
fichero a convertir a texto

Ejemplo STT

Invocación

/opt/omnisuite/bin/omnisuiteSTT11p /etc/MDtel/elevenlabs.ini stt scribe_v2 es  /var/lib/asterisk/sounds/{id_llamada}_stt.wav

Respuesta

{
  "errorNum": 0,
  "errorCad": "OK",
  "text": "¿En qué más puedo ayudarte?",
  "language": "es",
  "elevenlabs_language": "spa",
  "confidence": 100
}

En la invocación para Text to Speech incluiremos

Fichero ".ini"
tst --> comando para speech a text
idioma a usar
Modelo a usar
Voz a usar
Fichero donde quedará el audio obtenido
Texto a convertir

Ejemplo TTS

Invocación

 /opt/omnisuite/bin/omnisuiteTTS11p /etc/MDtel/elevenlabs.ini tts es eleven_turbo_v2_5 1eHrpOW5l98cxiSRjbzJ /var/lib/asterisk/sounds/{id_llamada}_tts.alaw "{vflow_respuesta}"

Respuesta

{
  "errorNum": 0,
  "errorCad": "OK"
}

El fichero ".ini" (por defecto /etc/MDtel/elevenlabs.ini) contiene:

Una sección comun en la que habrá que cambiar el api_key
Una sección stt, para "speech to text" en la que se configurarán los keyterms del proyecto
Una sección tts, para "text to speech"

[comun]
proxy=no
api_key=APIKEYDELPROYECTO

[stt]
# enable_logging=false solo enterprise
url=https://api.elevenlabs.io/v1/speech-to-text?enable_logging=true
to_ms=10000
# temperature=0.0 a 2.0
temperature=0.1
# keyterms_XX: pueden estar todos vacios o no existir. 00<=XX<=09
keyterms_00=
keyterms_01=
keyterms_02=
keyterms_03=
keyterms_04=
keyterms_05=
keyterms_06=
keyterms_07=
keyterms_08=
keyterms_09=

[tts]
url=https://api.elevenlabs.io/v1/text-to-speech/%s?output_format=%s_8000
to_ms=10000

2 Google

3 Integración en Omnisuite

En Omnisuite la invocación a un ASR o TTS del catálogo integrado requiere la inserción de una sola caja en Cally Square, por ejemplo "Google Cloud TTS" o "OpenAI Whisper"
Utilizando la implementación realizada por mdtel, se requerirá al menos de dos cajas:

Para STT:

(Opcional) una caja "system" que reproduzca un pitido
Una caja "system" que grabe el audio del usuario
Una caja "system" que invoque al STT con dicho audio grabado

Speech To Text con "cajas mdtel"

Reproducción de "beep"

Grabación de audio a transcribir

Invocación a transcripción

Para TTS:

Una caja "system" que invoca al TTS y deja el audio generado en un fichero
Una caja "system" que reproduce el audio

Texto to speech con "cajas mdtel"

PENDIENTE SUBIR DETALLES CUANDO TENGAMOS TTS CON GOOGLE EN C

⚠️ ATENCION !!

Este proceso genera un fichero temporal de audio para STT y otro para TTS que deberán ser borrados

Ejemplo para borrar archivo temporal TTS

@@ Línea 95: / Línea 95: @@
 En Omnisuite la invocación a un ASR o TTS del catálogo integrado requiere la inserción de una sola caja en Cally Square, por ejemplo "Google Cloud TTS" o "OpenAI Whisper"
 <br>
-Utilizando la implementación realizada por mdtel, se requerirá de dos cajas:
+Utilizando la implementación realizada por mdtel, se requerirá al menos de dos cajas:
 <br>
 * Para STT:
+::* (Opcional) una caja "system" que reproduzca un pitido
 ::* Una caja "system" que grabe el audio del usuario
 ::* Una caja "system" que invoque al STT con dicho audio grabado

Diferencia entre revisiones de «Omnisuite STT y TTS»

Revisión del 14:24 14 may 2026

1 ElevenLabs

2 Google

3 Integración en Omnisuite

Menú de navegación

Acciones de página

Acciones de página

Herramientas personales

Usuario

Administrador

Servicio técnico

Desarrollo

vFlow

Omnisuite

VIVAit Fax

Cartelia

Roadmap

Imprimir/exportar

Buscar

Herramientas