ESTADO DEL ARTE

Para el desarrollo de un sistema como el propuesto, se necesita utilizar ciertas tecnologías y herramientas que permitan recibir un mensaje a través de un medio, como puede ser Bluetooth, Wi-Fi, entre otros; realizar el procesamiento de dicho mensaje, sintetizar el mensaje desde un formato a otro, en este caso text-to-speech (TTS); y finalmente reproducir el mensaje en audio, realizando la gesticulación de este.

PROCESAMIENTO DE DATOS

Generalmente los sistemas electromecánicos requieren una unidad de control que se encargue del procesamiento de la información y la comunicación entre los diferentes actuadores y sensores que componen el sistema. En el caso del proyecto que se propone, se requiere que este sistema reciba el mensaje tipo texto, lo procese y realice la interpretación y reproducción de dicho mensaje mediante audio, acompañado de gestos acordes al mismo.

En el mercado actual, dentro del nicho del prototipado rápido, es claro que las principales alternativas es Arduino y Raspberry Pi. Por un lado, Arduino es una plataforma electrónica de código abierto basada en hardware y software fáciles de usar [2]. Permite un desarrollo rápido de pequeños prototipos y su costo es bastante económico. Sin embargo, su capacidad de computo es bastante limitada. Raspberry Pi, por su parte, es considerada es una computadora de bajo costo que permite escribir programas en lenguajes como Python para controlar entradas y salidas, así como funciones propias de un computador de escritorio [3]. Entre sus principales características están sus periféricos con los que se puede conectar teclados, pantallas y mouses, entre otros dispositivos. Además de su conectividad Bluetooth y WI-FI, con la cual se puede enviar información y señales de forma inalámbrica. Además de soportar un sistema operativo para tareas básicas como navegar en internet. Cuenta además con pines para conectar componentes y circuitos electrónicos funcionando a 3.3V [2].

ANÁLISIS DE EMOCIONES

Para dar una gesticulación a un mensaje, el uso de gestos es necesario y se relaciona con las emociones asociado a dicho mensaje. Las emociones del ser humano suelen categorizarse en 6: felicidad, enojo, tristeza, sorpresa, asco y miedo. En el proceso de comunicación, estas emociones suelen marcar los gestos que se realizan mientras se expresa una idea o mensaje. Una emoción se produce cuando una información sensorial llega a los centros emocionales del cerebro, produciendo una respuesta neurofisiológica que es interpretada por el neocórtex [4].

SÍNTESIS DE VOZ

Es la producción artificial del habla utilizando un sistema computarizado. Estos sistemas pueden ser implementados mediante hardware o software. Los sistemas TTS convierten el lenguaje de texto normal en habla [8].

En esta area grandes empresas tecnológicas han desarrollado herramientas para ofrecer a las personas interfaces sencillas para realizar TSS en sus aplicaciones. Es el caso de AWS, con Amazon Polly, el cual es un servicio de texto a voz (TTS) que utiliza tecnologías de aprendizaje profundo avanzadas para sintetizar habla que se asemeja a una voz humana. Gracias a las decenas de voces realistas en varios idiomas, se pueden crear aplicaciones con habla aptas para distintos países [9].

Otra empresa que también ofrece una herramienta interesante es Google, mediante una API para TTS, con la cual se puede convertir texto en voz con sonido natural, combinando tecnología IA. Esta API es utilizada en aplicaciones de traducciones y bot de voz en centros de contacto [10].

Adicionalmente, se dispone de una biblioteca que permite utilizar de manera sencilla esta API en aplicaciones desarrolladas con Python. Esta librería es gTTS, la cual es una biblioteca de Python y una herramienta CLI para interactuar con la API de texto a voz de Google Translate. Permite generar salidas en formato mp3 de los archivos procesados [11].

ROSTROS FACIALES EN DISPLAYS DE ROBOTS

Una alternativa que se suele tomar en este tipo de proyectos para dibujar el rostro de los robots es usar pantallas leds. Es el caso de Xiaodan, un robot inteligente desarrollado por Xiaomi. Este robot se concibe como un robot interactivo para niños y esta equipado con una pantalla táctil de 7 pulgadas [12]. Para el proyecto a desarrollar se podría utilizar una pantalla de dimensiones similares, aunque no necesariamente tiene que ser táctil, ya que el objetivo no es proveer ese tipo de interacción al usuario. La pantalla mostraría un rostro robótico, que tendría gestos al reproducir el mensaje.

MERCADO

En este apartado se puede ver los robots que tienen características similares al proyecto propuesto.

Patentes

En este apartado se puede observar todas las patentes tomadas en cuenta para realizar el proyecto

CONCLUSIONES

A partir de la información reunida y la investigación realizada, se pueden concluir varios aspectos para tener en cuenta en el proyecto. Por una parte, el uso de rostros con parecido humano en robótica ha sido una practica usual y estudiada por diferentes instituciones, mostrando resultados favorables en cuanto a experiencia de usuario. Se debe tener cuidado, sin embargo, de los gestos hechos por el robot; los mismos no deben ser agresivos o poco amigables con el usuario para evitar incomodidad en la experiencia. También se encontraron herramientas de software que pueden ser de utilidad para la parte de reproducción de síntesis de audio a partir de texto y para el análisis de los mensajes. Eso podría tener muchos usos, pero por ahora se utilizará para identificar el mayor sentimiento en un mensaje y hacer gestos acordes a este.

Por otro lado, en la industria y en la academia se han desarrollado proyectos similares como los que se proponen. Algunos utilizan rostros mecánicos mientras otros menos utilizan pantallas para mostrar rostros a los usuarios. Esta última opción resulta más atractiva para el caso de aplicación del proyecto, pues se busca un desarrollo rápido y efectivo del producto, lo que podría lograrse con el uso de estas pantallas. De forma similar, la plataforma Raspberry Pi ofrece características atractivas para el desarrollo, como facilidad de conexión con pantallas y altavoces, el soporte wifi y los pines para conexión electrónica.

De las entrevistas con los clientes y el análisis de sus necesidades, se concluye que se requiere un robot con aspecto similar a un humano, al menos en cuanto a altura, con capacidad para reproducir mensajes y hacer la gesticulación de estos, que se pueda mover fácilmente y con comunicación inalámbrica para el envío de los mensajes a reproducir.

Observando los actuadores de todos los robots investigados se concluye que los servomotores son los más usados en este campo, esto por la gran precisión que tienen en términos de velocidad, par motor y posición gracias al sistema de control integrado. Estas características hacen viable que los movimientos del robot logren alcanzar gran similitud a los movimientos naturales de un humano.

Descargar