Neurocientistas traduzem ondas cerebrais da audição em fala inteligível
Usando tecnologia de escaneamento cerebral, inteligência artificial e sintetizadores de fala, cientistas converteram padrões cerebrais em fala verbal inteligível. No entanto, em vez de captar os pensamentos internos de um indivíduo para reconstruir a fala, a nova — publicada esta semana na Scientific Avances — usa os padrões cerebrais produzidos ao escutar a fala.
Para elaborar tal neuroprótese de fala, o neurocientista Nima Mesgarani e seus colegas combinaram avanços recentes em aprendizagem profunda (também conhecida como deep learning) com tecnologias de síntese de fala. A interface cérebro-computador resultante, embora ainda rudimentar, capturou padrões cerebrais diretamente do córtex auditivo, que foram, então, decodificados por um vocoder, ou sintetizador de fala, com tecnologia de inteligência artificial.Em vez disso, o sistema capturou as respostas cognitivas distintas de um indivíduo enquanto ouvia gravações de pessoas falando. Uma rede neural profunda foi, então, capaz de decodificar ou traduzir esses padrões, permitindo que o sistema reconstruísse a fala.
Pacientes com epilepsia foram escolhidos para o estudo porque, muitas vezes, têm que passar por uma cirurgia no cérebro. Mesgarani recrutou cinco voluntários para o experimento, com a ajuda de Ashesh Dinesh Mehta, neurocirurgião do Instituto de Neurociência da Northwell Health Physician Partners e coautor do novo estudo. A equipe usou eletrocorticografia invasiva (ECoG) para medir a atividade neural à medida os pacientes ouviam sons contínuos de fala. Os pacientes escutaram, por exemplo, falantes recitando dígitos de zero a nove. Seus padrões cerebrais foram, então, introduzidos no vocoder equipado com IA, resultando na fala sintetizada.
Os resultados foram muito robóticos, mas bastante inteligíveis. Nos testes, os ouvintes puderam identificar corretamente os dígitos falados em cerca de 75% do tempo. Eles conseguiram até dizer se o orador era masculino ou feminino. Nada mal, e um resultado que chegou a ser uma “surpresa” para Mesgarani, como ele disse ao Gizmodo em um e-mail.William Tatum, neurologista da Mayo Clinic que também não estava envolvido no novo estudo, disse que a pesquisa é importante porque é a primeira a usar a inteligência artificial para reconstruir a fala das ondas cerebrais envolvidas na geração de estímulos acústicos conhecidos. O significado é notável, “porque promove a aplicação da aprendizagem profunda na próxima geração de sistemas de produção de fala”, disse ele ao Gizmodo. Apesar disso, ele sentiu que o tamanho da amostra dos participantes era muito pequeno e que o uso de dados extraídos diretamente do cérebro humano durante a cirurgia não é o ideal.
Outra limitação do estudo é que as redes neurais, para que façam mais do que apenas reproduzir palavras de zero a nove, teriam que ser treinadas em um grande número de sinais cerebrais de cada participante. O sistema é específico do paciente, pois todos nós produzimos padrões cerebrais diferentes ao ouvir a fala. “Será interessante ver como, no futuro, os decodificadores treinados para uma pessoa se generalizariam para outros indivíduos”, disse Jackson. “É um pouco como os sistemas de reconhecimento de fala iniciais, que precisavam ser treinados individualmente pelo usuário, ao contrário da tecnologia atual, como a Siri e a Alexa, que podem entender a voz de qualquer pessoa, usando também redes neurais. Só o tempo dirá se essas tecnologias poderão, um dia, fazer o mesmo para sinais cerebrais.” Sem dúvida, ainda há muito trabalho a fazer. Mas o novo artigo é um passo encorajador para a criação de implantes neuroprostéticos de fala. []