domingo, 11 de abril de 2010

Un mundo sin fronteras idiomáticas


Los buscadores de Internet impulsan la traducción automática e instantánea con éxito creciente en los textos no creativos. "El traductor automático me ha salvado la vida", confiesa Jordi Ramot. Este gerundense dirige Wikiloc, un sitio donde la gente cuelga sus excursiones. Más de 156.000 rutas de 168 países. Excursionistas de todo el mundo le escriben a Ramot como si Babel no existiera. "Ven la página en su idioma y se creen que yo lo hablo"

"El traductor automático me ha salvado la vida", confiesa Jordi Ramot. Este gerundense dirige Wikiloc, un sitio donde la gente cuelga sus excursiones. Más de 156.000 rutas de 168 países. Excursionistas de todo el mundo le escriben a Ramot como si Babel no existiera. "Ven la página en su idioma y se creen que yo lo hablo".

En el mundo real, Ramot se entiende en cinco idiomas, una nadería en el ciberespacio. "Paso el traductor de Google para escribir en griego, ruso, polaco, sueco... Me llega un e-mail en ruso, lo traduzco online, escribo mi respuesta en español o inglés, lo vuelvo a traducir al ruso y lo envío. Funciona muy bien. Cuando me responden dando las gracias en ruso me pregunto si saben que yo estoy en Girona y no en Moscú".

"El mayor obstáculo para el entendimiento global es idiomático", explica Javier Arias, ingeniero lingüístico de Google. "Nuestro objetivo fundacional era ordenar toda la información y hacerla accesible". El gran buscador traduce 52 idiomas en más de 2.500 combinaciones posibles. Gracias al poderío de la potencia de cálculo de decenas de miles de ordenadores, Google ha llegado más lejos que nadie en la traducción automática, gratis, universal y al instante.

El traductor de Google es el más habitual, pero no el único. También lo tienen los buscadores Bing y Yahoo! y varias universidades españolas investigan proyectos sobre lenguas del Estado. Además, la traducción automática de calidad es un negocio para empresas especializadas.

La filosofía de la traducción automática siempre es la misma: llenar el ordenador de información, empacharle de diccionarios y de gramáticas. El ordenador traduce según la información que almacena; cuanta más, mejor. "El ordenador no entiende el lenguaje, lo procesa", describe Juan Alonso, directivo de Lucy Software, un traductor automático para empresas.

El límite es la capacidad de memoria; la de la computadora de casa es limitada, sin embargo los buscadores de Internet aprovechan la capacidad casi infinita de sus redes de ordenadores para llenarlos de información. Miles de diccionarios, millones de documentos, leyes, discursos de la ONU y del Parlamento Europeo traducidos por humanos, con carácter oficial y a decenas de idiomas. Un aprendizaje de idiomas por acumulación de información (Internet no tiene problema de estanterías) y de usuarios (cientos de millones de personas empleando estos traductores y corrigiéndoles).

El Translate me ha traducido "fan", aficionado, por ventilador, en un texto en el que no cabía la confusión. "Ante el error se puede optar por dos sistemas de corrección", explica Arias, "el artesanal, que introduce manualmente correcciones, y el algorítmico, que, antes de tocar nada, busca averiguar por qué el algoritmo ha llegado a esa conclusión en ese contexto. Google opta por el segundo sistema que a largo plazo da mejores rendimientos. Introducir manualmente excepciones y más excepciones nos llevaría al caos".

Cada 14 días muere una lengua. Hay 2.500 en peligro de extinción, muchas de ellas amenazadas por los idiomas-asesinos: inglés, español y francés. En el año 2100 pueden haber desaparecido la mitad de las 7.000 lenguas actuales, según la Unesco. La traducción automática podría frenar la tendencia. Gracias a ella es posible la comunicación y los negocios, sin abandonar la lengua materna. Del yiddish al gallego, del suajili al letón o del bielorruso al afrikaans. Los textos de 52 idiomas en Google, de 20 en Bing y de 11 en Yahoo! se traducen automáticamente.

Pero el mundo de la traducción automática ni empezó ni acabará en Internet. Antes de que Google existiera, Óscar Suau y su equipo se inventaron un sistema para la traducción automática de El Periódico de Catalunya, que en 1994 se empezó a vender en castellano y catalán. Suau creó Automatictrans, empresa que hoy da servicio, entre otros, a las agencias Efe y Europa Press y a la web del Ministerio de Educación, "la única de la Administración con sus contenidos en las cuatro lenguas del Estado", explica Suau.

"A diferencia de otros traductores, nuestro método emplea tres sistemas, el estadístico, que es el de Google; el sistema de memorias de traducción dinámica y el de las reglas gramaticales de cada idioma", explica Suau. Los textos van pasando los tres filtros. "Si el primero detecta una palabra dudosa, se encola para que lo coja el corrector (automático) que, una vez asegurado el término, lo devuelve al sistema para que lo aprenda".

Suau deja claro que la traducción automática se divide entre la que sólo persigue captar el sentido del texto, como Google, y la publicable o productiva. Es el caso de los servicios de pago que ofrecen Automatictrans o Lucy Software. "A diferencia de los buscadores, nosotros empleamos sistemas híbridos, técnicas mixtas: el algoritmo y la corrección humana", explica Alonso, que tiene entre sus clientes a las administraciones y a grandes corporaciones como SAP o Volkswagen. "Indudablemente ha mejorado la calidad respecto hace una década, pero nunca será comparable a la traducción humana".

Sin embargo, Suau cree que el éxito puede llega al 99%. "En lenguas cercanas, como las latinas, la calidad roza el 95% y con las correcciones del cliente alcanza el 99%. En lenguas como euskera, inglés o chino, los resultados rondan el 80% de éxito".

Los expertos coinciden en que la traducción automática de la obra creativa es imposible. "Pero son sólo el 10% de la producción", advierte Suau, que cree inviable económicamente las webs en varios idiomas y con nuevos contenidos diarios. "La traducción automática reduce los costes hasta un 85% respecto a las webs sin esta tecnología".

Las empresas como Automatictrans y Lucy Software, o los proyectos universitarios juegan la carta de la especialización. "No creo en la traducción universal", dice Suau. "En Efe, el sistema que traduce la información local es diferente al de economía, y así podrá distinguir cuándo un banco es para sentarse, para meter dinero o para almacenar sangre. Creamos sistemas para el contenido de cada cliente, con sus propias normas de estilo. El primer punto es tecnología, pero el segundo, metodología".


Los avances no se detienen. Desde hace unos meses ya se traduce de voz a texto, mucho más complicado técnicamente que de texto a voz. La novedad llega de la mano de YouTube. A petición del internauta es capaz de que un vídeo con voz en inglés incorpore subtítulos en castellano. Más aún, Android, el sistema telefónico de Google, ya es capaz de traducir y convertir la voz en texto. Según explica Arias, la técnica empleada es la más ambiciosa. "El clásico dictado al ordenador de un texto hasta que reconoce la voz del que habla, pero con millones y millones de usuarios. El sistema va aprendiendo con el tiempo y el uso. Al igual que el ordenador, el teléfono no tiene suficiente potencia, o sea información, para traducir. Nosotros esa voz la enviamos a la nube, a Internet, donde la potencia de información es infinita, y la nube te lo devuelve traducido, en texto al segundo. Es bastante revolucionario".

Lo último son las gafas Tele Scouter, de la empresa japonesa Nec. Traducen en tiempo real lo que el interlocutor al que mira pronuncia, o sea, será literal decir: "Ya veo lo que dices". Con estas gafas, si un chino hablando chino se mirara a los ojos de un español hablando español, ambos se entenderían con la inmediatez de una película con subtítulos.

En las lentes se proyecta el texto, para lo cual llevan integrados una cámara y un micrófono, que recogen las palabras que se pronuncian y que las envía a un pequeño ordenador que lleva encima, envía la voz a Internet que convierte el audio en texto en el idioma que hayamos escogido.

Los avances no acaban. Aquí llega otra vez Google con su conversor fonético. Convertir caracteres latinos a su equivalente fonético en hindi, marati o urdu, entre otras lenguas no romanizados. Si queremos decir "Hoy luce el sol" en telugu, pero no sabemos pronunciar esos caracteres, Google voceará lo escrito. Si no tenemos el teclado en telugu, escribe cómo te suena que Google lo convierte en el sonido de la lengua nativa.

Gracias a que lio sus idiomas, Yavé consiguió que los albañiles no acabaran la Torre de Babel. Hoy, con la traducción automática, rumanos, serbios, polacos y paquis nos podrían acabar antes y mejor la reforma de la cocina.

Traducción de un texto periodístico
- Agency Reuters: Obama picks up new support for health bill. President Barack Obama picked up support for healthcare reform on Wednesday from a prominent liberal and a group of Catholic nuns, who broke with bishops on the issue of abortion and urged passage of the overhaul. Representative Dennis Kucinich, one of the most liberal members of Congress and a supporter of nationalized healthcare, became the first Democrat in the House of Representatives to switch from "no" to "yes" on the overhaul as it neared a likely final vote on Sunday.

- Traducción humana: Obama consigue nuevos apoyos para la ley sanitaria.

El presidente Barack Obama consiguió el miércoles, para su reforma sanitaria, el apoyo de un líder liberal y de un grupo de monjas católicas, que rompieron con los obispos por el tema del aborto y que piden la aprobación de la reforma. El congresista Dennis Kucinich, uno de los miembros más liberales del Congreso y partidario de un servicio sanitario nacionalizado, se convirtió en el primer demócrata de la cámara de representantes en pasarse del "no" al "sí" de la reforma, en vísperas de la probable votación del domingo.

- Google Traslate: Obama recoge el nuevo soporte para proyecto de ley de salud. El presidente Barack Obama recogió apoyo a la reforma de salud el miércoles de un liberal prominente y un grupo de monjas católicas, que rompió con los obispos sobre la cuestión del aborto e instó a la aprobación de la revisión. El representante Dennis Kucinich, uno de los miembros más liberales del Congreso y partidario de la asistencia sanitaria nacionalizadas, se convirtió en el primer demócrata en la Cámara de Representantes para pasar de "no" a "sí" sobre la reforma al acercarse a un voto final probablemente el domingo.

- Bing Traslator. Obama recoge el nuevo soporte para el proyecto de ley de salud. Presidente Barack Obama recogido apoyo para la reforma de salud el miércoles de un prominente liberal y un grupo de monjas católicas, que rompió con los obispos sobre la cuestión del aborto e instó a la aprobación de la revisión. Representante Dennis Kucinich, uno de los miembros más liberales del Congreso y un partidario de la asistencia sanitaria nacionalizada, se convirtió en el primer demócrata en la cámara de representantes para cambiar de "no"a"sí" en la revisión, cuando se acercó a una probable votación final el domingo.

Traducción de una obra literaria
- The Catcher in the rye (1951). J. D. Salinger. If you really want to hear about it, the first thing you?l probably want to know is where I was born, and what my lousy childhood was like, and how my parents were occupied and all before they had me, and all that David Copperfield kind of crap, but I don? feel like going into it, if you want to know the truth. In the first place, that stuff bores me, and in the second place, my parents would have two hemorrhages apiece if I told anything pretty personal about them. They?e quitee touchy about anything like that, especially my father.

- Traducción de Carmen Criado. El guardián entre el centeno. Si de verdad les interesa lo que voy a contarles, lo primero que querrán saber es dónde nací, cómo fue todo ese rollo de mi infancia, qué hacían mis padres antes de tenerme a mí, y demás puñetas estilo David Copperfield, pero no tengo ganas de contarles nada de eso. Primero porque es una lata, y segundo, porque a mis padres les daría un ataque si yo me pusiera aquí a hablarles de su vida privada. Para esas cosas son muy especiales, sobre todo mi padre.

- Google Translate. El guardián entre el centeno. Si realmente quiere oír hablar de eso, lo primero que usted probablemente querrá saber es donde nací, y lo que mi infancia fue pésimo, y cómo mis padres estaban ocupados y todas antes de que me tenía, y todo lo que David Copperfield tipo de mierda, pero yo no tengo ganas de ir a ella, si quieres saber la verdad. En primer lugar, eso me aburre, y en segundo lugar, mis padres tienen dos hemorragias cada uno si le dije algo muy personal acerca de ellos. Son quitee sensible acerca de nada de eso, especialmente a mi padre.

- Bing Translator. El receptor en el centeno. Si realmente desea oír acerca de él, la primera cosa que probablemente querrá saber es donde yo nací y lo que era mi infancia pésimo como y cómo fueron ocupadas mis padres y todos antes de que me tenían y todo ese tipo David Copperfield de mierda, pero no me siento como ir en el mismo, si desea conocer la verdad. En primer lugar, esas cosas me aburre, y en segundo lugar, mis padres tendría dos hemorragias cada uno si dije nada muy personal acerca de ellos. Son quitee touchy acerca de algo como eso, especialmente de mi padre.

Diario Ultimas Noticias, seccion Vida, 10/04/2010.

domingo, 4 de abril de 2010

Portal de Lengua y Literatura Hispanoamericanas


Me acaba de lleggar una invitación a conocer el blog de Lengua y Literatura Hispanoamericanas de la Universidad Autónoma de Chiapas. Facultad de Humanidades. Incluye diversas referencias a cursos, publicaciones etc., disponible en: http://semioticaydiscurso.blogspot.com/

sábado, 3 de abril de 2010

Nuevo número de Discurso y Sociedad


Anuncian la publicación del más reciente número de Discurso y Sociedad. Transcribo de la página web de la revista los criterios para selección de artículos, que dan cuenta con claridad del enfoque que los editores pretenden dar a este proyecto editorial. La información completa está disponible en http://www.dissoc.org


"Discurso & Sociedad es una revista de análisis del discurso. Busca artículos que analicen sistemática y explícitamente las estructuras y estrategias del discurso escrito o hablado. El marco teórico ha de considerar los desarrollos actuales e internacionales de los estudios del discurso.
"A la vez, es una revista de análisis y de crítica social: analiza problemas sociales dentro de un marco explícito de las ciencias sociales. Por ello mismo, se trata de una revista multidisciplinaria de humanidades y ciencias sociales. Se da preferencia a los artículos que no se limitan a una disciplina. Los problemas sociales son complejos y para su análisis adecuado no bastan los términos y teorías de una sola disciplina.
"Es una revista internacional: Publica artículos de autores y autoras de muchos países, y con una bibliografía internacional.
"Es una revista para estudiantes y académicos de varias disciplinas y especializaciones. Los artículos han de ser fácilmente comprensibles y evitar formulaciones obscuras. Para garantizar la accesibilidad del artículo, se recomienda una lectura previa por dos estudiantes. No por ello la exigencia de calidad es más reducida. Antes de la evaluación por el comité asesor se recomienda a los autores pedir una lectura crítica por colegas expertos en el área del artículo.
"Discurso & Sociedad no publica artículos exclusivamente teóricos. Los artículos tienen que basarse en el análisis de un corpus de discursos. Las advertencias contenidas en el artículo de Potter et al abajo reseñado constituyen una buena guía acerca de lo que debe evitarse en este tipo de artículos."

Las tres leyes de Asimov no son suficiente


Las tres Leyes de la Robótica enunciadas por Isaac Asimov no son suficiente; al menos eso piensan los gobiernos de Corea y Japón, los cuales han iniciado una polítiva preventiva en cuanto a la regulación del comportamiento de los robots. Ambos gobiernos han convocado sendos equipos de expertos, que incluyen expertos, futurólogos y escritores de ciencia-ficción, para redactar un código de ética para la conducta de
robots. Este código intenta superar incluso los planteamientos que hiciera el escritor estadounidense, aparecidas por primera vez en el relato Runaround (1942), ya que no sólo establece los principios reguladores del comportamiento robótico, sino que poropone compilar una vasta base de datos acerca de los daños que han producido robots a seres humanos, a resultas de su uso como herramienta industrial o doméstica. Esta base de datos deberá estar a la disposición de todos los fabricantes de robots, a efectos de su diseño y construcción. El texto completo está disponible en http://www.gmcweb.net/curiosidades/leyrobots.htm.

Chatbots


Acabo de encontrar un interesante compendio de los principales chatbot creados a la fecha. Lo publica la Asociación para el Avance de la Inteligencia Arficicial (AAAI son sus siglas en inglés), y se encuentra disponible en: http://www.aaai.org/AITopics/pmwiki/pmwiki.php/AITopics/NaturalLanguage.

Jabberwacky y Joan



Los invito a conocer dos de los principales Chatbot existentes. Los Chatbot son robots que conversan con personas. Para ello emplean métodos probabilísticos con los que identifica en grandes bases de datos las mejores respuestas a las intervenciones de los interlocutores. El creador de Joan y Jabberwacky se ganó en 2006 el premio Loebner al mayor avance a la fecha en Inteligencia Artificial. Para conversar con ellas, pueden acceder a http://www.jabberwacky.com.
El premio Loebner se basa en la prueba de Turing, según la cual nos veremos obligados a hablar de inteligencia artificial una vez que no sea posible distinguir las respuestas de un ser humano de las de un robot.
La reseña completa, y un extracto de la conversación que le valió el premio, está disponible en http://www.technologyreview.com/read_article.aspx?id=17518&ch=infotech&a=f