«

»

Feb 27

Imprimir esta Entrada

Acentos, eñes, ces cedillas y otros caracteres malditos

En los últimos meses, las traducciones de sitios web CMS se están convirtiendo en el encargo por excelencia en cualquier entorno. Y las cosas no son siempre fáciles.
¿Os suena?
Los últimos datos sobre CMS publicados (https://w3techs.com/) siguen marcando una tendencia alcista a pesar de que su cuota de mercado está ya por encima del 75%. No obstante, como ya nos complicaremos tecnológicamente luego, pongámoslo fácil:

Los datos traducibles (ya sean documentos, páginas web o bases de datos) se gestionan en una estructura de datos jerarquizada. Eso significa que cada dato (un DNI, un documento o una parte de él, una página web, su traducción o cualquier otro tipo de dato) se encuentra almacenado en un campo de una base de datos.

Estos sistemas existen desde hace mucho tiempo, pero la suma de la eclosión de Internet y de los movimientos de código libre han convertido a los CMS en una opción simple, completa, personalizable y gratuita.

WordPress, Joomla, Drupal, Magento son los más conocidos; WordPress, por ejemplo, se utiliza en el 29,4% de los todos los sitios web.

Las estadísticas se realizan sobre los 10 000 000 de sitios web más visitados, los entre los que encontramos a Fundeu o las propias páginas de WordPress.

Pues bien, vayamos a lo nuestro: Todos los sistemas CMS permiten exportar el contenido traducible (páginas web, por ejemplo) y para ello utilizan un doble sistema de codificación:

  • XML para gestionar la estructura de los datos (su posición, función y otros parámetros de la base de datos necesarios para su reinserción tras la traducción).
  • HTML para gestionar el formato del contenido.

Dejando de lado el tema del formato del documento (texto, Excel o XML) vamos a analizar los elementos del archivo. Al estar el HTML subordinado al XML, el primero debe cumplir las especificaciones del segundo, y esto implica que existen cuatro caracteres, básicos en HTML, que no pueden utilizarse (<,>,& y ).

Evidentemente esto afecta a todas las etiquetas HTML sin excepción y, si las hubiera, a las entidades.

Las entidades, por cierto, son representaciones de caracteres a partir de caracteres básicos: Por ejemplo, la letra a con acento grave (à) puede representarse como &#224; o &agrave; entre otras formas posibles,

En principio, el tema de los caracteres “no ingleses” queda resuelto si se utilizan correctamente las codificaciones y se respecta la sintaxis XML.

Sin embargo, eso no ocurre siempre. De hecho, en AulaSIC hemos constatado que los problemas son bastante comunes. Tanto que, consecuentemente, los programas de traducción asistida de un cierto nivel disponen de soluciones para el problema siempre que sepamos comprender cómo trabajan.

La última locura correspondía a una exportación XML de un sitio web (imagen superior) que codificaba las letras especiales como tales (es decir, una a con acento grave se representa como à y una eñe como ñ), cuando el funcionamiento por defecto, por ejemplo, de SDL Trados Studio convierte esos caracteres, en el espacio HTML, a &agrave; y a &ntilde; al generar la traduccion de destino, lo que supone, como en el ejemplo español-catalán de la imagen), que tengamos los originales de una forma y las traducciones de otra.

Y, cuando el documento regresa a la web, el programa interpreta los caracteres como tales y muestra palabras como peñal de la siguiente forma: pe&ntilde;al.

Veamos, por ejemplo, cómo afronta el problema SDL Trados Studio. El programa analiza, de forma separada la estructura XML y la estructura HTML (desde la versión 2015; en versiones anteriores el sistema era menos complejo… y más complicado, y no siempre funcionaba bien).

En la definición XML, además de especificar en el filtro los elementos (el equivalente a etiquetas en HTML) y su gestión (traducibles, no traducibles, estructurales…) se establecen las condiciones para reconocer los marcadores XML y el trato que debe darse a los caracteres especiales existentes en XML.

En un primer estadio, si no se especifica nada en el trato de los caracteres, solo entran los caracteres especiales en funcionamiento. Se asignan dichos caracteres a XML y se interpretan los elementos. Si hubiera caracteres especiales en la estructura XML deberíamos definir el comportamiento en este apartado.

Por ejemplo, cuando determinados atributos XML son susceptibles de traducción.

Cuando se especifica que el documento contiene contenidos HTML a SDL Trados Studio se le indica qué intérprete de contenido debe utilizarse (en este caso podremos seleccionar HTML4 o HTML 5, con las implicaciones correspondientes).

Pues bien, es ese apartado, el control de los caracteres no básicos se realiza en el apartado correspondiente del procesador HTML, por lo que podremos configurar y marcar o desmarcar las casillas correspondientes a entidades individuales, o por grupos, para convertir o no convertir las entidades en caracteres cuando preparemos el archivo bilingüe y cuando generemos el documento traducido.

Y el sistema, con esta doble estrategia funciona.

Y si queréis ver el proceso en directo… estad al tanto de las nuevas convocatorias de videocursos, ya que añadiremos pronto una nueva colección de recursos.

Salvador Aparicio
SIC, SL

Uso de cookies

Este sitio web utiliza cookies para que usted tenga la mejor experiencia de usuario. Si continúa navegando está dando su consentimiento para la aceptación de las mencionadas cookies y la aceptación de nuestra política de cookies, pinche el enlace para mayor información.

ACEPTAR
Aviso de cookies