Como parte de un proyecto de investigación universitario, raspé puestos de trabajo para 4 profesiones en Alemania. Debido a que no pude obtener suficientes publicaciones de trabajo en solo 1 idioma en el período de tiempo que tengo, decidí buscar publicaciones en inglés y alemán.
Ya pasé por todo el flujo de trabajo de PNL tanto con el texto en inglés como con el alemán (tokenizar, lematizar, POS, palabras vacías,...) usando diferentes herramientas debido a que el idioma es diferente.
Ahora necesitaría extraer las habilidades más comunes requeridas para cada profesión y las diferencias entre ellas.
Me doy cuenta de que este es un problema que debería haber previsto, pero ahora tengo dos corpus en dos idiomas diferentes que deben analizarse juntos.
¿Cuál sugiere que es la mejor manera de alcanzar un resultado final científicamente sólido con datos de entrada en dos idiomas?
Hasta ahora, ninguna buena solución vino a mi mente:
- traducir la entrada alemana al inglés y tratar con el resto
- traducir la entrada alemana después de procesar palabra por palabra
- mapear manualmente palabras en inglés y alemán
Solución del problema
Trabajo en una empresa que analiza datos de agencias de noticias en varios idiomas. Todos nuestros análisis procesan solo textos en inglés. La entrada de idiomas extranjeros se traduce automáticamente, lo que da buenos resultados.
Sugeriría que para los anuncios de trabajo esto también debería funcionar, ya que es un dominio muy restringido. No estás viendo literatura o poesía donde podría causar un problema real.
No hay comentarios.:
Publicar un comentario