Chương trình hội thảo:
- Chủ đề: Robust and multilingual analysis of historical documents
- Thời gian: 09h00 ngày 18/04/2023
- Địa điểm: Phòng B18, 11 Nguyễn Đình Chiểu, Quận 1, Tp. HCM
- Thành phần: Giảng viên, Nghiên cứu sinh, Học viên cao học và Sinh viên
Tóm tắt lý lịch khoa học Giáo Sư Antoine Doucet
- 2005: nhận bằng Tiến sĩ ngành Khoa học máy tính, đại học Helsinki, Phần Lan.
- 2012: nhận chức danh Giáo sư tại Đại học La Rochelle, Cộng hoà Pháp
- Hiện nay:
- Trưởng nhóm nghiên cứu về xử lý ảnh và ngôn ngữ tự nhiên tại phòng nghiên cứu L3i, Đại học La Rochelle, Cộng hoà Pháp.
- Trưởng khoa ICT đại học Việt Pháp (USTH).
Chi tiết về lý lịch khoa học của GS Antoine Doucet, có thể xem tại: https://pageperso.univ-lr.fr/antoine.doucet/
Tóm tắt nội dung báo cáo:
Many documents can only be accessed through digitization. This is notably the case of historical and handwritten documents, but also that of many digitally-born documents, turned into images for various reasons (e.g., a file conversion or the intermediary use of an analog form in order to manually sign a document, fill out a form, send by post, etc.). Being able to analyze the textual content of such digitized documents requires a phase of conversion from the captured image to a textual representation, key parts of which are optical character recognition (OCR) and layout analysis. The resulting text and structure are often imperfect, to an extent which is notably correlated with the quality of the initial medium (which may be stained, folded, aged, etc.) and with the quality of the image taken from it. In this talk, I will present recent advances in AI and natural language understanding that enable this type of corpus to be analyzed in a way that is robust to digitization. For example, I will show how how we were able, in the H2020 NewsEye project to create state-of-the-art results for the cross-lingual recognition and disambiguation of named entities (names of people, places, and organizations) in large corpora of historical newspapers written in 4 languages, written between 1850 and 1950. This type of result paves the way to a large-scale analysis of digitized documents, notably able to cross linguistic borders.
Một số hình ảnh của buổi hội thảo: