Mounir Zrigui

2022

pdf bib
Contextual-Boosted Deep Neural Collaborative Filtering Approach for Arabic Textual Documents Recommendation
Ons Meddeb | Mohsen Maraoui | Mounir Zrigui
Proceedings of the 36th Pacific Asia Conference on Language, Information and Computation

pdf bib
Siamese AraBERT-LSTM Model based Approach for Arabic Paraphrase Detection
Adnen Mahmoud | Mounir Zrigui
Proceedings of the 36th Pacific Asia Conference on Language, Information and Computation

2019

pdf bib abs
The Extended Arabic WordNet: a Case Study and an Evaluation using a Word Sense Disambiguation System
Mohamed Ali Batita | Mounir Zrigui
Proceedings of the 10th Global Wordnet Conference

Arabic WordNet (AWN) represents one of the best-known lexical resources for the Arabic language. However, it contains various issues that affect its use in different Natural Language Processing (NLP) applications. Due to resources deficiency, the update of Arabic WordNet requires much effort. There have only been only two updates it was first published in 2006. The most significant of those being in 2013, which represented a significant development in the usability and coverage of Arabic WordNet. This paper provides a study case on the updates of the Arabic WordNet and the development of its contents. More precisely, we present the new content in terms of relations that have been added to the extended version of Arabic WordNet. We also validate and evaluate its contents at different levels. We use its different versions in a Word Sense Disambiguation system. Finally, we compare the results and evaluate them. Results show that newly added semantic relations can improve the performance of a Word Sense Disambiguation system.

2018

pdf bib abs
Traduction automatique de corpus en anglais annotés en sens pour la désambiguïsation lexicale d’une langue moins bien dotée, l’exemple de l’arabe (Automatic Translation of English Sense Annotated Corpora for Word Sense Disambiguation of a Less Well-endowed Language, the Example of Arabic)
Marwa Hadj Salah | Loïc Vial | Hervé Blanchon | Mounir Zrigui | Didier Schwab
Actes de la Conférence TALN. Volume 1 - Articles longs, articles courts de TALN

Les corpus annotés en sens sont des ressources cruciales pour la tâche de désambiguïsation lexicale (Word Sense Disambiguation). La plupart des langues n’en possèdent pas ou trop peu pour pouvoir construire des systèmes robustes. Nous nous intéressons ici à la langue arabe et présentons 12 corpus annotés en sens, fabriqués automatiquement à partir de 12 corpus en langue anglaise. Nous évaluons la qualité de nos systèmes de désambiguïsation grâce à un corpus d’évaluation en arabe nouvellement disponible.

pdf bib abs
Un corpus en arabe annoté manuellement avec des sens WordNet (Arabic Manually Sense Annotated Corpus with WordNet Senses)
Marwa Hadj Salah | Hervé Blanchon | Mounir Zrigui | Didier Schwab
Actes de la Conférence TALN. Volume 2 - Démonstrations, articles des Rencontres Jeunes Chercheurs, ateliers DeFT

OntoNotes comprend le seul corpus manuellement annoté en sens librement disponible pour l’arabe. Elle reste peu connue et utilisée certainement parce que le projet s’est achevé sans lier cet inventaire au Princeton WordNet qui lui aurait ouvert l’accès à son riche écosystème. Dans cet article, nous présentons une version étendue de OntoNotes Release 5.0 que nous avons créée en suivant une méthodologie de construction semi-automatique. Il s’agit d’une mise à jour de la partie arabe annotée en sens du corpus en ajoutant l’alignement vers le Princeton WordNet 3.0. Cette ressource qui comprend plus de 12 500 mots annotés est librement disponible pour la communauté. Nous espérons qu’elle deviendra un standard pour l’évaluation de la désambiguïsation lexicale de l’arabe.

pdf bib abs
Derivational Relations in Arabic WordNet
Mohamed Ali Batita | Mounir Zrigui
Proceedings of the 9th Global Wordnet Conference

When derivational relations deficiency exists in a wordnet, such as the Arabic WordNet, it makes it very difficult to exploit in the natural language processing community. Such deficiency is raised when many wordnets follow the same development path of Princeton WordNet. A rule-based approach for Arabic derivational relations is proposed in this paper to deal with this deficiency. The proposed approach is explained step by step. It involves the gathering of lexical entries that share the same root, into a bag of words. Rules are then used to affect the appropriate derivational relations, i.e. to relate existing words in the AWN, involving part-of-speech switch. The method is implemented using Java. Manual verification by a lexicographer takes place to ensure good results. The described approach gave good results. It could be useful for other morphologically complex languages as well.

2017

pdf bib
Arabic-English Text Translation Leveraging Hybrid NER
Emna Hkiri | Souheyl Mallat | Mounir Zrigui
Proceedings of the 31st Pacific Asia Conference on Language, Information and Computation

pdf bib
Unsupervised Method for Improving Arabic Speech Recognition Systems
Mohamed Labidi | Mohsen Maraoui | Mounir Zrigui
Proceedings of the 31st Pacific Asia Conference on Language, Information and Computation

pdf bib
Semantic Similarity Analysis for Paraphrase Identification in Arabic Texts
Adnen Mahmoud | Mounir Zrigui
Proceedings of the 31st Pacific Asia Conference on Language, Information and Computation

2016

pdf bib abs
Amélioration de la traduction automatique d’un corpus annoté (Improvement of the automatic translation of an annotated corpus)
Marwa Hadj Salah | Hervé Blanchon | Mounir Zrigui | Didier Schwab
Actes de la conférence conjointe JEP-TALN-RECITAL 2016. volume 2 : TALN (Posters)

Dans cet article, nous présentons une méthode pour améliorer la traduction automatique d’un corpus annoté et porter ses annotations de l’anglais vers une langue cible. Il s’agit d’améliorer la méthode de (Nasiruddin et al., 2015) qui donnait de nombreux segments non traduits, des duplications et des désordres. Nous proposons un processus de pré-traitement du SemCor anglais, pour qu’il soit adapté au système de traduction automatique statistique utilisé, ainsi qu’un processus de post-traitement pour la sortie. Nous montrons une augmentation de 2,9 points en terme de score F1 sur une tâche de désambiguïsation lexicale ce qui prouve l’efficacité de notre méthode.

pdf bib abs
Système hybride pour la reconnaissance des entités nommées arabes à base des CRF (Hybrid Arabic NER system using CRF Model)
Emna Hkiri | Souheyl Mallat | Mounir Zrigui
Actes de la conférence conjointe JEP-TALN-RECITAL 2016. volume 2 : TALN (Posters)

La reconnaissance d’entités nommées (REN) pour les langues naturelles telles que l’arabe est une tâche essentielle et difficile. Dans cet article, nous décrivons notre système hybride afin d’améliorer la performance du système de REN et de combler le manque de ressources pour le TAL arabe. Notre système applique un modèle CRF, un lexique bilingue d’ENs et des règles linguistiques spécifiques à la tâche de reconnaissance d’entités nommées dans les textes arabes. Les résultats empiriques indiquent que notre système surpasse l’état-de l’art de la REN arabe lorsqu’il est appliqué au corpus d’évaluation standard ANERcorp.

pdf bib abs
Vocal Pathologies Detection and Mispronounced Phonemes Identification: Case of Arabic Continuous Speech
Naim Terbeh | Mounir Zrigui
Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC'16)

We propose in this work a novel acoustic phonetic study for Arabic people suffering from language disabilities and non-native learners of Arabic language to classify Arabic continuous speech to pathological or healthy and to identify phonemes that pose pronunciation problems (case of pathological speeches). The main idea can be summarized in comparing between the phonetic model reference to Arabic spoken language and that proper to concerned speaker. For this task, we use techniques of automatic speech processing like forced alignment and artificial neural network (ANN) (Basheer, 2000). Based on a test corpus containing 100 speech sequences, recorded by different speakers (healthy/pathological speeches and native/foreign speakers), we attain 97% as classification rate. Algorithms used in identifying phonemes that pose pronunciation problems show high efficiency: we attain an identification rate of 100%.

L’objectif de cet article est la présentation d’un système de génération automatique de dictionnaires électroniques de la langue arabe classique, développé au sein de laboratoire UTIC (unité de Monastir). Dans cet article, nous présenterons, les différentes étapes de réalisation, et notamment la génération automatique de ces dictionnaires se basant sur une théorie originale : les Conditions de Structures Morphomatiques (CSM), et les matrices lexicales. Ce système rentre dans le cadre des deux projets MIRTO et OREILLODULE réalisés dans les deux laboratoires LIDILEM de Grenoble et UTIC Monastir de Tunisie

2007

pdf bib abs
Évaluation des performances d’un modèle de langage stochastique pour la compréhension de la parole arabe spontanée
Anis Zouaghi | Mounir Zrigui | Mohamed Ben Ahmed
Actes de la 14ème conférence sur le Traitement Automatique des Langues Naturelles. Posters

Les modèles de Markov cachés (HMM : Hidden Markov Models) (Baum et al., 1970), sont très utilisés en reconnaissance de la parole et depuis quelques années en compréhension de la parole spontanée latine telle que le français ou l’anglais. Dans cet article, nous proposons d’utiliser et d’évaluer la performance de ce type de modèle pour l’interprétation sémantique de la parole arabe spontanée. Les résultats obtenus sont satisfaisants, nous avons atteint un taux d’erreur de l’ordre de 9,9% en employant un HMM à un seul niveau, avec des probabilités tri_grammes de transitions.

2006

pdf bib abs
L’influence du contexte sur la compréhension de la parole arabe spontanée
Anis Zouaghi | Mounir Zrigui | Mohamed Ben Ahmed
Actes de la 13ème conférence sur le Traitement Automatique des Langues Naturelles. Posters

Notre travail s’intègre dans le cadre du projet intitulé « Oréodule » : un système de reconnaissance, de traduction et de synthèse de la langue arabe. L’objectif de cet article est d’essayer d’améliorer le modèle probabiliste sur lequel est basé notre décodeur sémantique de la parole arabe spontanée. Pour atteindre cet objectif, nous avons décidé de tester l’influence de l’utilisation du contexte pertinent, et de l’intégration de différents types de données contextuelles sur la performance du décodeur sémantique employé. Les résultats sont satisfaisants.

pdf bib abs
Calcul du sens des mots arabes ambigus
Anis Zouaghi | Mounir Zrigui | Mohamed Ben Ahmed
Actes de la 13ème conférence sur le Traitement Automatique des Langues Naturelles. REncontres jeunes Chercheurs en Informatique pour le Traitement Automatique des Langues (Posters)

Nous présentons dans cet article un analyseur sémantique pour la langue arabe. Cet analyseur contribue à la sélection du sens adéquat parmi l’ensemble des sens possibles que peut recevoir un mot hors contexte. Pour atteindre cet objectif, nous proposons un modèle vectoriel qui permet de lever les ambiguïtés locales au niveau de la phrase et celles relevant du domaine. Ce modèle est inspiré des modèles vectoriels très utilisés dans le domaine de la recherche documentaire.

2005

pdf bib abs
Un système de génération automatique de dictionnaires linguistiques de l’arabe
Ahmed Haddad | Mounir Zrigui | Mohamed Ben Ahmed
Actes de la 12ème conférence sur le Traitement Automatique des Langues Naturelles. Articles courts

L’objectif de cet article est la présentation d’un système de génération automatique de dictionnaires électroniques de la langue arabe classique, développé au sein du laboratoire RIADI (unité de Monastir). Ce système entre dans le cadre du projet “oreillodule”: un système embarqué de synthèse, traduction et reconnaissance de la parole arabe. Dans cet article, nous présenterons, les différentes étapes de réalisation, et notamment la génération automatique de ces dictionnaires se basant sur une théorie originale : les Conditions de Structures Morphématiques (CSM), et les matrices lexicales.

pdf bib abs
Durée des consonnes géminées en parole arabe : mesures et comparaison
Mohamed Khairallah Khouja | Mounir Zrigui
Actes de la 12ème conférence sur le Traitement Automatique des Langues Naturelles. REncontres jeunes Chercheurs en Informatique pour le Traitement Automatique des Langues (articles courts)

Dans ce papier, nous présentons les résultats d’une étude expérimentale de la durée des consonnes géminées de l’arabe. Nous visons à déterminer la durée, pour une séquence VCCV, de la consonne géminée CC ainsi que de la voyelle qui la précède. Nous comparons ces valeurs à celles mesurées pour une séquence VCV. Les résultats ont prouvé que la durée de la consonne simple était sensiblement différente de celle géminée, ainsi que la durée de la voyelle précédant la consonne. A la base, ce travail est entrepris dans un but d’étudier l’utilisation des durées de phonèmes comme une source d’information pour optimiser un système de reconnaissance, donc introduire des modèles explicites de durée des phonèmes, et mettre en application ces modèles comme partie du modèle acoustique du système de reconnaissance.

pdf bib abs
Un système de lissage linéaire pour la synthèse de la parole arabe : Discussion des résultats obtenus
Tahar Saidane | Mounir Zrigui | Mohamed Ben Ahmed
Actes de la 12ème conférence sur le Traitement Automatique des Langues Naturelles. REncontres jeunes Chercheurs en Informatique pour le Traitement Automatique des Langues (articles courts)

Notre article s’intègre dans le cadre du projet intitulé “Oréodule” : un système embarqué temps réel de reconnaissance, de traduction et de synthèse de la parole. L’objet de notre intérêt dans cet article est la présentation de notre système de synthèse hybride de la parole arabe. Nous présenterons, dans ce papier, les différents modules et les différents choix techniques de notre système de synthèse hybride par concaténation de polyphèmes. Nous détaillerons également les règles de transcription et leurs effets sur le traitement linguistique, les règles de syllabation et leurs impacts sur le coût (temps et difficulté) de réalisation du module acoustique et nous poursuivrons par l’exposé de nos choix au niveau du module de concaténation. Nous décrirons le module de lissage, un traitement acoustique, post concaténation, nécessaire à l’amélioration de la qualité de la voix synthétisée. Enfin, nous présenterons les résultats de l’étude statistique de compréhension, réalisée sur un corpus.

pdf bib abs
Un étiqueteur sémantique des énoncés en langue arabe
Anis Zouaghi | Mounir Zrigui | Mohamed Ben Ahmed
Actes de la 12ème conférence sur le Traitement Automatique des Langues Naturelles. REncontres jeunes Chercheurs en Informatique pour le Traitement Automatique des Langues (articles courts)

Notre article s’intègre dans le cadre du projet intitulé Oréodule: un système de reconnaissance, de traduction et de synthèse de la parole spontanée. L’objectif de cet article est de présenter un modèle d’étiquetage probabiliste, selon une approche componentielle et sélective. Cette approche ne considère que les éléments de l’énoncé porteurs de sens. La signification de chaque mot est représentée par un ensemble de traits sémantiques Ts. Ce modèle participe au choix des Ts candidats lors du décodage sémantique d’un énoncé.

2004

pdf bib abs
La Transcription Orthographique-Phonetique De La Langue Arabe
Tahar Saidane | Mounir Zrigui | Mohamed Ben Ahmed
Actes de la 11ème conférence sur le Traitement Automatique des Langues Naturelles. REncontres jeunes Chercheurs en Informatique pour le Traitement Automatique des Langues (Posters)

Notre article présente les composants nécessaires à la synthèse de la parole arabe. Nous nous attarderons sur la transcription graphème phonème, étape primordiale pour l’élaboration d’un système de synthèse d’une qualité acceptable. Nous présenterons ensuite quelques-unes des règles utilisées pour la réalisation de notre système de traitement phonétique. Ces règles sont, pour notre système, stockées dans une base de données et sont parcourues plusieurs fois lors de la transcription.

Co-authors

Venues

tal1

lrec1