Un guide pour créer un modèle de résumé de texte AI à l’aide de Python

Un guide pour créer un modèle de résumé de texte AI à l’aide de Python


Vous avez peut-être utilisé un outil de synthèse de texte au moins une fois dans votre vie. Il s’agit d’une fonctionnalité grâce à laquelle vous pouvez condenser rapidement et efficacement un long texte en un résumé concis et précis.

Mais en tant que développeur, vous êtes-vous déjà demandé comment ces utilitaires sont construits exactement ? Si tel est le cas, alors la réponse est : ceux-ci peuvent être construits à l’aide de fonctionnalités avancées. langages de programmation comme Python. Python est un langage de haut niveau bien connu et largement utilisé pour développer des outils, des sites Web et des applications.

Dans cet article de blog détaillé, nous expliquerons comment utiliser Python pour développer un modèle de synthèse de texte alimenté par l’IA.

Étapes pour développer un outil de synthèse d’IA à l’aide du langage Python

Voici la procédure étape par étape que vous devez suivre pour créer un modèle de résumé de texte IA spécialisé à l’aide de Python.

1. Décidez du type de modèle de synthèse

    Tout d’abord, vous devez décider quel type de modèle de résumé de texte vous souhaitez créer. Vous avez le choix entre deux options :

    • Modèle extractif – Cet outil fonctionnera en utilisant les mêmes mots et expressions dans le texte d’entrée pour générer un résumé de sortie.
    • Modèle abstrait – Celui-ci a le fonctionnement inverse. Sur la base de votre texte donné, il créera non seulement un résumé, mais utilisera également des mots nouveaux et améliorés que le contenu source ne contient pas.

    Sur Internet, vous trouverez principalement des outils abstraits de synthèse de texte basés sur l’IA. En effet, non seulement ils condensent le texte, mais ils améliorent également sa qualité globale.

    Par conséquent, dans ce guide, nous allons construire un modèle de synthèse abstractif.

    2. Configurer l’environnement

      Pour commencer, créez un environnement virtuel pour procéder au développement. Cela maintient l’environnement de votre projet isolé de l’environnement système, réduisant ainsi le risque de conflits de packages.

      Alors, ouvrez l’invite de commande sur votre ordinateur avec des privilèges administratifs. Il est maintenant temps de changer le répertoire dans lequel vous prévoyez d’enregistrer les fichiers de modèle.

      Voici le code que vous devez saisir :


      
      Python -m venv text_summarization
      text_summarization\Scripts\activate
      
      

      Après avoir entré, appuyez sur le bouton «Entrer“, et votre environnement virtuel sera créé.

      3. Collectez l’ensemble de données

        Si votre objectif est d’affiner le modèle pour améliorer le processus de synthèse global pour un domaine spécifique, comme le texte volumineux. Ensuite, il est important de collecter des ensembles de données. Vous pouvez opter pour des blogs en ligne, des documents de recherche, des revues, des essais, des propositions commerciales, etc., pour obtenir des données, puis les enregistrer dans un fichier au format CSV.

        Alternativement, vous pouvez également utiliser la bibliothèque de jeux de données Hugging Face, qui contient toutes les données requises, vous évitant ainsi d’avoir à les collecter vous-même.

        4. Installez les bibliothèques requises

          Vous devez télécharger et installer plusieurs bibliothèques Python pour créer un modèle de résumé de texte AI. Vous avez besoin de transformateurs, de NLTK, de Torch, de sentencepiece, de rouge-score et plus encore. Se référer à Site officiel de Python pour télécharger ces bibliothèques.

          Une fois terminé, utilisez le code suivant pour commencer le processus d’installation :

          pip installer transformerspip installer torchpip installer nltkpip installer phrasepiecepip installer rouge-score

          N’oubliez pas d’installer l’ensemble de données si vous utilisez Hugging Face.

          ensembles de données d’installation pip

          D’un autre côté, si vous comptez sur votre propre collecte de données, vous devez alors l’importer manuellement à l’aide du code ci-dessous.


          
          from datasets import load_dataset
          # Load a dataset like CNN/DailyMaildataset = load_dataset("cnn_dailymail", "3.0.0")print(dataset['train'][0])
          
          

          5. Importer les dépendances

            Il est maintenant temps de créer un nouveau fichier Python, par exemple summaryr.py, pour finalement commencer à importer les modules requis.


            
            from transformers import pipelineimport nltkimport torch
            
            

            Il est également suggéré de télécharger les tokenizers nécessaires, si nécessaire :


            
            nltk.download('punkt')  # for sentence tokenization
            

            6. Choisir et charger un modèle de synthèse abstractive pré-entraîné

              Dans cette étape, vous devez choisir un modèle de synthèse abstractif qui fera fonctionner votre modèle. Il existe de nombreuses options populaires disponibles avec lesquelles vous pouvez choisir :

              • Bart – particulièrement utile pour la synthèse et d’autres tâches PNL
              • T5 – Idéal pour les données basées sur Google
              • Pegasus – Utile pour Google et optimisé pour des résumés concis

              Pour ce guide, nous utiliserons T5 ; voici le code dont vous aurez besoin pour le chargement.


              
              summarizer = pipeline("summarization", model="T5")
              
              

              7. Créer une fonction de résumé

                Lorsque le modèle est chargé, vous devez alors définir une fonction Python qui permettra au modèle de résumer rapidement et efficacement le texte donné.


                
                def summarize_text(text):    # Adjust the length parameters as needed    summary = summarizer(text, max_length=130, min_length=30, do_sample=False)    return summary[0]['summary_text']
                
                

                8. Gérer les textes volumineux (facultatif mais important)

                  Veuillez noter que les modèles comme BART et T5 ont une limite d’entrée de jetons (généralement 1 024 jetons). Ainsi, si votre texte dépasse cette limite, vous devez absolument le diviser en morceaux plus petits et les résumer individuellement.

                  À cette fin, vous pouvez utiliser le code Python suivant.


                  
                  from nltk.tokenize import sent_tokenize
                  def split_into_chunks(text, max_tokens=1000):    sentences = sent_tokenize(text)    chunks = []    chunk = ""    for sentence in sentences:        if len(chunk) + len(sentence) <= max_tokens:            chunk += " " + sentence        Else:            chunks.append(chunk)            chunk = sentence    chunks.append(chunk)    return chunks
                  def summarize_long_text(text):    chunks = split_into_chunks(text)    summaries = [summarizer(chunk, max_length=130, min_length=30, do_sample=False)[0]['summary_text'] for chunk in chunks]    return " ".join(summaries)
                  
                  

                  9. Testez votre modèle de résumé de texte

                    Enfin, il est maintenant temps de tester votre modèle pour déterminer s’il résume efficacement le texte donné ou non.


                    
                    if __name__ == "__main__":    input_text = """    Enter Your Text Here    """    print("Summary:\n", summarize_long_text(input_text))
                    
                    

                    Entrez votre texte à l’endroit spécifié et exécutez le script pour voir le résultat résumé.

                    C’est donc l’approche éprouvée que vous devez suivre pour créer un outil de synthèse de texte alimenté par l’IA.

                    Un exemple concret de résumé de texte AI basé sur Python

                    Internet regorge d’une large gamme d’outils de synthèse de texte basés sur l’IA. L’un d’eux inclut AI Summarizer – un résumé de texte basé sur Python qui utilise des algorithmes avancés pour condenser rapidement et précisément le texte donné en un résumé précis et concis.

                    Jetez un œil à la capture d’écran ci-dessous comme référence.

                    Source:

                    Ainsi, en suivant l’approche susmentionnée, puis en consacrant du temps et des efforts à la création d’une bonne interface utilisateur, vous pouvez également proposer un modèle comme AI Summarizer.

                    Conclusion

                    Python est un langage de programmation de haut niveau largement utilisé pour créer des outils et des logiciels Web, comme un résumé de texte basé sur l’IA. Il fonctionne en condensant un contenu long en un résumé précis et concis sans sacrifier la qualité et le sens.

                    Dans cet article de blog, nous avons discuté d’une procédure étape par étape pour créer un tel modèle de synthèse de texte à l’aide de Python. Nous espérons que vous trouverez ce blog utile et intéressant !

                    FAQ

                    Python propose une large gamme de bibliothèques basées sur l’IA, telles que NLTK, Hugging Face et Transformers, pour développer et entraîner des modèles de synthèse.

                    Oui, vous pouvez vous appuyer sur des modèles pré-entraînés tels que BART, T5 et bien d’autres pour créer un modèle de synthèse.



Finance

Agen Togel Terpercaya

Bandar Togel

Sabung Ayam Online

Berita Terkini

Artikel Terbaru

Berita Terbaru

Penerbangan

Berita Politik

Berita Politik

Software

Software Download

Download Aplikasi

Berita Terkini

News

Jasa PBN

Jasa Artikel

Leave a Reply

Your email address will not be published. Required fields are marked *