GitHub Repository: huggingface/notebooks
Path: blob/main/transformers_doc/ar/tensorflow/token_classification.ipynb
⁴⁵⁴⁴ views

Kernel: Unknown Kernel

In [ ]:

# Transformers installation
! pip install transformers datasets evaluate accelerate
# To install from source instead of the last release, comment the command above and uncomment the following one.
# ! pip install git+https://github.com/huggingface/transformers.git

تصنيف الرموز(Token classification)

In [ ]:

#@title
from IPython.display import HTML

HTML('<iframe width="560" height="315" src="https://www.youtube.com/embed/wVHdVlPScxA?rel=0&amp;controls=0&amp;showinfo=0" frameborder="0" allowfullscreen></iframe>')

يهدف تصنيف الرموز إلى إعطاء تسمية لكل رمز على حدة في الجملة. من أكثر مهام تصنيف الرموز شيوعًا هو التعرف على الكيانات المسماة (NER). يحاول NER تحديد تسمية لكل كيان في الجملة، مثل شخص، أو مكان، أو منظمة.

سيوضح لك هذا الدليل كيفية:

ضبط DistilBERT على مجموعة بيانات WNUT 17 للكشف عن كيانات جديدة.
استخدام نموذجك المضبوط بدقة للاستدلال.

[removed]

للاطلاع جميع البنى والنقاط المتوافقة مع هذه المهمة، نوصي بالرجوع من صفحة المهمة.

قبل أن تبدأ، تأكد من تثبيت جميع المكتبات الضرورية:

pip install transformers datasets evaluate seqeval

نحن نشجعك على تسجيل الدخول إلى حساب HuggingFace الخاص بك حتى تتمكن من تحميل ومشاركة نموذجك مع المجتمع. عندما يُطلب منك، أدخل رمزك لتسجيل الدخول:

In [ ]:

from huggingface_hub import notebook_login

notebook_login()

تحميل مجموعة بيانات WNUT 17

ابدأ بتحميل مجموعة بيانات WNUT 17 من مكتبة 🤗 Datasets:

In [ ]:

from datasets import load_dataset

wnut = load_dataset("wnut_17")

ثم ألق نظرة على مثال:

In [ ]:

wnut["train"][0]

{'id': '0',
 'ner_tags': [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 7, 8, 8, 0, 7, 0, 0, 0, 0, 0, 0, 0, 0],
 'tokens': ['@paulwalk', 'It', "'s", 'the', 'view', 'from', 'where', 'I', "'m", 'living', 'for', 'two', 'weeks', '.', 'Empire', 'State', 'Building', '=', 'ESB', '.', 'Pretty', 'bad', 'storm', 'here', 'last', 'evening', '.']
}

يمثل كل رقم في ner_tags كياناً. حوّل الأرقام إلى أسماء التصنيفات لمعرفة ماهية الكيانات:

In [ ]:

label_list = wnut["train"].features[f"ner_tags"].feature.names
label_list

[
    "O",
    "B-corporation",
    "I-corporation",
    "B-creative-work",
    "I-creative-work",
    "B-group",
    "I-group",
    "B-location",
    "I-location",
    "B-person",
    "I-person",
    "B-product",
    "I-product",
]

يشير الحرف الذي يسبق كل ner_tag إلى موضع الرمز للكيان:

B- يشير إلى بداية الكيان.
I- يشير إلى أن الرمز يقع ضمن نفس الكيان (على سبيل المثال، الرمز State هو جزء من كيان مثل Empire State Building).
0 يشير إلى أن الرمز لا يمثل أي كيان.

المعالجة المسبقة(Preprocess)

In [ ]:

#@title
from IPython.display import HTML

HTML('<iframe width="560" height="315" src="https://www.youtube.com/embed/iY2AZYdZAr0?rel=0&amp;controls=0&amp;showinfo=0" frameborder="0" allowfullscreen></iframe>')

الخطوة التالية هي تحميل مُجزِّئ النصوص DistilBERT للمعالجة المسبقة لحقل tokens:

In [ ]:

from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("distilbert/distilbert-base-uncased")

كما رأيت في حقل tokens المثال أعلاه، يبدو أن المدخل قد تم تحليله بالفعل. لكن المدخل لم يُجزأ بعد ويتعيّن عليك ضبط is_split_into_words=True لتقسيم الكلمات إلى كلمات فرعية. على سبيل المثال:

In [ ]:

example = wnut["train"][0]
tokenized_input = tokenizer(example["tokens"], is_split_into_words=True)
tokens = tokenizer.convert_ids_to_tokens(tokenized_input["input_ids"])
tokens

['[CLS]', '@', 'paul', '##walk', 'it', "'", 's', 'the', 'view', 'from', 'where', 'i', "'", 'm', 'living', 'for', 'two', 'weeks', '.', 'empire', 'state', 'building', '=', 'es', '##b', '.', 'pretty', 'bad', 'storm', 'here', 'last', 'evening', '.', '[SEP]']

ومع ذلك، يضيف هذا بعض الرموز الخاصة [CLS] و[SEP] وتقسيم الكلمات إلى أجزاء يُنشئ عدم تطابق بين المُدخلات والتسميات. قد يتم تقسيم كلمة واحدة تقابل تسمية واحدة الآن إلى كلمتين فرعيتين. ستحتاج إلى إعادة محاذاة الرموز والتسميات عن طريق:

ربط كل رمز بالكلمة الأصلية باستخدام الخاصية word_ids.
تعيين التسمية -100 للرموز الخاصة [CLS] و[SEP] بحيث يتم تجاهلها بواسطة دالة الخسارة PyTorch (انظر CrossEntropyLoss).
تسمية الرمز الأول فقط لكلمة معينة. قم بتعيين -100 لأجزاء الكلمة الأخرى.

هنا كيف يمكنك إنشاء وظيفة لإعادة محاذاة الرموز والتسميات، وقص الجمل لتتجاوز الحد الأقصى لطول مُدخلات DistilBERT:

In [ ]:

def tokenize_and_align_labels(examples):
    tokenized_inputs = tokenizer(examples["tokens"], truncation=True, is_split_into_words=True)

    labels = []
    for i, label in enumerate(examples[f"ner_tags"]):
        word_ids = tokenized_inputs.word_ids(batch_index=i)  # تعيين الرموز إلى كلماتهم المقابلة.
        previous_word_idx = None
        label_ids = []
        for word_idx in word_ids:  # تعيين الرموز الخاصة إلى -100.
            if word_idx is None:
                label_ids.append(-100)
            elif word_idx != previous_word_idx:  # تسمية الرمز الأول فقط لكلمة معينة.
                label_ids.append(label[word_idx])
            else:
                label_ids.append(-100)
            previous_word_idx = word_idx
        labels.append(label_ids)

    tokenized_inputs["labels"] = labels
    return tokenized_inputs

لتطبيق هذه العملية على كامل مجموعة البيانات، استخدم الدالة map لمجموعة بيانات 🤗. يمكنك تسريع الدالة map عن طريق تعيين batched=True لمعالجة عناصر متعددة من مجموعة البيانات في وقت واحد:

In [ ]:

tokenized_wnut = wnut.map(tokenize_and_align_labels, batched=True)

الآن قم بإنشاء دفعة من الأمثلة باستخدام DataCollatorWithPadding.من الأفضل استخدام الحشو الديناميكي للجمل إلى أطول طول في دفعة أثناء التجميع، بدلاً من حشو مجموعة البيانات بالكامل إلى الطول الأقصى.

In [ ]:

from transformers import DataCollatorForTokenClassification

data_collator = DataCollatorForTokenClassification(tokenizer=tokenizer, return_tensors="tf")

التقييم(Evaluate)

يُعدّ تضمين مقياس أثناء التدريب مفيدًا في تقييم أداء نموذجك. يمكنك تحميل طريقة تقييم بسرعة مع مكتبة 🤗 Evaluate. لهذه المهمة، قم بتحميل إطار seqeval (انظر جولة 🤗 Evaluate quick tour لمعرفة المزيد حول كيفية تحميل وحساب مقياس). يُخرج seqeval عدة نتائج: الدقة، والاستذكار، ومقياس F1، والدقة.

In [ ]:

import evaluate

seqeval = evaluate.load("seqeval")

احصل على تسميات الكيانات المسماة (NER) أولاً،ثم أنشئ دالة تُمرر تنبؤاتك وتسمياتك الصحيحة إلى compute لحساب النتائج:

In [ ]:

import numpy as np

labels = [label_list[i] for i in example[f"ner_tags"]]

def compute_metrics(p):
    predictions, labels = p
    predictions = np.argmax(predictions, axis=2)

    true_predictions = [
        [label_list[p] for (p, l) in zip(prediction, label) if l != -100]
        for prediction, label in zip(predictions, labels)
    ]
    true_labels = [
        [label_list[l] for (p, l) in zip(prediction, label) if l != -100]
        for prediction, label in zip(predictions, labels)
    ]

    results = seqeval.compute(predictions=true_predictions, references=true_labels)
    return {
        "precision": results["overall_precision"],
        "recall": results["overall_recall"],
        "f1": results["overall_f1"],
        "accuracy": results["overall_accuracy"],
    }

دالة compute_metrics جاهزة للاستخدام، وستحتاج إليها عند إعداد التدريب.

التدريب(Train)

قبل تدريب النموذج، جهّز خريطة تربط بين المعرّفات المتوقعة وتسمياتها باستخدام id2label و label2id:

In [ ]:

id2label = {
    0: "O",
    1: "B-corporation",
    2: "I-corporation",
    3: "B-creative-work",
    4: "I-creative-work",
    5: "B-group",
    6: "I-group",
    7: "B-location",
    8: "I-location",
    9: "B-person",
    10: "I-person",
    11: "B-product",
    12: "I-product",
}
label2id = {
    "O": 0,
    "B-corporation": 1,
    "I-corporation": 2,
    "B-creative-work": 3,
    "I-creative-work": 4,
    "B-group": 5,
    "I-group": 6,
    "B-location": 7,
    "I-location": 8,
    "B-person": 9,
    "I-person": 10,
    "B-product": 11,
    "I-product": 12,
}

[removed]

إذا لم تكن على دراية بتعديل نموذج باستخدام Keras، ألق نظرة على الدليل التعليمي الأساسي هنا!

للتعديل على نموذج في TensorFlow، ابدأ بإعداد دالة محسن، وجدول معدل التعلم، وبعض معلمات التدريب:

In [ ]:

from transformers import create_optimizer

batch_size = 16
num_train_epochs = 3
num_train_steps = (len(tokenized_wnut["train"]) // batch_size) * num_train_epochs
optimizer, lr_schedule = create_optimizer(
    init_lr=2e-5,
    num_train_steps=num_train_steps,
    weight_decay_rate=0.01,
    num_warmup_steps=0,
)

ثم يمكنك تحميل DistilBERT مع TFAutoModelForTokenClassification إلى جانب عدد التسميات المتوقعة، وتخطيطات التسميات:

In [ ]:

from transformers import TFAutoModelForTokenClassification

model = TFAutoModelForTokenClassification.from_pretrained(
    "distilbert/distilbert-base-uncased", num_labels=13, id2label=id2label, label2id=label2id
)

قم بتحويل مجموعات بياناتك إلى تنسيق tf.data.Dataset مع prepare_tf_dataset():

In [ ]:

tf_train_set = model.prepare_tf_dataset(
    tokenized_wnut["train"],
    shuffle=True,
    batch_size=16,
    collate_fn=data_collator,
)

tf_validation_set = model.prepare_tf_dataset(
    tokenized_wnut["validation"],
    shuffle=False,
    batch_size=16,
    collate_fn=data_collator,
)

هيّئ النموذج للتدريب باستخدام compile. لاحظ أن نماذج Transformers تتضمن دالة خسارة افتراضية مرتبطة بالمهمة، لذلك لا تحتاج إلى تحديد واحدة إلا إذا كنت ترغب في ذلك:

In [ ]:

import tensorflow as tf

model.compile(optimizer=optimizer)  # No loss argument!

آخر أمرين يجب إعدادهما قبل بدء التدريب هو حساب درجات seqeval من التنبؤات، وتوفير طريقة لدفع نموذجك إلى Hub. يتم ذلك باستخدام Keras callbacks.

مرر دالة compute_metrics الخاصة بك إلى KerasMetricCallback:

In [ ]:

from transformers.keras_callbacks import KerasMetricCallback

metric_callback = KerasMetricCallback(metric_fn=compute_metrics, eval_dataset=tf_validation_set)

حدد مكان دفع نموذجك والمحلل اللغوي في PushToHubCallback:

In [ ]:

from transformers.keras_callbacks import PushToHubCallback

push_to_hub_callback = PushToHubCallback(
    output_dir="my_awesome_wnut_model",
    tokenizer=tokenizer,
)

ثم جمّع callbacks الخاصة بك معًا:

In [ ]:

callbacks = [metric_callback, push_to_hub_callback]

أخيرًا، أنت جاهز الآن لبدء تدريب نموذجك! قم باستدعاء fit مع بيانات التدريب والتحقق، وعدد الحقبات، وcallbacks لتعديل النموذج:

In [ ]:

model.fit(x=tf_train_set, validation_data=tf_validation_set, epochs=3, callbacks=callbacks)

بمجرد اكتمال التدريب، يتم تحميل نموذجك تلقائيًا إلى Hub حتى يتمكن الجميع من استخدامه!

[removed]

للحصول على مثال أكثر تفصيلاً حول كيفية تعديل نموذج لتصنيف الرموز، ألق نظرة على الدفتر المقابل دفتر PyTorch أو دفتر TensorFlow.

الاستدلال(Inference)

رائع، الآن بعد أن قمت بتعديل نموذج، يمكنك استخدامه للاستدلال!

احصل على بعض النصوص التي تريد تشغيل الاستدلال عليها:

In [ ]:

text = "The Golden State Warriors are an American professional basketball team based in San Francisco."

أبسط طريقة لتجربة نموذجك المُدرب مسبقًا للاستدلال هي استخدامه في pipeline(). قم بتنفيذ pipeline لتصنيف الكيانات المسماة مع نموذجك، ومرر نصك إليه:

In [ ]:

from transformers import pipeline

classifier = pipeline("ner", model="stevhliu/my_awesome_wnut_model")
classifier(text)

[{'entity': 'B-location',
  'score': 0.42658573,
  'index': 2,
  'word': 'golden',
  'start': 4,
  'end': 10},
 {'entity': 'I-location',
  'score': 0.35856336,
  'index': 3,
  'word': 'state',
  'start': 11,
  'end': 16},
 {'entity': 'B-group',
  'score': 0.3064001,
  'index': 4,
  'word': 'warriors',
  'start': 17,
  'end': 25},
 {'entity': 'B-location',
  'score': 0.65523505,
  'index': 13,
  'word': 'san',
  'start': 80,
  'end': 83},
 {'entity': 'B-location',
  'score': 0.4668663,
  'index': 14,
  'word': 'francisco',
  'start': 84,
  'end': 93}]

يمكنك أيضًا تكرار نتائج pipeline يدويًا إذا أردت:

قسّم النص إلى رموز وأرجع المُوتّرات ب TensorFlow:

In [ ]:

from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("stevhliu/my_awesome_wnut_model")
inputs = tokenizer(text, return_tensors="tf")

مرر مدخلاتك إلى النموذج واحصل على logits:

In [ ]:

from transformers import TFAutoModelForTokenClassification

model = TFAutoModelForTokenClassification.from_pretrained("stevhliu/my_awesome_wnut_model")
logits = model(**inputs).logits

استخرج الفئة ذات الاحتمالية الأعلى، واستخدم جدول id2label الخاصة بالنموذج لتحويلها إلى تسمية نصية:

In [ ]:

predicted_token_class_ids = tf.math.argmax(logits, axis=-1)
predicted_token_class = [model.config.id2label[t] for t in predicted_token_class_ids[0].numpy().tolist()]
predicted_token_class

['O',
 'O',
 'B-location',
 'I-location',
 'B-group',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'B-location',
 'B-location',
 'O',
 'O']

تصنيف الرموز(Token classification)

تحميل مجموعة بيانات WNUT 17

المعالجة المسبقة(Preprocess)

التقييم(Evaluate)

التدريب(Train)

الاستدلال(Inference)

Product

Resources

Company