همانطور که ست گودین در سال ۲۰۰۵ نوشت، تحقیق سخت است.
منظورم این است که اگر فکر میکنیم سئو سخت است (و اینطور است)، تصور کنید اگر در تلاش برای ساخت یک موتور جستجو در دنیایی هستید که:
- مصرف کنندگان به طور چشمگیری تغییر می کنند و ترجیحات خود را در طول زمان تغییر می دهند.
- فناوری که آنها تحقیق می کنند هر روز پیشرفت می کند.
- رقبا دائماً پاشنه شما را نیش می زنند.
علاوه بر این، شما همچنین با سئوکاران مزاحم روبرو هستید که سعی می کنند الگوریتم شما را در مورد بهترین روش بهینه سازی برای بازدیدکنندگان خود بازی کنند.
این کار را بسیار دشوار خواهد کرد.
حالا تصور کنید که فناوریهای کلیدی که برای پیشرفت باید به آنها تکیه کنید، محدودیتهای خاص خود را داشته باشند – و شاید بدتر از آن، هزینههای سنگینی داشته باشند.
خوب، اگر شما یکی از نویسندگان مقاله اخیراً منتشر شده، “انتظار مدت پرس و جو انتها به پایان” هستید، این را فرصتی برای درخشش می بینید.
انتظار عبارت جستجوی سرتاسر چیست؟
وزن دهی اصطلاح پرس و جو انتها به انتها به روشی اشاره دارد که در آن وزن هر عبارت در یک پرس و جو به عنوان بخشی از یک مدل کلی تعیین می شود، بدون اینکه به صورت دستی برنامه ریزی شود یا بر روی طرح های وزن دهی اصطلاح سنتی یا سایر مدل های مستقل تکیه شود.
چه شکلی است؟
در اینجا نمونه ای از یکی از تغییرات اصلی مدل ارائه شده در مقاله را می بینیم (به ویژه شکل ۱).
در سمت راست مدل استاندارد (۲) میبینیم، همانطور که با مدل پیشنهادی (۴) انجام میدهیم، که مجموعه (کل مجموعه اسناد در فهرست) به اصطلاحات منتهی میشود که اسناد را هدایت میکند.
این نشان دهنده سلسله مراتب واقعی در سیستم است، اما شما می توانید برعکس، از بالا به پایین فکر کنید. شرایط داریم ما اسنادی با آن شرایط پیدا می کنیم. آن اسناد در مجموعه تمام اسنادی است که ما می شناسیم.
در معماری استاندارد بازیابی اطلاعات (IR) در سمت چپ پایین (۱)، متوجه خواهید شد که هیچ لایه BERT وجود ندارد. پرس و جو استفاده شده در تصویر آنها (کفش های دویدن نایک) وارد سیستم می شود و وزن ها محاسبه شده و به طور مستقل به مدل منتقل می شوند.
در تصویر نشان داده شده در اینجا، وزن به طور مساوی از سه کلمه در سوال عبور می کند. با این حال، لازم نیست اینگونه باشد. این فقط یک مثال پیش فرض و خوب است.
درک این نکته مهم است که وزن ها از خارج از مدل تعیین می شوند و با پرس و جو وارد می شوند. ما به طور لحظه ای توضیح خواهیم داد که چرا این مهم است.
اگر به نسخه وزنی کلمه در سمت راست نگاه کنیم، خواهید دید که “کفش های دویدن نایک” برای تعیین وزن ها وارد BERT (اصطلاح وزن BERT یا TW-BERT) می شود. استفاده شده بهترین خواهد بود. به آن پرس و جو اعمال شد.
از آنجا همه چیز مسیر مشابهی را برای هر دو دنبال می کند، یک تابع امتیازدهی اعمال می شود و اسناد رتبه بندی می شوند. اما یک مرحله نهایی کلیدی در مدل جدید وجود دارد، این واقعاً نکته همه چیز است، محاسبه ضرر رتبه بندی.
این محاسبه، که در بالا به آن اشاره کردم، وزنهایی را که در مدل تخصیص داده میشوند بسیار مهم میکند. برای درک بهتر این موضوع، اجازه دهید در مورد توابع ضرر صحبت کنیم، که برای درک آنچه در اینجا میگذرد بسیار مهم هستند.
تابع ضرر چیست؟
در یادگیری ماشین، یک تابع ضرر اساساً محاسبه می کند که یک سیستم با تلاش برای نزدیک شدن به ضرر تا حد امکان به صفر چقدر اشتباه می کند.
بیایید به عنوان مثال مدلی را در نظر بگیریم که برای تعیین قیمت خانه طراحی شده است. اگر تمام ارقام خانه خود را وارد کرده باشید و ارزش آن ۲۵۰,۰۰۰ دلار باشد، اما خانه شما به قیمت ۲۶۰,۰۰۰ دلار فروخته شود، این تفاوت ضرر محسوب می شود (که یک مقدار مطلق است).
در تعداد زیادی از نمونهها، مدل آموزش داده میشود تا با تخصیص وزنهای مختلف به پارامترهای داده شده، تلفات را به حداقل برساند تا زمانی که به بهترین نتیجه برسد. یک پارامتر، در این مورد، می تواند شامل مواردی مانند فوت مربع، اتاق خواب، اندازه حیاط، نزدیکی به مدرسه و غیره باشد.
حالا به وزن دوره سوال برگردیم
با نگاهی به دو مثال بالا، چیزی که باید روی آن تمرکز کنیم وجود یک مدل BERT برای ارائه وزن به شرایط محاسبه ضرر رتبه بندی است.
به بیان دیگر، در مدلهای معمولی، عبارات مستقل از مدل وزن میشوند و بنابراین، نمیتوانند به عملکرد کلی مدل پاسخ دهند. نتوانست یاد بگیرد که وزن را بهبود بخشد.
در سیستم پیشنهادی، این تغییر می کند. وزن دهی از درون خود مدل انجام می شود و بنابراین، همانطور که مدل سعی می کند عملکرد خود را بهبود بخشد و عملکرد تلفات را کاهش دهد، این شماره های اضافی را برای اضافه کردن به معادله دارد. به معنای واقعی کلمه.
ngrams
TW-BERT برای کارکردن به عنوان کلمات طراحی نشده است، بلکه ngram است.
نویسندگان مقاله به خوبی نشان میدهند که چرا به جای کلمات از انگرام استفاده میکنند، وقتی میگویند که در عبارت «کفشهای دویدن نایک» اگر فقط کلمات را وزن کنید، صفحهای حاوی کلمات نایک، دویدن و کفش نیز میتواند رتبه خوبی به دست آورد. اگر بحث «جوراب دویدن نایک» و «کفش اسکیت» است.
روشهای IR سنتی از آمار پرسوجو و آمار مستند استفاده میکنند و میتوانند صفحاتی را با این مسائل یا مسائل مشابه نشان دهند. تلاش های قبلی برای پرداختن به این موضوع بر همزیستی و نظم متمرکز بود.
در این مدل، ngram ها درست مانند کلمات در مثال قبلی ما وزن می شوند، بنابراین به چیزی شبیه به:
در سمت چپ می بینیم که پرس و جو بر حسب واحد گرم (ngrams 1 کلمه ای) و در سمت راست، bi-gram (ngrams 2 کلمه ای) وزن داده می شود.
این سیستم، به دلیل اینکه وزنها در آن تعبیه شدهاند، میتواند همه دنبالهها را برای تعیین بهترین انگرام و وزنهای مناسب برای هر کدام آموزش دهد، برخلاف اینکه فقط بر آماری مانند فرکانس تکیه کند.
شلیک صفر
ویژگی مهم این مدل عملکرد آن در کارهای حاصل جمع صفر است. نویسندگان آزمایش شده در:
- مجموعه داده MS MARCO – مجموعه داده مایکروسافت برای طبقه بندی اسناد و ارز
- مجموعه داده TREC-COVID – مقالات و مطالعات Covid
- Robust04 – مقالات خبری
- هسته مشترک – مقالات آموزشی و پست های وبلاگ
آنها فقط تعداد کمی سؤال ارزیابی داشتند و از هیچ یک برای تنظیم دقیق استفاده نکردند، و این باعث شد که این یک آزمون صفر شات باشد، با مدلی که برای رتبهبندی خاص اسناد در این حوزهها آموزش داده نشده بود. نتایج این بود:
در اکثر کارها خوب عمل کرد و در پرس و جوهای کوتاه (۱ تا ۱۰ کلمه) به خوبی عمل کرد.
و این پلاگین و بازی است!
خوب، این ممکن است بیش از حد ساده شده باشد، اما نویسندگان می نویسند:
“همسویی TW-BERT با امتیازدهندگان موتور جستجو، تغییرات مورد نیاز برای ادغام آن در برنامههای تولید موجود را به حداقل میرساند، در حالی که روشهای جستجوی مبتنی بر یادگیری عمیق موجود به بهینهسازی زیرساختها و نیازهای سختافزار بیشتری نیاز دارد. وزنهای آموخته شده را میتوان توسط بازیابیهای واژگان استاندارد و سایر بازیابیها استفاده کرد. تکنیک هایی مانند گسترش پرس و جو
از آنجایی که TW-BERT برای ادغام در یک سیستم موجود طراحی شده است، یکپارچه سازی بسیار ساده تر و ارزان تر از گزینه های دیگر است.
همه اینها برای شما چه معنایی دارد؟
با مدلهای یادگیری ماشین، پیشبینی اینکه شما بهعنوان یک SEO میتوانید در مورد آن چه کاری انجام دهید (علاوه بر استقرارهای قابل مشاهده مانند Bard یا ChatGPT) دشوار است.
دنباله ای برای این مدل بدون شک به دلیل پیشرفت ها و سهولت استقرار آن (با فرض صحیح بودن عبارات) به کار گرفته خواهد شد.
گفته میشود، این یک بهبود کیفیت زندگی در گوگل است که رتبهبندی و نتایج صفر شات را با هزینه کمتر بهبود میبخشد.
ما فقط می توانیم اعتماد کنیم که در صورت اجرا، نتایج بهتر با اطمینان بیشتری ظاهر می شود. و این خبر خوبی برای متخصصان سئو است.
نظرات بیان شده در این مقاله نظرات نویسنده مهمان است و لزوماً منعکس کننده نظرات Engine Land نیست. نویسندگان کارکنان در اینجا فهرست شده اند.