گوگل اخیرا مقاله ای منتشر کرده است و یک الگوریتم جدید به نام SMITH را معرفی کرده است و به نظر می رسد که این الگوریتم در حال پیاده سازی است و آپدیت 4 دسامبر شروع به کار این الگوریتم هوش مصنوعی بوده است. این الگوریتم نسخه ی پیشرفته تر الگوریتم BERT است و می توان به جرات گفت مدلی قدرتمند تر برای درک معنا و مفهوم کوئری ها و حتی پاراگراف هاست. حالا با این الگوریتم، هوش مصنوعی گوگل می تواند معنای تمام محتوای موجود در اینترنت را درک کند.
الگوریتم SMITH بسیار مهم است. چون به راحتی BERT را برکنار می کند و معادلات جدیدی را در دنیای سئو ایجاد می کند. در اینجا به این الگوریتم جدید خواهیم پرداخت و نکاتی که تا کنون در مورد آن منتشر شده یا توسط متخصصین حوزه سئو گفته شده اند را به شما خواهیم گفت.
آیا گوگل در حال حاضر از الگوریتم SMITH استفاده می کند؟
گوگل هیچوقت به طور دقیق نمی گوید که از کدام الگوریتم استفاده می کند. چون این اطلاعات متخصصین سئو را برای تقلب و مهندسی معکوس باز می گذارد. از طرفی جایگزینی الگوریتم ها هم کار زمان بری است. حتی گوگل برخی مواقع این الگوریتم ها را ابتدا روی درصد خاصی از وبسایت ها و یا کوئری ها پیاده سازی می کند و بعد به کل سیستم تعمیم می دهد. پس نمی توان به طور دقیق گفت که آیا این الگوریتم در حال حاضر استفاده می شود یا خیر. اما با توجه به قدرتی که این الگوریتم دارد احتمال دارد که گوگل کم کم آن را پیاده سازی کند و ما کم کم نتایج آن را روی سایت های خودمان خواهیم دید.
الگوریتم SMITH چیست؟
الگوریتم SMITH یک مدل جدید برای درک کامل یک محتواست. این محتوا می تواند یک کتاب باشد یا یک صفحه از دنیای وب. مدل BERT بر این پایه طراحی شده بود که کلمات را داخل جملات درک کند و معنای هر کدام را در کل جمله تشخیص دهد. BERT برای شناسایی کوئری هایی استفاده می شد که توسط کاربران در گوگل جستجو می شدند. اما الگوریتم SMITH برای درک جملات داخل پاراگراف ها و کل محتوا استفاده می شود.
SMITH مدل پیشرفته ای از جریان NLP است که گوگل به عنوان سردمدار این حوزه در حال پیاده سازی است. BERT مدلی از هوش مصنوعی است که به مرور زمان قدرت یادگیری داشت و می توانست کلمات را داخل جملات تشخیص دهد و با جمع آوری این کلمات می توانست منظور کاربر حین جستجو را به راحتی درک کند. اما حالا SMITH این نسخه را کامل تر کرده است. همین حالا که شما این متن را می خوانید این الگوریتم همین محتوا را قبلا آنالیز کرده است و دقیقا می داند که چه چیزهایی نوشته شده اند و اگر کاربری عبارتی را جستجو کند این صفحه را به او نشان دهد.
محققین می گویند این الگوریتم ساختار محتوا و تک تک جمله ها را به صورت یک بلوک بررسی می کند و می تواند 2048 کاراکتر را به صورت یکجا پردازش کند. در حالی که این مقدار برای BERT تنها 512 کاراکتر بود.
BERT چه محدودیت هایی دارد؟
BERT نوعی ترنسفورمر است. یعنی یک الگوریتم تبدیل کننده است. کوئری ها را به وکتورها و یا المان هایی تبدیل می کند که برای هوش مصنوعی قابل فهم باشد و می تواند کلمات را در بستر بزرگتری آنالیز کند. اما این الگوریتم صرفا برای متن های کوتاه و در حقیقت جملات مناسب بود. چون حجم آنالیزی که نیاز دارد بسیار زیاد است و ممکن بود سرعت جستجوی گوگل کمتر شود. چون گوگل با هر بار جستجو باید در مدت زمان خیلی خیلی کمی تعداد زیادی محتوا را آنالیز می کرد. از طرفی روزانه 16 درصد از کوئری هایی که در گوگل جستجو می شوند کاملا جدید هستند. یعنی برای اولین بار در گوگل جستجو می شوند که گوگل برای درک این کوئری ها باید حجم محاسبات را بیشتر و بیشتر کند.
اما نمی توان BERT را برای آنالیز محتوای داخل سایت ها به کار برد چون:
- هماهنگ کردن و آنالیز روابط بین محتوای طولانی موجود در سایت ها به شدت سنگین است.
- ساختار محتوا و بخش بندی هر محتوایی که در دنیای وب وجود دارد با بقیه متفاوت است
- بازی های زبانی که توسط نویسندگان داخل یک جمله و جمله های بعدی استفاده می شوند برای این الگوریتم قابل درک نیستند.
- اگر محتوا به صورت تک جمله بررسی شود همبستگی بین محتوا به خوبی شناسایی نمی شود و ممکن است تشخیص گوگل از کیفیت محتوا نادرست باشد.
محتوای متنی طولانی خوراک SMITH است.
الگوریتم SMITH برای درک این محتواهای طولانی به میدان آمده است. در مقاله ای که گوگل منتشر کرده آمده است که:
نتایج تجربی نشان می دهند که این الگوریتم تا حد زیادی در شناسایی و جاگذاری محتوای بلند کارآمد است و به مرور زمان و با اضافه شدن موارد جدید این الگوریتم کم کم به بلوغ می رسد و می تواند در جریان محتوا و همچنین آنالیز زبان طبیعی کارآمدتر شود.
اما نکته مهم اینجاست که SMITH جایگزین BERT نمی شود بلکه در کنار آن جریان جستجو را قدرتمند تر می کند. در حقیقت کارهایی را انجام می دهد که BERT قادر به انجام آن ها نیست.
نکته مهمی که در این مقاله به آن اشاره شده است سازگاری آن با محتوای طولانی است. یعنی نه تنها کوئری ها و جملات را درک می کند بلکه همبستگی کامل آن ها در داخل یک پاراگراف را می فهمد و می تواند این همبستگی را به صورت پاراگراف به پاراگراف هم انتقال دهد که در نوع خودش جالب است.
جزئیات کامل الگوریتم
اما اگر بخواهیم دقیق تر وارد این جزئیات شویم به نظر می رسد باید ابتدا روی امکانات و قابلیت های اولیه آن تمرکز کنیم.
1. آموزش اولیه به الگوریتم
به طور کلی الگوریتم های هوش مصنوعی مبتنی بر یادگیری در ابتدا باید مقادیر اولیه و دیتایی برای آنالیز داشته باشند. بدون این دیتا عملا هوش مصنوعی کار نمی کند. به همین دلیل ابتدا روی یک زبان خاص (معمولا زبان انگلیسی) پیاده سازی می شود و حجم زیادی از دیتا به این الگوریتم داده می شود. مثلا استعاره ها، بازی های زبانی، تغییرات کلمات در یک بازه ی زمانی و … برای این الگوریتم تعریف می شوند. در این آموزش اولیه هوش مصنوعی باید به حدی پیشرفته باشد که خودش بتواند در تست ها جان سالم به در ببرد. مثلا اگر جمله ای با یک جای خالی به الگوریتم داده می شود باید بتواند جای خالی را پر کند.
در مقاله آماده است که این الگوریتم به طور کامل آموزش داده شده است و کامل روی پارادایم های زبانی سوار است. بلوک های زبانی و حتی مدل های تغییریافته آن را تشخیص می دهد و می تواند متناسب با آن حتی در متن های طولانی و یا پاراگراف ها کلماتی که احتمالا حذف شده اند را تشخیص دهد.
2. حذف بلوک های جمله در آموزش اولیه
نکته جالب در مورد این الگوریتم تشخیص بلوک های جمله است. در الگوریتم BERT فقط می توانستیم جای خالی جملات را پر کنیم. اما حالا با این الگوریتم شما می توانید یک پاراگراف به آن بدهید تا جمله حذف شده را برای شما تولید کند. با این مضمون می توان SMITH را معجزه ی NLP گوگل دانست.
3. نتایج تست روی SMITH
تست هایی که محققین حوزه ی NLP روی این الگوریتم انجام داده اند میزان نقص و پراکندگی بسیار کمی را حتی در سخت ترین شرایط داده اند. حتی می توان گفت همبستگی این الگوریتم از BERT هم بالاتر است و برای محتوای طولانی و درک معنای کلی آن به خوبی عمل می کند.
چرا الگوریتم SMITH و درک آن مهم است؟
سئوکارها باید درک درستی از ماهیت الگوریتم ها داشته باشند تا بتوانند استراتژی سئو را مطابق با آن بچینند. اگر الگوریتمی با دیگری جایگزین می شود. مخصوصا اگر این الگوریتم دقیقا با محتوا سروکار داشته باشد تاثیر عمیقی روی سایت ها و مخصوصا رتبه بندی آن ها در گوگل دارد.
به همین دلیل باید تمام بخش های الگوریتم به خوبی بررسی شوند. به طور مثال با درکی که گوگل از محتوا خواهد داشت مسلما ساختاری که باید برای محتوا در آینده بسازیم متفاوت تر خواهد بود. یا نوع محتوا و المان های محتوایی موجود در متن باید کاملا دقیق بررسی شوند. کیفیت محتوا بیشتر در اولویت قرار می گیرد و ترکیب این مدل با سایر مدل هایی که گوگل قبلا توسعه داده بود جلو خطاهای آینده را می گیرد و به عنوان سئوکار در آموزش سئو باید به تمام این مسائل آگاه باشیم.
حالا شما نظر بدهید. به نظر شما با این الگوریتم چه تغییراتی باید در بستر محتوایی ایجاد کرد؟ چطور می توانیم خودمان را با این الگوریتم هماهنگ کنیم؟ هر نظری که در مورد این الگوریتم دارید را با ما و سایر دوستان به اشتراک بگذارید. خوشحال می شویم که نظرات شما را بخوانیم.