چگونه سرچ گوگل کار میکنه؟

اشکان نصیرزاده

مقدمه پاسخ کوتاه ۱- خزیدن ایندکس کردن خدمت دادن (و امتیاز دادن) پاسخ بلند خزیدن خدمت رسانی به نتایج (serving results) هنوز پاسخ با جزئیات بیشتری می خواهید؟

مقدمه

سرچ گوگل چجوری کار می کنه؟ اینجا دو تا جواب بهش میدیم، یکی جواب کوتاه و یکی جواب بلند

گوگل اطلاعات رو از منابع مختلفی تهیه می کنه ، مثل:

- وب پیج ها

- اطلاعات منتشر شده توسط کابران مثل اطلاعات رو نقشه

- اسکن کتاب ها

- دیتابیس های عمومی روی اینترنت

- ...

در هر حال این مقاله روی «وب پیج ها» تمرکز دارد.

پاسخ کوتاه

گوگل برای ساختن نتایج از «وب پیج» ها سه مرحله رو انجام می ده:

۱- خزیدن

اول قدم اینه که بفهمیم چه صفحاتی در داخل وب وجود دارد. یک مرکز ثبت عمومی از تمام وب پیج های موجود وجود ندارد، پس گوگل مجبوره به طور مداوم دنبال صفحات جدید در وب بگرده و اونا رو توی لیست «پیج های شناخته شده» قرار بده. نام دیگر این فرایند خزیدن یا crawling هست.

بعضی از صفحات به این علت که گوگل قبلا روی آنها خزیده شناخته شده هستند. مابقی اینطوری کشف میشن که گوگل یه لینک رو از صفحات شناخته شده دنبال می کنه و به اون صفحات جدید می رسه ولی با این حال این «مابقی صفحات» وقتی کشف می شوند که صاحب یک وب سایت لیستی از صفحات وبش را (sitemap) برای خزیده شدن به گوگل ارسال کند.

برای ارتقا تحت خزیده شدن قرار گرفتن سایتتان:

- برای ارسال یک تغییر در یک صفحه ی سایت به خزنده ی گوگل از submit an individual URL to google استفاده کنید.
- صفحه ی خودتون رو به صفحات دیگری که خزنده ی گوگل قبلا روشون خزیده لینک کنید. (اگه از تبلیغات یا ... لینک بگیرید قبول نیست)
- اگر از گوگل می خواهید که فقط روی یک صفحه براتان بخزد اون صفحه homepage تون باشه بهتره

ایندکس کردن

بعد از اینکه یک صفحه کشف میشه ، گوگل سعی می کنه بفهمه که این صفحه درباره ی چیه که به این پروسه indexing می گویند. گوگل مطالب صفحه رو ، ویدیو ها رو ، عکس ها رو و ... آنالیز می کنه تا بفهمه که صفحه در چه موردی هست و این اطلاعات رو در «گوگل ایندکس» ذخیره می کنه ، دیتابیس بسیار عظیمی که در تعداد بسیار زیادی کامپیوتر ذخیره شده.

برای ارتقا ایندکس شدن صفحاتتون:

- برای صفحتون title های کوتاه و با معنی بسازید.
- از هدینگ هایی استفاده کنید که مفهوم را برساند.
- به جای عکس ها از متون برای رساندن مطالبتون استفاده کنید. (برای عکس و ... اینا هم از alt استفاده کنید.)

خدمت دادن (و امتیاز دادن)

وقتی که کاربری چیزی (query) را تایپ می کند ، گوگل سعی می کند که مربوط ترین نتیجه را از ایندکس خودش با عنایت به فاکتور های زیادی به دست آورد، گوگل مسائلی از قبیل مکان کاربر، زبان کاربر و دیوایس کاربر (موبایل یا دسکتاپ) را در نظر می گیرد. به عنوان مثال سرچ کردن عبارت «bicycle repair shops» برای کاربری در هنگ کنگ نتایج مختلفی را نسبت به کاربری در پارس در بر دارد.

برای ارتقا serving و ranking

- سعی کنید که صفحه ی شما سریع لود شود و همچنین mobile-friendly باشد.
- مطالب مفیدی در سایتتان نگاه داری کنید و همیشه به روز نگاهشان بدارید.
- از مطالب و راهنمایی های Google Webmaster Guidelines که منجر می شود تجربه ی کاربر خوب باشد پیروی کنید.
- SEO starter guide را بخوانید.
- اطلاعات بیشتر را می توانید از اینجا بخوانید از جمله اینکه «راهنمایی که ما آماده کردیم برای امتیاز دهندگان به کیفیت»

پاسخ بلند

خزیدن

خزیدن پروسه ای است که در آن Googlebot صفحات جدید یا آپدیت شده رو کشف می کنه تا به گوگل ایندکس اضافشون کنه

گوگل یک مجموعه ی عظیم از کامپیوتر ها رو ست کرده تا میلیارد ها صفحه ی داخل وب رو fetch (یا crawl) بکنه، نام برنامه ای که این کار رو انجام می ده Googlebot (یا spider یا bot یا robot) است. Googlebot از یک پروسه ی الگوریتمیک استفاده می کنه: برنامه های کامپیوتری محاسبه می کنند که از هر سایت هر چند وقت یکبار و چه تعداد صفحه رو fetch بکنند.

برنامه ی کامپیوتری crawl گوگل با لیستی از url های صفحات وب شروع به کار می کند که از عملیات crawl قبلی به دست آمده اند و خوراک یا آرگومان یا پارامتر این توابع sitemap هایی هست که توسط webmasters تهیه شده اند. همینطور که Googlebot هر صفحه رو مرور می کنه لینک های داخل هر صفحه ی وب رو شناسایی می کنه و اونا رو به لیست صفحاتی که باید crawl شوند اضافه می کنه، سایت های جدید ، تغییرات سایت های موجود و لینک های مرده مورد عنایت قرار گرفته و توسط گوگل برای update ایندکسش استفاده می شوند.

چگونه گوگل یک صفحه را پیدا می کند؟

گوگل از تکنیک های زیادی برای یافتن صفحات وب استفاده می کند:

- دنبال کردن لینک های موجود از سایت های قبلا crawl شده
- خواندن sitemap ها

چگونه گوگل صفحاتی را که نباید crawl شوند را پیدا می کند؟

- پیج هایی که در فایل robots.txt بلاک شده اند crawl نمی شوند اما همچنان شاید index شوند اگر از طرف صفحه ی دیگری لینک شده باشند. (گوگل می تونه به محتوای یک صفحه از طریق لینکی که به اون صفحه داده شده اشاره کنه و همچنین اون صفحه رو ایندکس کنه بدون اینکه محتوای اون صفحه رو تفسیر بکنه)
- گوگل هر صفحه ای را که توسط یک یوزر ناشناس (هر یوزر عادی مثلا نه کاربرای ویژه) قابل دسترسی نباشد را نمی تواند crawl کند، در نتیجه هر گونه login منجر به محروم شدن صفحه از crawl شدن توسط گوگل می شود.
- معمولا صفحاتی که قبلا crawl شده اند و تکراری تصور می شوند معمولا کمتر crawl می شوند.

ارتقا دادن crawling: - یک sitemap بسازید - برای صفحات منحصر به فرد درخواست crawl بدهید. - برای صفحات خودتون url های ساده ، منطقی و خوانا استفاده کنید و لینک های داخلی ساده و مستقیم در سایت خودتون ایجاد کنید. - اگر برای مرور (navigation) صفحات وب سایتتان از پارامتر های url استفاده می کنید، مثلا اگر کشور کاربر را در یک سایت خرید و فروش جهانی در url نشان می دهید از ابزار پارمتر های url برای مشخص کردن پارمتر های مهم برای گوگل استفاده کنید. - از ابزار robots.txt عقلانی استفاده کنید: از robots.txt برای این استفاده کنید که به گوگل نشان دهید چه صفحاتی را ترجیح می دهید که گوگل اول درباره ی آنها بداند یا اول آنها را crawl کند، برای حفاظت از حجم (سنگینی) بار سرور، نه به عنوان راهی برای block کردن موادی از ظاهر شدن در google index - از hreflang برای اشاره به زبان جایگزین صفحات وب خود استفاده کنید. - به وضوح هویت صفحات اصلی و صفحات جایگزین خود را مشخص کنید. - crawl و index coverage خود را از طریق استفاده از گزارش میزان کاور شدن ایندکس مشاهد کنید.

indexing (ضمیمه کردن)

Googlebot به منظور گرداوری کردن یک ضمیمه ی حجیم از تمام کلماتی که می بیند و مکانشان در هر صفحه ، هرکدام از صفحاتی که crawls می کند را پردازش می کند. بعلاوه ما اطلاعاتی را که شامل تگ ها و ویژگی های کلیدی محتوا هستند را پردازش می کنیم. مثل تگ title و ویژگی alt. گوگل بات می تواند انواع زیادی از محتوا را پردازش کند اما نه همه ی انواع موجود را، برای مثال ما نمی توانیم محتوای بعضی از فایل های مدیای سنگین را پردازش کنیم.

جایی مابین crawling و indexing ، گوگل تعیین می کند که آیا یک صفحه duplicate یا برطبق صفحه ی دیگری است یا نه اگر بله اون صفحه خیلی خیلی کمتر crawl خواهد شد.

دقت کنید که گوگل صفحاتی با noindex directive (تگ یا هدر) را ضمیمه نمی کند لذا در هر صورت گوگل باید بتواند directive را ببیند، اگر صفحه ای توسط robots.txt file یا یک صفحه ی login یا هر دیوایس دیگری بلاک شده باشد این امکان وجود دارد که صفحه ضمیمه شود حتی اگر گوگل آن صفحه را نبیند.

ارتقا ضمیمه شدن صفحه

به جهت ارتقا توانایی گوگل برای فهمیدن محتوای صفحه تکنیک های بسیار زیادی وجود دارد:

- گوگل را از crawling یا یافتن صفحاتی که می خواهید مخفی نگاه داشته شوند به وسیله ی noindex محروم کنید. صفحه ای را که به وسیله ی robots.txt بلاک شده است noindex نکنید.اگر چنین کنید noindex دیده نخواهد شد و صفحه ممکن است همچنان ایندکس بشود.
- use structured data
- از google webmasters guidelines پیروی کنید.
- SEO guide گوگل را برای نکات بیشتر بررسی کنید.

خدمت رسانی به نتایج (serving results)

وقتی که یک کاربر یک query را وارد می کند کامپیوتر های گوگل در index ها به دنبال مورد های دارای مطابقت می گردند و نتایجی را که گوگل معتقد است مرتبط ترین نتایج برای کاربر هستند را برمی گرداند. «مرتبط ترین» نتایج را یافتن به بیشتر از ۲۰۰ فاکتور بستگی دارد. گوگل برای انتخاب و رتبه بندی صفحات تجربیات کاربران را در نظر می گیرد بنابراین مطمئن شوید که صفحات شما سریع باز می شوند و mobile-friendly هستند.

بهبود serving

- اگر نتایج شما به کاربرانی در مکان و زبان خاص اختصاص دارد شما می توانید در مورد preferences هایتان به گوگل بگویید.
- مطمئن باشید که صفحات شما سریع و mobile-friendly باز می شوند.
- از webmaster guidelines برای پیشگیری از افتادن در چاله های معروف و ارتقا ranking سایتتان استفاده کنید.
- اجرا کردن ویژگی های نتایج جستجو را برای سایت خودتان در نظر بگیرید ، مثل کارت های دستورالعمل یا کارت های مقاله
- برای سریع تر باز شدن صفحات وبتان در داخل موبایل AMP را اجرا کنید ، برخی از صفحات AMP همچنین واجد شرایط ویژگی های اضافی جست و جو هستند ، مثل top stories carousel
- الگوریتم گوگل به صورت مداوم در حال بهبود است به جای تلاش برای حدس زدن الگورتم و طراحی صفحه خود برای آن ، روی ایجاد محتوای خوب و fresh که کابران می خواهند کار کنید.

هنوز پاسخ با جزئیات بیشتری می خواهید؟

اینجا پیداش می کنید (با عکس و ویدیو)!