چرا گوگل تمام صفحات سایت را خزش یا ایندکس نمی‌کند؟

چرا گوگل تمام صفحات سایت را خزش یا ایندکس نمی‌کند؟

در دوسال گذشته اغلب کارشناسان سئو و وب مستران مشکل اساسی با ایندکس نشدن صفحات وب داشتند، در مواقعی مشاهده کرده ام بیش از نیمی از صفحات یک سایت پس از گذشت ماه ها هنوز توسط گوگل ایندکس نشده است. منصفانه بخواهیم قضاوت کنیم این فاجعه است :)

حداقل برای من دلیل موجه‌ای در رابطه با ایندکس نشدن صفحات سایت آن هم پس از چندماه وجود ندارد. خاطرم هست که جان مولر در خبری گفته بود اگر بخواهیم مشکل ایندکس نشدن را حل کنیم بایستی تغییرات عمده ای را اینجاد کنیم که این تغییرات منجر به از بین رفتن نتایج و دستاورد های برخی از کسب و کار های اینترنتی می شود. در این مقاله می خواهیم به دلایل ایندکس نشدن صفحات وب بپردازیم و ببینیم مشکل کار از کجاست و ما چطور می‌توانیم این مشکل را حل کنیم. را وبلاگ رضا رحمتی همراه باشید.

چندی پیش در Google SEO Office Hours Hours از جان مولر پرسیده شد که چرا ربات های گوگل صفحات وب را به طور کامل خزش و ایندکس نمی‌کند؟ 

شخصی که این سوال را پرسید، شرح داد که این میزان از crawl کردن ربات های گوگل برای سایت های بزرگ اصلا کافی نیست. جان مولر در پایان توضیحات، پاسخ این سوال را داد که در ادامه به آن می پردازیم. قبل از همه اینها می خواهم شما را با چند مفهوم آشنا کنم تا با اطلاعات کافی به خواندن مقاله بپردازید.

بودجه خزش (Google Crawl) چیست؟

GoogleBot نام خزنده گوگل است که به صفحات وب می رود و آنها را برای رتبه بندی ایندکس می کند. ربات های گوگل دائما در حال Crawl کرد یا خزش در وب هستند.

از آنجا که وب بسیار گسترده است، گوگل این استراتژی یا سیاست را دارد که فقط صفحات وب، با کیفیت بالا را ایندکس کند و صفحات وب با کیفیت، پایین را ایندکس نکند.

مطالب زیر از صفحه توضیحات گوگل در رابطه با بودجه خزش آورده شده است:

"به مقدار زمان و منابعی که گوگل به خزش در یک سایت اختصاص می دهد،  بودجه خزش سایت گفته می شود.

توجه داشته باشید که همه موارد موجود در سایت شما لزوماً ایندکس نمی شوند. هر صفحه باید تلفیق و ارزیابی شود تا مشخص شود که آیا بعد از خزیدن، ایندکس بمی شود یا خیر.

بودجه خزیدن توسط دو عنصر اصلیه محدودیت ظرفیت خزیدن و تقاضای خزیدن تعیین می شود. "

چه چیزی بودجه خزش ربات های گوگل را تعیین می کند؟

شخصی که از جان مولر سوال پرسیده بود بیان می کند سایتی با صدها هزار صفحه دارد اما گوگل فقط حدود 2000 صفحه از سایت اش را در روز Crawl می‌کند بود، این میزان خزش برای چنین سایت بزرگی بسیار بد است.

این شخص در ادامه مطرح می‌کند:

"توصیه ای برای فهمیدن بودجه خزش فعلی دارید؟

فقط به این دلیل که احساس می کنم ما تمام تلاش‌مان را انجام داده ایم تا پیشرفت هایی در زمینه افزایش بودجه خزش حاصل شود ولی چیزی مشاهده نکرده ایم.”

مولر از آن شخص پرسید سایت شما چقدر بزرگ است؟

پاسخ:

"سایت ما صدها هزار صفحه دارد. در گزارش Coverage سرچ کنسول مشاهده کرده ام روزانه 2000 صفحه خزش می شود و بیش از 60000 صفحه در حالت Discovered currently not indexed می باشد.

جان مولر پاسخ داد:

"من دو دلیل اصلی برای اینکه چرا این اتفاق افتاده است می بینم.

به احتمال زیاد سرور شما خیلی کند است، و این باعث می شود زمان Respons ها طولانی باشد. این مورد را می توانید در گزارش خزنده مشاهده کنید. اگر بخواهم عددی را برای پاسخ به درخواست ها بگویم، باید بگویم متوسط زمان برای پاسخ به درخواست ها چیزی حدود 300 تا 400 میلی ثانیه است.

این عدد برای سرعت لود سایت نیست بلکه مربوط به سرعت پاسخ دهی به درخواست ها از طرف سرور است. این امر به ربات های گوگل اجازه میدهد تا جایی که می‌توانند در سایت خزش کنند.

بنابراین خیلی مراقب سرعت سرور باشید.

کیفیت سایت می تواند بودجه خزیدن GoogleBot را تحت تأثیر قرار دهد

در ادامه جان مولر به کیفیت سایت اشاره می‌کند. کیفیت پایین سایت باعث می‌شود خزنده (GoogleBot) در وب سایتی خزش نکند.

جان مولر در ادامه توضیح می‌دهد:

"دلیل مهم دیگر اینکه است که از کیفیت سایت ها اطمینان نداریم. این دلیلی است که سایت های جدیدتر با آن دسته پنجه نرم می کنند، زیرا تا زمانی که از کیفیت و درستی یک سایت اطمینان حاصل نکنیم کمتر در آن خزش می‌کنیم.

خزنده های گوگل در طول روز میلیون ها صفحه پیدا می‌کنند. تا زمانی که از کیفیت آنها اطمینان حاصل نکنند که، صفحه ها کیفیت درستی دارد یا نه، با احتیاط بیشتری در مورد خزیدن و ایندکس کردن آنها رفتار خواهند کرد.

عواملی که بر تعداد صفحات Crawl شده، تأثیر می گذارد

فاکتورهای دیگری نیز وجود دارد که می تواند در تعداد صفحات خزش شده تاثیرگذار باشد. در ادامه به توضیح این موارد خواهیم پرداخت.

وب سایت هایی که در سرور های اشتراکی میزبانی می شوند ممکن است نتوانند به سرعت صفحات را به گوگل ارائه دهند و این امر باعث کندی سایت آنها شود، این مشکل زمانی به رخ می دهد که سایت ها دیگر بیش از حد از منابع سرور استفاده می کنند و باعث کند شدن سرور می شوند

چیزی که ذهن من را مشغول می کند این مورد است، جان مولر در پاسخ به یکی از کاربران گفته بود: برای گوگل فرقی ندارد که در یک سرور اختصاصی میزبانی می شود یا یک هاست اشتراکی. متاسفانه در مواقعی مشاهده کرده ام، جان مولر گفته های خود را نیز نقض می‌کند.

گاهی فکر میکنم جان مولر فقط می خواهد مشکلات را از سر خود باز کند. با این حال چاره ای نیست جز عمل به گفته های وی :))

یک دلیل دیگری هم هست. اینکه سرور توسط رباتهای مهاجم مورد حمله قرار گرفته باشد و باعث کند شدن وب سایت شوده باشد. حملات DDOS هم بدین منظور استفاده می شود که باعث کند شدن سایت می شود.

توصیه جان مولر برای تست سرعت هاست یا سرور خوب است. جان مولر توصیه میکند حتماًدر ساعات شب سایت را بررسی کنید زیرا بسیاری از خزنده ها مانند Google در ساعات اولیه صبح خزش را شروع میکنند، زیرا این زمان به طور کلی زمان مختل تری برای خزیدن است و در آن ساعت تعداد بازدید کنندگان سایت کمتر است.

استناد

صفحه توسعه دهندگان گوگل در مورد بودجه خزیدن برای سایتهای بزرگ
راهنمای مالکان سایت بزرگ برای مدیریت بودجه خزیدن