Việc google crawl và đánh chỉ mục cho một website như thế nào.Với ý kiến của mình thì BOT của google khi đọc được content trên trang với một bài viết mới nhất. Việc đầu tiên là google sẽ đọc nội dung trang và check xem nó là bài viết được copy hay một bài viết mới nhất. Sau đó mới đánh chỉ mục (index) cho link đó kèm theo xếp hạng trên google search. Tức là google bot đã nhận được tín hiệu từ BOT về một content mới xuất hiện trên website nhưng chưa vội vàng đánh chỉ mục và xếp hạng. Dựa trên lịch sử và độ trust của website mà tốc độ index được thay đổi theo thời gian. Ví dụ:
– 1 unique content được xuất bản trên 1 website có lịch sử tốt về chất lượng nội dung thì tốc độ index sẽ được tăng lên.
– 1 content được copy từ nơi khác thì có thêm các trường hợp như sau:
+ copy lên các site chất lượng thấp và có lịch sử unique content kém sẽ được google đánh chỉ mục lâu hơn và thứ hạng từ khóa search chính sác title bài viết thấp hơn so với các trang có bản quyền về nội dung đó (Các website có nội dung đang tải đầu tiên và duy nhất trong một thời điểm). Với hình thức này Google có thể hạn chế được việc “cò gỗ mổ cò thật” đem lại sự công bằng cho các tác giả đã tốn tâm huyết và thời gian để xuất bản một nội dung tốt.
+ Copy lên các website có độ trust cao: Việc sau khi copy bài viết của tác giả lên các trang web được google đánh giá là uy tín ban đầu google vẫn đánh chỉ mục ngay lập tức sau khi post bài. Tuy nhiên sau một thời gian đối chiếu với những dữ liệu text mà BOT trên website tác giả đã chả về, dựa trên thời gian mà bot crawl được các text đó để xếp hạng từ khóa trên google search.
Có rất nhiều Webmaster đặt câu hỏi: “Tại sao bài thằng khác copy của mình mà nó ở trên cả bài của mình tự viết”. mình thấy những câu hỏi kiểu này giống giống câu: Bắc thang lên hỏi ông giời, lấy tiền cho gái có đòi được không? Ông giời ông chả lời không… Đến tao còn dại huống chi là mày”
Vậy là google có ít nhất 2 dữ liệu đánh chỉ mục cho các nội dung mới được xuất bản để đối chiếu.
Tuy nhiên có vẻ như mọi người không tin vào nhận định này của mình nên mình viết bài này để test cho rõ ràng. Mình chắc rằng với bài viết này và độ trust content trên blog của mình thì google sẽ đánh chỉ mục không quá 5 phút cho bài viết này. Nếu google chưa đánh chỉ mục thì dữ liệu text index sẽ được gán vào homepage (nơi mà Google bot “đóng quân” thường xuyên nhất, hoặc ở 1 page bất kỳ nào đó) để trả về kết quả tìm kiếm nếu như search chính xác title hoặc 1 đoạn text của bài viết này.
Nguồn: n g h i e n g 3 6 0