Nội dung trùng lặp (Duplicate Content), tổng hợp kiến thức vào năm 2020.

Thanh DươngTác giả: Thanh Dương17/12/2020
1504

Theo định nghĩa của Google về Nội dung trùng lặp (Duplicate Content)  “Nội dung trùng lặp thường đề cập đến các khối nội dung thực sự trong hoặc trên các miền hoàn toàn khớp với nội dung khác hoặc tương tự đáng kể“.

noi-dung-trung-lap-duplicate-content-3

Từ định nghĩa của Google về nội dung trùng lặp ta có thể hiểu một cách sơ lược về vấn đề này như sau:

  • Nội dung sẽ bị đánh dấu trùng lặp nếu có khổi nội dung (văn bản) khớp đáng kể với các nội dung tương tự đã xuất hiện trên internet và được SERP lập chỉ mục trước đó.
  • Nội dung trùng lặp trên miền của website, nó có thể là biến thể của Url giống tương tự với nhau và có khối nội dung giống nhau.

Một cách dễ hiểu, Google sẽ gắn nhãn nội dung trùng lặp trên một miền (tên miền) và các miền khác nhau. Và giờ đây, chúng ta đi tìm hiểu và giải quyết từng vấn đề riêng biệt, cùng nhau nhìn nhận rõ ràng hơn về chủ đề này.

Tại sao SERP không thích nội dung trùng lặp?

Những cỗ máy tìm kiếm như Google, Bing, Yandex… đều không thích nội dung trùng lặp, đơn giản vì nó không tạo ra giá trị cho người dùng và khiến SERP khó sắp xếp trật tự hiển thị trên trang kết quả tìm kiếm.

Về bản chất, nội dung trùng lặp có nghĩa là những nội dung tương tự nhau, giống nhau về câu từ, ngữ nghĩa xuất hiện trên cùng một trang (hoặc các trang khác nhau).

Liên quan: Nội dung và backlink, cái nào tốt hơn cho website?

Vấn đề này giống như việc bạn đứng giữa một ngã ba, và tất cả các hướng đều cùng chỉ đường đến Cầu Nhật Tân. Và lúc này bạn không biết đâu là đường mình nên đi, đâu là hướng chỉ đường đúng, đâu là cung đường giúp bạn di chuyển tiết kiệm thời gian nhất…

Đối với người dùng, bạn chỉ cần quan tâm đến việc nhận được những nội dung trả lời cho truy vấn của mình. Nhưng đối với các công cụ tìm kiếm, nó sẽ phải phân loại nội dung và hiển thị ra loại nội dung chính xác nhất, bởi cùng một nội dung nó sẽ không muốn hiển thị  2 lần.

Google luôn ưu tiên những nội dung có tính chất xây dựng, thẩm quyền và hữu ích cho người dùng. Đơn giản bởi người dùng chính là khách hàng tiềm năng chi trả mọi khoản phí dịch vụ Adword (và các dịch vụ trả phí khác của Google). Và nếu không có họ đồng nghĩa với việc không có doanh thu.

Đối với vấn đề trùng lặp về mặt nội dung ngoài trang, việc xác định và đánh giá được đâu là nội dung hữu gốc, hữu ích nhất để xếp hạng là một vấn không hề đơn giản mặc dù trong suất những năm qua bằng các thuật toán của mình với những bộ lọc thông minh, chất lượng của các kết quả tìm kiếm được trả về của Google đã cải thiện hơn rất nhiều.

Google có thể thẩm định các loại nội dung bằng văn bản khác nhau (kể cả đối với hình ảnh) và biết được đâu là loại nội dung trùng lặp sau đó sẽ lọc ra các trang có thẩm quyền, chuyên môn với nội dung có chất lượng tốt nhất để hiển thị cho truy vấn tìm kiếm.

Với các nội dung trên website bị đánh giá là trùng lặp, nó có thể hạn chế (hoặc không hiển thị) và cũng có thể đẩy lùi thứ hạng về các trang sau của trang kết quả.

Một số nguyên nhân phổ biến tạo ra nội dung trùng lặp.

Một số nguyên nhân dẫn tới việc tạo ra các loại nội dung trùng lặp trên Internet, trong đó bao gồm hai hình thức chính là nội dung trùng lặp ngoài trang và nội dung trùng lặp trên trang.

Nội dung trùng lặp ngoài trang.

Là loại nội dung giống nhau phần lớn về câu chữ, ngôn từ được Google lọc ra. Việc này có thể sảy ra trong quá trình xây dựng nội dung website.

Một trong những cách đơn giản nhất để xây dựng nội dung đó là đi sao chép bài viết từ các trang web khác. Đây là một hình thức “cổ xưa” nhưng hiện vẫn được nhiều người mới biết về SEO hoặc các doanh nghiệp ít kinh nghiệm sử dụng.

Xem thêm: Google EAT 2020 – Cách cải thiện xếp hạng nội dung website.

Lấy nội dung nguyên bản (toàn bộ hoặc một phần) để đưa vào bài viết của mình và không để lại nguồn trích dẫn (liên kết html), trong một số trường hợp họ sử dụng phương thức “Copywriting” để chỉnh sửa chút ít câu từ trong TOFU, BOFU, MOFU của nội dung và cho rằng công cụ tìm kiếm không thể phát hiện ra “điều bất thường” trong đó.

Tuy nhiên, với các bộ lọc ngày càng thông minh. Việc tra cứu và phát hiện ra các nội dung trùng lặp giờ đây quá đơn giản với Google.

Trong một trường hợp khác, có thể do doanh nghiệp thuê đội ngũ xây dựng nội dung bên ngoài, và để rút ngắn thời gian họ sử dụng phương thức sao chép nội dung. Chính vì vậy, nội dung website sẽ có nhiều đoạn văn hoặc toàn bộ nội dung được “bê nguyên bản câu từ, ngữ nghĩa” từ các trang khác về website.

Nội dung trùng lặp trên trang.

Phần lớn nội dung trùng lặp trên trang được phát sinh bởi các nguyên nhân cơ bản sau…

Trùng lặp bởi giao thức http và https, www và không www.

Với các website đã được Google lập chỉ mục với http sau đó chuyển hướng sang giao thức https thông qua việc cài đặt chứng chỉ SSL mà không thực hiện lệnh chuyển hướng, nó sẽ sảy ra vấn đề trùng lặp nội dung.

Website sẽ được lập chỉ mục với cả giao thức http và https, đồng nghĩa với việc sẽ có một bản sao giống nhau y hệt với trang web của bạn. Nó sẽ có dạng…

  • http://owleye.vn
  • https://owleye.vn

Liên quan: Tầm quan trọng của SSL/TLS và cách cài đặt nó cho webiste.

Để xử lý vấn đề này, ngay sau khi cài đặt chứng chỉ SSL và chuyển hướng sang https, hãy sử dụng lệnh chuyển hướng 301 tại trang chủ của website. Và nếu bạn muốn chỉ định một miền chuẩn không có www cho website, cũng thực hiện một lệnh chuyển hướng 301 tương tự.

Đối với trường hợp có hoặc không có www, bạn nên chọn một biến thể Url nhất quán cho website của mình.

Đường dẫn trang của bạn sẽ trông như thế này:

  • https://www.owleye.vn
  • https://owleye.vn

Trước đây trên Google Webmaster Tools có phần chuyển định dạng www hoặc không có www, nhưng hiện nay sau khi kiểm tra đã thấy nó không còn tồn tại trên Google Search Console (tên mới của Webmaster Tools).

Tuy nhiên, nếu bạn không chắc chắn bạn có thể thực hiện lệnh chuyển đổi url chuẩn cho website của mình bằng cách xóa www (hoặc thêm www) ra khỏi tên miền gốc thông qua tệp .htaccess trên thư mục gốc của máy chủ lưu trữ.

Đối với máy chủ Apache.

Xóa www.

RewriteEngine On
RewriteCond %{HTTP_HOST} ^www.example.com$ [NC]
RewriteRule ^(.*)$ http://example.com/$1 [R=301,L]

Thêm www.

RewriteEngine On 
RewriteCond %{HTTP_HOST} ^example.com$ 
RewriteRule (.*) http://www.example.com$1 [R=301]

Lưu ý: Mô-đun mod_rewrite của Apache phải được bật. Nếu không, đoạn mã trên sẽ không hoạt động.

Đối với máy chủ Nginx.

Xóa www.

server {
 server_name www.example.com;
 return 301 http://example.com$request_uri;
}

Thêm www.

server {
 server_name example.com;
 return 301 http://www.example.com$request_uri;
}

Đọc thêm các hướng dẫn của Google về…

Trùng lặp bởi các biến thể URL.

Biến thể Url thường là các tham số ID bài viết, sản phẩm được tự động tạo ra trên CMS (các website sử dụng mã nguồn mở). Nó thường được hiển thị sau dấu “?” dấu “&” hoặc dấu “=”. Nó thường xuất hiện trên các trang thương mại điện tử hoặc các trang điễn đàn.

Nó trông có vẻ như thế này…

  • https://domai.com/?id=1&cat=2
  • https://domai.com/?cat=2&id=1
  • https://domai.com/services/translation?c
  • https://domai.com/services/translation?c…&page3

Cách đơn giản nhất đó là giữ cho đường dẫn website nhất quán ngay từ đầu bằng cách định dạng một Url chuẩn cho website.

Với WordPress bạn có thể chỉnh sửa chúng trong Cài đặt/ Đường dẫn tĩnh. Sau đó chọn (hoặc cấu hình đường dẫn ưa thích của mình) miễn sao không để chúng ở mục cấu hình mặc định.

trung-lap-noi-dung-duplicate-content-va-tat-ca-cac-van-de-can-biet

Trùng lặp nội dung do để bài viết trên nhiều chuyên mục.

Giả sử tôi viết bài này, và nội dung phù hợp với cả chuyên mục SEO và danh mục CMS. Có thể tôi muốn nó hiển thị trên cả hai chuyên mục. Vô tình tôi đã tạo ra một nội dung trùng lặp trên website.

noi-dung-trung-lap-duplicate-content

Trong WordPress, nó cho phép bạn có thể tạo ra cùng nhiều nội dung cho các chuyên mục khác nhau. Chính vì vậy, nếu sơ suất bạn hoàn toàn có thể gán một nội dung cho hai hoặc ba chuyên mục.

Và lúc này nội dung của bạn sẽ xuất hiện trông như thế này…

  • https://domai.com/abs/xyz
  • https://domai.com/eas/xyz

Ngoài ra còn một số yếu tố khác như…

  • Bản in trên trang
  • Dấu gạch chéo với không dấu gạch chéo (https://domain.com/safari/ và https://domain.com/safari)
  • Viết hoa và viết thường (https://domain.com/Noi-That và https://domain.com/noi-that)

Cũng có thể gây ra nội dung trùng lặp, bạn có thể đọc chi tiết của nó tại bài viết “Tránh tạo nội dung trùng lặp” từ Google.

Phiên bản di động hoặc AMP có bị tính là nội dung trùng lặp?

Như đã biết, Google đánh giá cao các website có phiên bản có giao diện thích ứng với thiết bị di động. Trong nhiều trường hợp nếu bạn có một phiên bản cho thiết bị di động (hoặc cài đặt AMP cho website) có định dạng:

  • https://domain.com – Phiên bản website
  • https://m.domain.com – Phiên bản di động
  • https://domain.com/page
  • https://domain.com/amp/page

Và bạn lo lắng rằng, sẽ có hai nội dung cùng xuất hiện cho cả giao diện Desktop và giao diện Mobi. Và có thể nó sẽ bị gắn cờ là trùng lặp về mặt nội dung thì bạn hoàn toàn yên tâm rằng “Google phân biệt được vấn đề này“.

Google bot giờ đây đủ thông minh để phân định được đâu là phiên bản dành cho thiết bị di động và đâu là phiên bản dành cho giao diện máy tính. Do đó, nó sẽ không đánh dấu nội dung này là trùng lặp trên miền của bạn.

Nội dung trùng lặp có ảnh hưởng tới SEO và bị Google trừng phạt?

Có, trong nhiều trường hợp nó ảnh hưởng xấu tới thứ hạng website của bạn nếu nội dung của bạn bị đánh dấu trùng lặp và không phải là nội dung gốc.

Việc tạo ra quá nhiều nội dung trùng lặp khiến Google gặp khó khăn khi xác định đâu là nội dung chuẩn, có thẩm quyền, đạt chất lượng và nào là phiên bản gốc nên được xếp hạng cao nhất.

Google sẽ không biết nên chọn hoặc loại trừ phiên bản nội dung nào ra khỏi chỉ mục của mình. Không biết nên hướng các số liệu liên kết đến một trang hay giữ nó tách biệt giữa nhiều phiên bản.

Và lúc này, Google sẽ lọc qua nội dung trùng lặp và chọn trang mà họ cho rằng nên xếp hạng trong kết quả tìm kiếm, trang này có thể không phải là trang bạn muốn xếp hạng.

Google cũng đã tuyên bố trong chính sách nội dung trùng lặp đại khái rằng “họ không đưa ra hình phạt đối với các nội dung trùng lặp nếu loại nội dung đó không nhằm mục đích lừa đảo, thao túng thứ hạng tìm kiếm“.

noi-dung-trung-lap-duplicate-content-1
Ảnh chụp màn hình.

Thậm chí, trong bài viết “Làm sáng tỏ hình phạt nội dung trùng lặp” được xuất bản năm 2008 Google cũng đã nói rõ “Không có cái gọi là hình phạt nội dung trùng lặp“.

Tuy nhiên, bạn cũng đừng hoàn toàn tin tưởng vào những tuyên bố này, bởi thuật toán Panda luôn sàng lọc những website đánh cắp nội dung bản quyền khi vi phạm nguyên tắc quản trị của Google.

Nếu Google bot sàng lọc (hoặc nhân viên thực hiện thủ công) cho rằng, bạn đang sử dụng nội dung và thủ thuật để thao túng SERP thì trang web của bạn có thể “bay màu” khỏi kết quả tìm kiếm mà không cần lý do. Và sự thực là, bạn không thể biết được rằng “dựa vào các chỉ số nào, tiêu chí nào để đánh giá vấn đề thao túng thứ hạng tìm kiếm

Một khi đã dính án phạt bởi thuật toán Panda, bạn sẽ cần rất nhiều thời gian để làm lại toàn bộ dữ liệu, sau đó nếu được đánh giá lại thì cũng rất lâu các thứ hạng trước đó mới có thể trở lại như ban đầu.

Để tránh trường hợp xấu sảy ra, tôi khuyên bạn nên xây dựng những nội dung có tính chất xây dựng, có thẩm quyền và nếu trích dẫn nội dung luôn để lại một siêu liên kết đến nguồn trích dẫn.

Có nhiều người cho rằng, việc tạo ra một External link sẽ khiến “website bị yếu thế” và đang làm không công cho các website khác, giúp họ nâng cao thứ hạng.

Tuy nhiên đây lại là một quan điểm hết sức sai lầm. Thực tế là, Google luôn muốn thẩm tra nguồn thông tin của bạn để đánh giá mức độ liên quan, tính chính xác, thẩm quyền và độ tin cậy của nội dung thông qua các chương trình liên kết.

Nếu nội dung của bạn được cấp nguồn từ những website có uy tín, nội dung của bạn sẽ được đánh giá cao hơn. Và có thể uy tín của nội dung sẽ tốt hơn và được xếp hạng cao hơn trên trang kết quả công cụ tìm kiếm.

Ngoài ra, bạn còn có thể tránh bị báo cáo từ các website có nội dung gốc liên quan tới việc “vi phạm bản quyền nội dung”.

Cách xác định nội dung trùng lặp.

Cách đơn giản nhất để phát hiện và tìm kiếm các loại nội dung trùng lặp là sử dụng các cấu trúc định dạng tìm kiếm trên chính Google.

Cú pháp : site:example.com intitle: “Keyword X”. Tuy nhiên hiện nay cách nay không còn khả thhi trong nhiều trường hợp. Vậy còn cách nào khác? Tất nhiên bạn có thể kiểm tra nội dung trùng lặp trên trang hoặc ngoài trang qua 3 cách dưới đây.

Dán văn bản, tìm nội dung trùng lặp.

Nếu là người quản trị, bạn có đội ngũ nhân sự biên tập viên nội dung riêng. Hoặc nếu là doanh nghiệp bạn thuê đội ngũ dịch vụ viết bài bên ngoài thì tin chắc rằng bạn luôn quan tâm đến vẫn đề “nội dung có bị xào xáo hay không“.

Các đơn giản nhất là bạn copy nguyên một khối văn bản “nghi ngờ vì thấy quen quen, có thể đọc ở đâu đó rồi” vào ô tìm kiếm của Google. Sau đó thực hiện truy vấn.

Hãy nhớ đặt nội dung đó trong ngoặc kép để Google có thể tìm theo chính xác các text trong khối văn bản bạn muốn kiểm tra.

Sử dụng Copyscape.

Copyscape.com là một công cụ tìm kiếm nội dung trùng lặp trên trang khá hiệu quả, được nhiều người sử dụng.

Thao tác hết sức đơn giản, chỉ cần truy cập vào https://www.copyscape.com/ và dán bất cứ Url nào bạn muốn kiểm tra trong ô tìm kiếm sau đó thực hiện truy vấn. Copyscape sẽ tự động kiểm tra và hiển thị ra cho bạn các kết quả có sự trùng lặp về nội dung.

Sử dụng Seerinteractive.

Tương tự như Copyscape, nhưng Seerinteractive có được nhiều hơn các tính năng khác như việc rà soát nội dung trùng lặp ngoài trang.

Với các công cụ mạnh mẽ, Seerinteractiv có thể phân tích nhiều và chuyên sâu hơn các vấn đề liên quan đến nội dung của website kể cả việc phân tích các loại nội dung ngắn, mỏng.

Lời kết:

  1. Nội dung trùng lặp là một trong những loại nội dung không được SERP “yêu thích” bởi trong nhiều trường hợp, nó khiến SERP “lúng túng” trong việc xác định đâu là nội dung gốc, hữu ích để xếp hạng.
  2. Không có “Hình phạt dành cho loại nội dung trùng lặp”. Đó là tuyên bố của Google, nhưng hãy cẩn trọng với lời tuyên bố này nếu nội dung của bạn thường xuyên cóp nhặt, nhồi nhét từ khóa quá đà, thao túng trang kết quả. Bạn sẽ không bao giờ biết chính xác được lý do tại sao website của mình lại không xuất hiện trên Google.
  3. Nội dung trùng lặp hoàn toàn có thể được tìm thấy và sửa chữa, và nó nên được khắc phục để nội dung có được thứ hạng cao hơn trên SERP.
  4. Luôn để lại một liên kế ngược khi trích dẫn thông tin, dữ liệu từ nguồn đáng tin cậy, có thẩm quyền nếu bạn không muốn bị báo cáo “vi phạm nội dung được bảo vệ” bởi DMCA và Google.

Nguồn tham khảo.

  • https://neilpatel.com/blog/how-to-deal-with-duplicate-content-issues-including-those-created-by-your-cms/
  • https://moz.com/learn/seo/duplicate-content
  • https://ahrefs.com/blog/duplicate-content/#why-is-duplicate-content-bad-for-seo
  • https://yoast.com/duplicate-content/
  • Và từ Google

Nhật Minh

Để lại một bình luận

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *