archive.today
Ảnh chụp màn hình của trang chủ archive.today | |
Loại website | Lưu trữ web |
|---|---|
| Có sẵn bằng | Đa ngôn ngữ |
| Website |
|
| Yêu cầu đăng ký | Không |
| Bắt đầu hoạt động | 16 tháng 5 năm 2012[2] |
archive.today (trước đây là archive.is) là một trang lưu trữ web lưu các ảnh chụp trang web (snapshot) theo yêu cầu. Trang web hỗ trợ các trang sử dụng nhiều JavaScript chẳng hạn như Google Maps và Twitter.[3] archive.today lưu lại hai snapshot: một bản sao của trang gốc cùng bất kỳ liên kết nào còn hoạt động; bản còn lại là ảnh chụp màn hình của trang đó.[4]
Lịch sử
archive.today được thành lập dưới dạng một trang lưu trữ web vào năm 2012. Ban đầu trang web có tên là archive.today, nhưng sau đó đổi trang sao lưu chính thành archive.is vào tháng 5 năm 2015.[5] Trang web bắt đầu dừng sử dụng tên miền archive.is và thay thế bằng các máy chủ tên miền khác từ tháng 1 năm 2019.[6] Theo người quản trị (điều hành) trang, archive.today đã lưu trữ khoảng 500 triệu trang tính đến năm 2021.[7][8]
Vào tháng 7 năm 2013, archive.today bắt đầu hỗ trợ API của Dự án Memento tại Phòng thí nghiệm Quốc gia Los Alamos.[9][10] Do hạn chế ngân sách tại LANL, Dự án Memento đã giải thể vào tháng 9 năm 2025.[cần dẫn nguồn]
Vào ngày 30 tháng 10 năm 2025, Cục Điều tra Liên bang Hoa Kỳ (FBI) đã triệu tập nhà đăng ký tên miền của archive.today, Tucows. Bên triệu tập nêu rõ mục đích của việc triệu tập này là để xác định chủ sở hữu tên miền archive.today, và là một phần của cuộc điều tra hình sự do FBI tiến hành, tuy vậy bản chất của cuộc điều tra này không được tiết lộ.[11][12]

Vào năm 2023, kỹ sư Jani Patokallio đã công bố một bài điều tra trên blog Gyrovague của mình về các nguồn tài trợ và danh tính người sáng lập archive.today. Điều tra của Patokallio đã được trích dẫn trong nhiều bản tin liên quan đến phiên điều trần năm 2025 của FBI đối với archive.today.[13][14] Vào ngày 14 tháng 1 năm 2026, người ta phát hiện archive.today đã chèn mã độc JavaScript vào trang CAPTCHA của mình để lôi kéo khách truy cập vào một cuộc Tấn công từ chối dịch vụ (DDoS) nhắm vào Gyrovague, trong lúc blog của trang này đăng tải những bài chỉ trích công khai đối với Patokallio. Các email do Patokallio tiết lộ cho thấy archive.today yêu cầu gỡ bỏ tạm thời bài báo của ông và sau đó còn đe dọa ông bằng hình ảnh khiêu dâm bằng AI.[13][14] Vào ngày 20 tháng 2 năm 2026, các biên tập viên của Wikipedia tiếng Anh đã quyết định cấm dùng các liên kết tới archive.today do việc tấn công DDoS kèm bằng chứng cho thấy nội dung lưu trữ đã bị chỉnh sửa để chèn tên của Patokallio.[15]
Tính năng
Bài này đang quá phụ thuộc vào nguồn sơ cấp (ví dụ, hồi ký). (tháng 7 năm 2022) |
Lưu trữ
archive.today có thể thu thập thông tin từ các trang riêng lẻ dựa trên yêu cầu cụ thể của người dùng.[16][17][18] Ngay từ đầu, trang web hỗ trợ thu thập dữ liệu các trang bằng các URL chứa đoạn mã hash-bang (#!) hiện đã lỗi thời.[19] Trang web chỉ ghi lại văn bản và hình ảnh, bỏ qua XML, RTF, bảng tính (xls hoặc ods) và nội dung không tĩnh khác. Dù vậy, video cho một số trang nhất định, như Twitter, sẽ được lưu.[20] Nó theo dõi lịch sử các snapshot được lưu, và yêu cầu xác nhận trước khi thêm ảnh chụp màn hình mới của một trang đã được lưu trước đó.[21][22] Khi một trang web đã được lưu trữ, nó không thể bị xóa trực tiếp bởi bất kỳ người dùng Internet nào.[23] Người dùng có thể tải xuống các trang web đã được lưu trữ dưới định dạng file ZIP, ngoại trừ các trang được lưu trữ kể từ ngày 29 tháng 11 năm 2019,[cập nhật][24] khi archive.today chuyển đổi hệ thống trình duyệt của mình từ PhantomJS sang Chromium (không có chế độ headless).[25] archive.today không tuân theo robots.txt vì nó hoạt động "như một agent trực tiếp của người dùng."[18]
Các trang được chụp trong trình duyệt có độ rộng 1.024 pixel. CSS được chuyển thành CSS nội dòng, loại bỏ thiết kế web đáp ứng và các selector chẳng hạn như :hover và :active. Nội dung tạo bằng cách dùng JavaScript trong quá trình thu thập được hiển thị dưới trạng thái đóng băng.[26]Tên class HTML được giữ lại trong thuộc tính old-class.Khi văn bản được chọn, một applet của JavaScript tạo ra đoạn URL nhìn thấy được trên thanh địa chỉ của trình duyệt nhằm tự động làm nổi bật đoạn văn bản đó khi quay lại trang đó vào lần sau.[cần dẫn nguồn] Các trang web có thể được nhân bản từ archive.today sang web.archive.org dưới dạng sao lưu cấp hai, tuy nhiên archive.today không lưu các snapshot của mình dưới định dạng WARC. Việc lưu trữ ngược lại—từ web.archive.org sang archive.today—cũng có thể thực hiện được,[27] nhưng bản sao thường tốn nhiều thời gian hơn so với bản lưu trực tiếp.

Khi lưu một trang, một danh sách các URL dành cho các thành phần trang riêng lẻ cùng kích thước nội dung, trạng thái HTTP và kiểu phương tiện (MIME) đựoc hiển thị. Danh sách này chỉ xem được trong quá trình thu thập dữ liệu.[cần dẫn nguồn] Người dùng có thể yêu cầu chủ sở hữu loại bỏ quảng cáo, popup hoặc mở rộng liên kết từ các trang được lưu trữ bằng cách gửi yêu cầu trên blog của họ.[28]
Tìm kiếm
Thanh công cụ nghiên cứu cho phép sử dụng các toán tử từ khóa nâng cao, sử dụng * làm ký tự đại diện. Cặp dấu ngoặc kép hướng tìm kiếm đến một chuỗi từ khóa chính xác có trong tiêu đề hoặc nội dung của trang web, trong khi toán tử insite giới hạn tìm kiếm trong một tên miền Internet cụ thể.[29] Khi lưu một danh sách động, hộp tìm kiếm của archive.today chỉ hiển thị kết quả liên kết đề mục trước và sau đó của danh sách đó (v.d. 20 liên kết mỗi trang).[30] Các trang web khác đã lưu được lọc, và đôi khi có thể được tìm thấy chỉ với một trong số lần xuất hiện của nó.[21][cần giải thích] Tính năng tìm kiếm được hỗ trợ bởi Google CustomSearch. Nếu nó không trả về kết quả nào, archive.today sẽ thử sử dụng qua Yandex Search.[31]
Vượt paywall
Người dùng archive.today thường sử dụng dịch vụ vượt các paywall, tương tự trang web cũ 12ft.[11][32]
Kiểm duyệt
Úc và New Zealand
Vào tháng 3 năm 2019, trang web bị một số nhà cung cấp dịch vụ mạng tại Úc và New Zealand chặn trong 6 tháng sau vụ xả súng tại nhà thờ Hồi giáo Christchurch nhằm hạn chế việc phát tán các đoạn phim về vụ tấn công này.[33][34]
Trung Quốc
Theo GreatFire.org, archive.today đã bị chặn tại Trung Quốc đại lục kể từ tháng 3 năm 2016,[cập nhật][35] archive.li kể từ tháng 9 năm 2017,[cập nhật][36] archive.fo kể từ tháng 7 năm 2018,[cập nhật][37] cùng với archive.ph kể từ tháng 12 năm 2019.[cập nhật][38]
Phần Lan
Vào ngày 21 tháng 7 năm 2015, các nhà điều hành đã chặn quyền truy cập vào dịch vụ đối với tất cả địa chỉ IP tại Phần Lan, đồng thời giải thích trên Twitter rằng họ làm điều này để tránh làm leo thang tranh chấp được cho là đang xảy ra giữa họ và chính phủ Phần Lan..[39][40]
Nga
Vào năm 2016, cơ quan truyền thông Nga Roskomnadzor bắt đầu chặn truy cập archive.is từ Nga.[41][42][40]
Tính khả dụng của DNS Cloudflare
đề mục này có thể nhấn mạnh quá mức tới những ý kiến, sự kiện, tranh cãi hoặc vấn đề. (tháng 2 năm 2026) |
Kể từ tháng 5 năm 2018[43][44] dịch vụ DNS 1.1.1.1 của Cloudflare sẽ không phân giải các địa chỉ web của archive.today, dẫn đến việc người dùng dịch vụ DNS của Cloudflare không thể truy cập dịch vụ này. Cả hai bên đều cho rằng bên kia phải chịu trách nhiệm về vấn đề này. Nhân viên Cloudflare cho biết vấn đề này do hạ tầng DNS của archive.today gây ra, do máy chủ tên miền có thẩm quyền của archive.today trả về bản ghi không hợp lệ khi hệ thống mạng của Cloudflare gửi yêu cầu đến archive.today. archive.today phản bác rằng vấn đề là do các yêu cầu của Cloudflare không tuân thủ các tiêu chuẩn về DNS, do Cloudflare không gửi thông tin mạng con máy khách EDNS trong yêu cầu DNS của mình.[45][46]
Xem thêm
- Lưu trữ số – nỗ lực chính thức nhằm đảm bảo thông tin kỹ thuật số có giá trị lâu dài vẫn dễ truy cập, đáng tin cậy và có thể sử dụng được.
- Liên kết hỏng – hiện tượng URL ngừng hoạt động
Tham khảo
- ↑ @archiveis (ngày 30 tháng 10 năm 2019). "a current list of all tor domains and clear net domains" (Tweet) – qua Twitter.
- ↑ "When did the Archive-is site originally launch?". Archive.today Blog. ngày 18 tháng 2 năm 2014. Lưu trữ bản gốc ngày 30 tháng 12 năm 2025. Truy cập ngày 10 tháng 4 năm 2021 – qua Tumblr.
- ↑ Brinkmann, Martin (ngày 22 tháng 4 năm 2015). "Create publicly available web page archives with Archive.is". Ghacks. Lưu trữ bản gốc ngày 12 tháng 4 năm 2019. Truy cập ngày 13 tháng 6 năm 2015.
- ↑ Brunelle, Justin F.; Kelly, Mat; Weigle, Michele C.; Nelson, Michael L. (ngày 25 tháng 1 năm 2015). "The impact of JavaScript on archivability" (PDF). International Journal on Digital Libraries. 17 (2): 95–117. doi:10.1007/s00799-015-0140-8. S2CID 8433375. Lưu trữ (PDF) bản gốc ngày 27 tháng 5 năm 2019.
- ↑ "Why did you change the URL back from archive-today to archive-is?". Blog archive.is. ngày 3 tháng 5 năm 2015. Lưu trữ bản gốc ngày 1 tháng 6 năm 2015. Truy cập ngày 6 tháng 1 năm 2019.
- ↑ @archiveis (ngày 4 tháng 1 năm 2019). "Please do not use archive.IS mirror for linking, use others mirrors [.TODAY .FO .LI .VN .MD .PH]. .IS might stop working soon" (Tweet). Lưu trữ bản gốc ngày 6 tháng 1 năm 2019 – qua Twitter.
- ↑ "What percentage of 5-char-codes is used now? [...]". Archive.is blog. Tumblr. ngày 3 tháng 9 năm 2021. Lưu trữ bản gốc ngày 29 tháng 1 năm 2026. Truy cập ngày 11 tháng 2 năm 2026.
- ↑ Patokallio, Jani (ngày 5 tháng 8 năm 2023). "archive.today: On the trail of the mysterious guerrilla archivist of the Internet". Gyrovague (bằng tiếng Anh). Lưu trữ bản gốc ngày 13 tháng 8 năm 2023. Truy cập ngày 1 tháng 1 năm 2024.
- ↑ Nelson, Michael L. (ngày 9 tháng 7 năm 2013). "Archive.is Supports Memento". Research and Teaching Updates (bằng tiếng Anh). Web Science and Digital Libraries Research Group at Old Dominion University. Lưu trữ bản gốc ngày 27 tháng 7 năm 2013. Truy cập ngày 17 tháng 9 năm 2013.
- ↑ "archive.is". Memento Protocol Information. Memento Development Group. Bản gốc lưu trữ ngày 15 tháng 9 năm 2013. Truy cập ngày 17 tháng 9 năm 2013.
- 1 2 Koebler, Jason. "FBI Tries to Unmask Owner of Infamous Archive.is Site". 404 Media. Bản gốc lưu trữ ngày 6 tháng 11 năm 2025. Truy cập ngày 6 tháng 11 năm 2025.
{{Chú thích web}}: Quản lý CS1: bot: trạng thái URL ban đầu không rõ (liên kết) - ↑ Kirchner, Malte (ngày 5 tháng 11 năm 2025). "Archive.today: FBI Demands Data from Provider Tucows". heise.de.
- 1 2 Brodkin, Jon (ngày 10 tháng 2 năm 2026). "Archive.today CAPTCHA page executes DDoS; Wikipedia considers banning site". Ars Technica (bằng tiếng Anh). Lưu trữ bản gốc ngày 10 tháng 2 năm 2026. Truy cập ngày 11 tháng 2 năm 2026.
- 1 2 Ferreira, Bruno (ngày 15 tháng 2 năm 2026). "Notorious 'Archive Today' website allegedly leads bizarre DDoS campaign against security blogger — Wikipedia considers removing all links to the Archive". Tom's Hardware (bằng tiếng Anh). Truy cập ngày 15 tháng 2 năm 2026.
- ↑ Brodkin, Jon (ngày 20 tháng 2 năm 2026). "Wikipedia blacklists Archive.today, starts removing 695,000 archive links". Ars Technica (bằng tiếng Anh). Lưu trữ bản gốc ngày 20 tháng 2 năm 2026. Truy cập ngày 20 tháng 2 năm 2026.
- ↑ Dascalescu, Dan (ngày 18 tháng 2 năm 2013). "Web page archiving". Dan Dascalescu's Wiki. Bản gốc lưu trữ ngày 22 tháng 9 năm 2013. Truy cập ngày 3 tháng 10 năm 2013.
- ↑ Koebler, Jason (ngày 29 tháng 10 năm 2014). "Dear GamerGate: Please Stop Stealing Our Shit". Motherboard. Lưu trữ bản gốc ngày 1 tháng 2 năm 2026. Truy cập ngày 22 tháng 3 năm 2017.
There is no way for a website to protect itself from having an Archive.today user mirror the site.
- 1 2 "Archive.today FAQ". archive.today (bằng tiếng Anh). Truy cập ngày 15 tháng 2 năm 2019.
- ↑ "Home page of Archive.is in 2013". Bản gốc lưu trữ ngày 12 tháng 1 năm 2013.
- ↑ "Archive.today blog". Lưu trữ bản gốc ngày 7 tháng 9 năm 2021.
- 1 2 Occhipinti, Kris (ngày 15 tháng 4 năm 2016), Archiving Websites with the Archive.is (bằng tiếng Anh), lưu trữ bản gốc ngày 27 tháng 1 năm 2022, truy cập ngày 27 tháng 1 năm 2022 – qua YouTube
- ↑ "Example snapshot history on archive.is".
- ↑ "Some Frequently Asked Question". Archive.today Blog. ngày 24 tháng 1 năm 2013. Lưu trữ bản gốc ngày 26 tháng 9 năm 2013. Truy cập ngày 12 tháng 11 năm 2018 – qua Tumblr.
- ↑ "The "download zip" button has been giving a "Not found" error for quite some time". Archive.is blog. ngày 17 tháng 7 năm 2020. Lưu trữ bản gốc ngày 3 tháng 10 năm 2020.
- ↑ "What scraper or headless browser are you using? it works so well". Archive.is blog. ngày 20 tháng 5 năm 2020. Lưu trữ bản gốc ngày 21 tháng 5 năm 2020. Truy cập ngày 14 tháng 2 năm 2025.
- ↑ Hiệu ứng tải tạo bằng JavaScript của video Dailymotion https://archive.today/20200121182128/https://www.dailymotion.com/video/x3sexy8 xuất hiện theo trạng thái đóng băng (frozen state)
- ↑ https://archive.today/20190324174341/https://web.archive.org/web/20130520191911/https://es.wikipedia.org/wiki/Wikipedia
- ↑ "Example user request on the Archive.is blog". Archive.is blog. Lưu trữ bản gốc ngày 29 tháng 4 năm 2022. Truy cập ngày 7 tháng 4 năm 2022.
- ↑ Ví dụ, chuỗi insite: https://en.wikipedia.org "World Cup" trả về các bản chụp có liên quan đến https://archive.today/search/?q=insite%3A+http%3Aen.wikipedia.org+ "World+Cup"/
- ↑ Ví dụ danh sách động: "au:"thomas aquinas"". WorldCat. Lưu trữ bản gốc ngày 23 tháng 3 năm 2019. Truy cập ngày 15 tháng 12 năm 2018.
- ↑ "Just realized that I can search for keywords in the search bar for archive today, was this a recently added feature?". Archive.is. ngày 18 tháng 1 năm 2022. Lưu trữ bản gốc ngày 27 tháng 1 năm 2022. Truy cập ngày 27 tháng 1 năm 2022.
- ↑ Bonifield, Stevie (ngày 6 tháng 11 năm 2025). "FBI subpoenas the web registrar behind Archive.is". The Verge. Truy cập ngày 18 tháng 2 năm 2026.
The site is commonly used to dodge paywalls, similar to 12ft.io, which the News/Media Alliance successfully had taken down earlier this year, claiming it "offered illegal circumvention technology" to access copyrighted content without paying for it.
- ↑ "ISPs in AU and NZ start censoring the internet without legal precedent". Private Internet Access. ngày 19 tháng 3 năm 2019. Lưu trữ bản gốc ngày 28 tháng 4 năm 2023. Truy cập ngày 20 tháng 3 năm 2019.
- ↑ "New Zealand ISPs Say They're Blocking Sites That Fail To Remove Christchurch Shooting Video". Gizmodo Australia. ngày 19 tháng 3 năm 2019. Bản gốc lưu trữ ngày 18 tháng 5 năm 2019. Truy cập ngày 20 tháng 3 năm 2019.
- ↑ "archive.is is 100% blocked in China". GreatFire Analyzer. ngày 12 tháng 8 năm 2018. Lưu trữ bản gốc ngày 12 tháng 11 năm 2025.
- ↑ "archive.li is 100% blocked in China". Great Fire Analyzer. ngày 12 tháng 8 năm 2018. Lưu trữ bản gốc ngày 6 tháng 1 năm 2026.
- ↑ "archive.fo is 100% blocked in China". Great Fire Analyzer. ngày 12 tháng 8 năm 2018. Lưu trữ bản gốc ngày 1 tháng 10 năm 2025.
- ↑ "archive.ph is 100% blocked in China". en.greatfire.org. Lưu trữ bản gốc ngày 29 tháng 4 năm 2022. Truy cập ngày 7 tháng 4 năm 2022.
- ↑ Lapintie, Lassi (ngày 22 tháng 7 năm 2015). "Suomalaisilta estettiin haktivistien suosimalla verkkosivulla käynti" [Finns' access to website used by hacktivists blocked]. Iltalehti (bằng tiếng Phần Lan). Lưu trữ bản gốc ngày 27 tháng 5 năm 2019. Truy cập ngày 4 tháng 3 năm 2016.
- 1 2 Toler, Aric (ngày 22 tháng 2 năm 2018). "How to Archive Open Source Materials". bellingcat (bằng tiếng Anh). Lưu trữ bản gốc ngày 17 tháng 8 năm 2025. Truy cập ngày 17 tháng 2 năm 2026.
- ↑ Elistratov, Vladimir (ngày 29 tháng 1 năm 2016). "Roskomnadzor zablokiroval servis archive.is, khranyashchiy kopii veb-saytov" Роскомнадзор заблокировал сервис archive.is, хранящий копии веб-сайтов. TJournal (bằng tiếng Nga). Lưu trữ bản gốc ngày 30 tháng 8 năm 2017. Truy cập ngày 30 tháng 1 năm 2016.
- ↑ Cushing, Tim (ngày 4 tháng 2 năm 2016). "Russia Blocks Another Archive Site Because It Might Contain Old Pages About Drugs". Techdirt. Lưu trữ bản gốc ngày 23 tháng 3 năm 2019. Truy cập ngày 26 tháng 2 năm 2016.
- ↑ "Archive.is – Error 1001". Cloudflare Community (bằng tiếng Anh). ngày 15 tháng 5 năm 2018. Lưu trữ bản gốc ngày 2 tháng 12 năm 2021. Truy cập ngày 2 tháng 12 năm 2021.
- ↑ "archive.today & related sites failing again". Cloudflare Community (bằng tiếng Anh). ngày 3 tháng 3 năm 2024. Lưu trữ bản gốc ngày 16 tháng 2 năm 2026. Truy cập ngày 20 tháng 3 năm 2024.
- ↑ @archiveis (ngày 16 tháng 7 năm 2018). "'Having to do' is not so direct here. Absence of EDNS and massive mismatch (not only on AS/Country, but even on the continent level) of where DNS and related HTTP requests come from causes so many troubles so I consider EDNS-less requests from Cloudflare as invalid" (Tweet). Lưu trữ bản gốc ngày 2 tháng 8 năm 2023 – qua Twitter.
- ↑ "Comment by Matthew Prince on Hacker News". Hacker News. ngày 4 tháng 5 năm 2019. Bản gốc lưu trữ ngày 7 tháng 11 năm 2025. Truy cập ngày 4 tháng 10 năm 2021.
Liên kết ngoài
- archive.today tại wiki Archive Team
- Wikipedia:Hướng dẫn cho archive.today
- Tấn công từ chối dịch vụ
- Lịch sử Internet
- Dịch vụ web thành lập năm 2012
- Dịch vụ của Tor
- Trojan
- Dịch vụ lưu trữ web