Nội quy chuyên mục: Chuyên mục hỗ trợ đội thi của Đại học công nghiệp Hà Nội tham gia cuộc thi "Mùa hè sáng tạo" với ý tưởng MHST11-14 & MHST12-04 Tự động hóa bóc và lấy tin cho trang tin điện tử tổng hợp (tích hợp hệ thống lấy tin tự động cho NukeViet).
#88506 gửi bởi bacat
Ngày 14 Tháng 06 2011 , 19:06
Đây là toàn bộ Hồ sơ của dự án bọn mình đang triển khai.
Rất mong nhận được ý kiến đóng góp và sự giúp đỡ của cộng đồng.
Nhóm mình xin chân thành cảm ơn!
http://www.mediafire.com/?11pxu2egjir0d5q
#90568 gửi bởi vietsgroup
Ngày 07 Tháng 07 2011 , 21:25
làm bằng NN nào thì cũng như nhau thôi, có 2 cách để bóc tách dữ liệu : sử dụng Regular và XPath
Mình thì đang dùng Xpath cách này cho phép truy vấn mã nguồn HTML theo cú pháp của XML, kết hợp với Regular để làm sạch dữ liệu, loại bỏ dữ liệu thừa!
#91872 gửi bởi nopromis
Ngày 21 Tháng 07 2011 , 09:25
Hiện tại mình cũng đang xây dựng hệ thống bóc tách dữ liệu tự động, mình đã tạo ra cấu trúc dạng tree-Dom để người sử dụng có thể chọn phần mình muốn, thông qua XPath để lấy nội dung.Tuy nhiên, mình thấy cách này có vẻ như không trực quan, bởi vì nếu chỉ có tree-dom, thì người sử dụng sẽ không thể biết được phần mình muốn lấy ở đâu trong tree-dom đó.

Bạn nào có ý tưởng nào hay không, hãy gợi ý cho mình với.
#91883 gửi bởi laser
Ngày 21 Tháng 07 2011 , 12:06
Em tham khảo các code này:

Tool get tin pcworld.com.vn đưu vào database NukeViet 3.1: viewtopic.php?f=102&t=17034

modules Tin Vnexpress dùng cho bản nv3.0.10
viewtopic.php?f=110&t=12765

module lấy tin từ VnExpress - nv3
viewtopic.php?f=110&t=11712

Mọi nẻo đường đều dẫn tới tương lai!