บทเรียนที่ 4 - หากข้อมูลมีจำนวนมาก อ่านไม่ไหว จะทำอย่างไร?

ในทางปฏิบัติ บางโครงการจะมีข้อมูลจำนวนมาก เช่น หลายพัน หลายหมื่นข้อความ การอ่านข้อมูลทีละรายการจะใช้เวลามาก และหากข้อมูลเป็นข้อมูลที่มีเนื้อหารุนแรง อาจส่งผลต่อจิตใจของผู้อ่านข้อมูล

เทคนิคหนึ่งที่จะช่วยให้สามารถติดป้ายคำให้ข้อมูลจำนวนมากได้เร็วขึ้นโดยไม่ต้องอ่านทั้งหมด คือการสร้างคลังคำ (Lexicon) ของป้ายคำต่างๆ แล้วค้นหาข้อมูลที่มีคำในคลังคำ จากนั้นจึงติดป้ายที่สอดคล้องกับคำนั้นทีเดียวในข้อมูลหลายๆ รายการ

ขั้นตอนโดยละเอียด มีดังนี้

วางแผนว่าต้องการสร้าง Column อะไร และป้ายคำ (Label) ทั้งหมดที่จะติด มีอะไรบ้าง เช่น จากตัวอย่างข้อความ Dangerous speech ที่ต้องการจำแนกว่าแต่ละข้อความเป็น Dangerous speech ประเภทไหน ให้สร้าง Column ชื่อ Type แล้วกำหนดป้ายคำ 3 ป้าย ได้แก่ 1) กล่าวหา, 2) ลดทอนความเป็นมนุษย์, 3) โจมตีผู้หญิงและเด็ก ทั้งนี้ ยังไม่ต้องอ่านและใส่ป้ายคำใน Column Type
สร้างคลังคำ (Lexicon) ที่สอดคล้องกับป้ายคำแต่ละป้าย ตัวอย่างเช่น สำหรับป้ายคำ "ลดทอนความเป็นมนุษย์" อาจมี Lexicon คือ "สัตว์" "ไม่ใช่คน" "เสียชาติเกิด" เป็นต้น ทั้งนี้ คำ Lexicon เหล่านี้ ควรเป็นคำที่อยู่ในบริบทของข้อมูลที่เราต้องการวิเคราะห์ คือมีการใช้จริงในข้อมูล โดยวิธีหนึ่งที่ตรวจสอบได้ คือการสุ่มอ่านข้อมูลจำนวนหนึ่ง แล้วค่อยๆ หาคำเหล่านี้ มาสร้างคลังคำ
เมื่อได้คลังคำสำหรับป้ายคำแต่ละป้าย ให้ใช้คำสั่ง Filter กรองเนื้อหาเฉพาะที่มีคำในคลังคำสำหรับแต่ละป้าย เช่น สำหรับป้าย "ลดทอนความเป็นมนุษย์" ให้ Filter คำว่า "สัตว์" "ไม่ใช่คน" "เสียชาติเกิด" โดยแต่ละคำ ให้กำหนดเงื่อนไขการกรอง "Contains" และเชื่อมกันด้วย "Or" เพื่อให้กรองเนื้อหาที่มีคำใดคำหนึ่งในรายการ
จะได้รายการเนื้อหาที่กรองแล้ว ที่มีคำใน Lexicon จากนั้นให้ติดป้ายคำทีเดียวพร้อมกัน เช่น Dehumization ใน Column Type ของเนื้อหาที่กรองแล้ว
ทำซ้ำกระบวนการนี้สำหรับป้ายคำอื่น โดยใช้ชุด Lexicon สำหรับป้ายคำนั้นๆ

เทคนิคนี้ ถึงแม้จะช่วยลดเวลาและทรัพยากรที่ใช้ในการอ่านข้อมูลเพื่อติดป้ายลงได้มาก แต่ก็เป็นการลดคุณภาพของการติดป้ายเช่นเดียวกัน เพราะ Lexicon เป็นเหมือนกฏคร่าวๆ ที่กำหนดว่าหากข้อมูลมีคำใน Lexicon ก็ให้ติดป้ายที่สอดคล้องโดยอัตโนมัติ ซึ่งอาจเกิดการติดผิด หรือติดไม่ครบได้ ดังนั้น ท่านจะต้องพิจารณาว่าประโยชน์จากการใช้เทคนิค Lexicon นี้ คุ้มค่ากับความเสี่ยงหรือคุณภาพที่จะลดลงหรือไม่

กิจกรรม

หากท่านมีชุดข้อมูลที่เก็บมาได้ ลองอ่านเนื้อหาของโพสต์บางรายการ แล้วสร้างคลังคำ (Lexicon) ของข้อความอันตรายที่พบในโพสต์เหล่านั้น สัก 3 คำ จากนั้นลอง Filter ข้อความทั้งหมด โดยเลือกเฉพาะข้อความที่ Contain คำเหล่านั้น แล้วดูว่าพบข้อความมากน้อยแค่ไหน ข้อความมีเนื้อหาเป็นอย่างไร มีลักษณะคล้ายๆ กันตามคำที่กรองหรือไม่

บทเรียนต่อไป >
เทคนิคการรวมกลุ่มแล้วนับข้อความในกลุ่ม (Data grouping and counting, or pivot table)

บทเรียนที่ 4 - หากข้อมูลมีจำนวนมาก อ่านไม่ไหว จะทำอย่างไร?

กิจกรรม

สารบัญ

This learning course is funded and supported by