คอร์ส การวิเคราะห์ข้อมูลโซเชียลมีเดียสำหรับผู้เริ่มต้น
โมดูลที่ 3 - Module 3 : เทคนิคการวิเคราะห์ข้อมูล
บทเรียนที่ 4 - หากข้อมูลมีจำนวนมาก อ่านไม่ไหว จะทำอย่างไร?
ในทางปฏิบัติ บางโครงการจะมีข้อมูลจำนวนมาก เช่น หลายพัน หลายหมื่นข้อความ การอ่านข้อมูลทีละรายการจะใช้เวลามาก และหากข้อมูลเป็นข้อมูลที่มีเนื้อหารุนแรง อาจส่งผลต่อจิตใจของผู้อ่านข้อมูล
เทคนิคหนึ่งที่จะช่วยให้สามารถติดป้ายคำให้ข้อมูลจำนวนมากได้เร็วขึ้นโดยไม่ต้องอ่านทั้งหมด คือการสร้างคลังคำ (Lexicon) ของป้ายคำต่างๆ แล้วค้นหาข้อมูลที่มีคำในคลังคำ จากนั้นจึงติดป้ายที่สอดคล้องกับคำนั้นทีเดียวในข้อมูลหลายๆ รายการ
ขั้นตอนโดยละเอียด มีดังนี้
- วางแผนว่าต้องการสร้าง Column อะไร และป้ายคำ (Label) ทั้งหมดที่จะติด มีอะไรบ้าง เช่น จากตัวอย่างข้อความ Dangerous speech ที่ต้องการจำแนกว่าแต่ละข้อความเป็น Dangerous speech ประเภทไหน ให้สร้าง Column ชื่อ Type แล้วกำหนดป้ายคำ 3 ป้าย ได้แก่ 1) กล่าวหา, 2) ลดทอนความเป็นมนุษย์, 3) โจมตีผู้หญิงและเด็ก ทั้งนี้ ยังไม่ต้องอ่านและใส่ป้ายคำใน Column Type
- สร้างคลังคำ (Lexicon) ที่สอดคล้องกับป้ายคำแต่ละป้าย ตัวอย่างเช่น สำหรับป้ายคำ "ลดทอนความเป็นมนุษย์" อาจมี Lexicon คือ "สัตว์" "ไม่ใช่คน" "เสียชาติเกิด" เป็นต้น ทั้งนี้ คำ Lexicon เหล่านี้ ควรเป็นคำที่อยู่ในบริบทของข้อมูลที่เราต้องการวิเคราะห์ คือมีการใช้จริงในข้อมูล โดยวิธีหนึ่งที่ตรวจสอบได้ คือการสุ่มอ่านข้อมูลจำนวนหนึ่ง แล้วค่อยๆ หาคำเหล่านี้ มาสร้างคลังคำ
- เมื่อได้คลังคำสำหรับป้ายคำแต่ละป้าย ให้ใช้คำสั่ง Filter กรองเนื้อหาเฉพาะที่มีคำในคลังคำสำหรับแต่ละป้าย เช่น สำหรับป้าย "ลดทอนความเป็นมนุษย์" ให้ Filter คำว่า "สัตว์" "ไม่ใช่คน" "เสียชาติเกิด" โดยแต่ละคำ ให้กำหนดเงื่อนไขการกรอง "Contains" และเชื่อมกันด้วย "Or" เพื่อให้กรองเนื้อหาที่มีคำใดคำหนึ่งในรายการ
- จะได้รายการเนื้อหาที่กรองแล้ว ที่มีคำใน Lexicon จากนั้นให้ติดป้ายคำทีเดียวพร้อมกัน เช่น Dehumization ใน Column Type ของเนื้อหาที่กรองแล้ว
- ทำซ้ำกระบวนการนี้สำหรับป้ายคำอื่น โดยใช้ชุด Lexicon สำหรับป้ายคำนั้นๆ
เทคนิคนี้ ถึงแม้จะช่วยลดเวลาและทรัพยากรที่ใช้ในการอ่านข้อมูลเพื่อติดป้ายลงได้มาก แต่ก็เป็นการลดคุณภาพของการติดป้ายเช่นเดียวกัน เพราะ Lexicon เป็นเหมือนกฏคร่าวๆ ที่กำหนดว่าหากข้อมูลมีคำใน Lexicon ก็ให้ติดป้ายที่สอดคล้องโดยอัตโนมัติ ซึ่งอาจเกิดการติดผิด หรือติดไม่ครบได้ ดังนั้น ท่านจะต้องพิจารณาว่าประโยชน์จากการใช้เทคนิค Lexicon นี้ คุ้มค่ากับความเสี่ยงหรือคุณภาพที่จะลดลงหรือไม่
กิจกรรม
หากท่านมีชุดข้อมูลที่เก็บมาได้ ลองอ่านเนื้อหาของโพสต์บางรายการ แล้วสร้างคลังคำ (Lexicon) ของข้อความอันตรายที่พบในโพสต์เหล่านั้น สัก 3 คำ จากนั้นลอง Filter ข้อความทั้งหมด โดยเลือกเฉพาะข้อความที่ Contain คำเหล่านั้น แล้วดูว่าพบข้อความมากน้อยแค่ไหน ข้อความมีเนื้อหาเป็นอย่างไร มีลักษณะคล้ายๆ กันตามคำที่กรองหรือไม่