Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

感觉单字都有很多重码啊 #8

Closed
Elflare opened this issue Jul 26, 2023 · 2 comments
Closed

感觉单字都有很多重码啊 #8

Elflare opened this issue Jul 26, 2023 · 2 comments
Labels
question 用戶疑問

Comments

@Elflare
Copy link

Elflare commented Jul 26, 2023

比如常和尝(ihx),师和室(uibv),导致打常常和尝尝,教师和教室怎么打都会重码。
打词重码就算了,打单不应该重吧😂

@ksqsf
Copy link
Collaborator

ksqsf commented Jul 26, 2023

edit: TL;DR: 其實是有不重的編碼的


關於簡碼分配(fixed詞典),目前的設計考量是:

  1. 簡碼一定對應於主表裏存在的編碼,並且儘可能依照「自然碼標準編碼」和字頻分配,也就是「部首」優先、「大字」優先。
    • 目的:打熟了主模式的人,可以輕易切換到字詞模式上。
      • 我最近幾天就在狂用字詞模式來檢查簡碼錯誤,感覺用起來也挺爽的。
    • 例:簡碼「日」一定用 o 編碼,絕對不會採用容錯碼 r——如果你發現了這樣的錯誤歡迎 PR 或者報告。
    • 這個規則我個人進一步引申爲「義部優先於聲部」,如「視」「覺」先取「見」。
  2. 如果 (1) 部件實在非常罕見大部分人都不認識 或 (2) 拆分讓人無法接受 或 (3) 有更好的離散,才考慮換編碼。
    • (1)例如「纔」右邊的「毚」(chan),自然碼碼表裏有 i 編碼的,我統一修改成下面的「兔」t了。
    • (2)例如「篤」部首也按「竹」算了,雖然實際上它是個形聲字,並且「竹」才是它的聲部……
    • (3)例如「裏」「裹」這種字,我會首選「衣」y部
      • 而且一般來看沒有什麼衝突——我甚至有點驚訝,y 看起來非常 overloaded
      • 另外在 fixed 末尾你應該也可以看到我增加了一些所謂的「隨心碼」,這些編碼其實是無理碼,單純爲了降重的。
  3. 如果某個3碼 abc 可以對應於兩個字 abcd 和 abce,而 abcd 用主模式可以不加 o 打出來,那就把 abc 分配到 abce 上。
    • (一時忘了有哪些字是這個情況了,數量不多。)
  4. 一些較低頻的字分不開就不管了,畢竟打單字慢點就慢點吧。
    • 如:yi;dy 那堆字。
    • 碼表裏其實收了太多罕用字,大部分時候即使重碼,頂多也就用一下次選和三選。

在這個思路優化下,得到的結果是:

  • 常:ihj,j 對應於部首「巾」 1
  • 師:uiv,我的理解是 v 是「追」裏面的部件 2
  • 室:uibv
  • 嘗:ihx
  • 嚐(品嚐):ihki (k口 i嘗)

這樣的話就都是首選,但如果你只用簡化字的話,可能就會覺得有一點意外……除了你提到的這幾個字,還有不少只能從繁體字角度理解的簡碼:

  • 義:yiy(羊) 不是 yid(丶), yid 是衣
  • 長:vha(橫) 不是 vhp(丿),vhp 是彰
  • 營:yyh(火) 不是 yyc(艹),yyc 是英
  • ...

此外,第一個「部首優先」規則產生了一大批有點意外的編碼,但是三碼離散比我想象中還要好一點……比如:載zli, 裁cly,栽zlm 系列

總結一下就是:

  1. 根據我個人的使用經驗,目前感覺常用字的選重率其實不是很高(以至於我都不想管 更換或重製輔助碼 #1 了 233)。不過由於自然碼缺少一個「標準拆分表」3,做的時候不可避免地引入了我個人的主觀見解。
  2. 如果想使用簡碼,就只能從繁體的角度多試試,或者嘗試使用萬能鍵(比如敲 ihx` 可以看到「常」的所有編碼),常用字大概率可以找到一個首選的固定打法。在一段時間熟悉了常用字的簡碼後,再嘗試一下字詞模式,就可以理解爲什麼我又懶得換輔助碼了——其實已經夠好了。。。
  3. 如果不想這麼麻煩,也可以直接改用整句模式,就相當於取消所有簡碼了。

不可否認方案目前還有不少問題,歡迎分享idea一起討論!

Footnotes

  1. 字統網「常」,這部分看起來比較「令人意外」的拆分還有不少,如「式」取「工」、「憂」取「心」(與簡化字「忧」恰好相同)、「贏」取「貝」(去掉「貝」後的整個部件「𣎆」是「贏」的聲部)。

  2. 「歸」gvv 的 v 可以理解成「追」也可以理解成「止」。

  3. 我自己懶得手動拆😂 (sidenote: 寫了一個自動拆分程序,目前主表裏的 # auto 條目均是自動生成的)

@Elflare
Copy link
Author

Elflare commented Jul 26, 2023

  1. 」取「心」(與簡化字「忧」

感谢解答

@ksqsf ksqsf added the question 用戶疑問 label Jul 30, 2023
@Elflare Elflare closed this as completed Aug 18, 2023
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
question 用戶疑問
Projects
None yet
Development

No branches or pull requests

2 participants